MagicPIG 归档 - 每时AI

CMU等提出MagicPIG！把注意力计算丢给CPU，大模型解码吞吐量提升4.99倍

2024年12月30日8时作者 PaperWeekly

©作者 |
Zhuoming Chen
单位 |
卡耐基梅隆大学
CPU+GPU，模型 KV 缓存压

2024年12月27日14时作者量子位

CMU、华盛顿大学及Meta AI的研究提出MagicPIG，通过CPU上的LSH采样技术缓解GPU内存限制，显著提高LLM解码吞吐量和下游准确率，有望降低模型部署成本。