CMU等提出MagicPIG!把注意力计算丢给CPU,大模型解码吞吐量提升4.99倍 2024年12月30日8时 作者 PaperWeekly ©作者 | Zhuoming Chen 单位 | 卡耐基梅隆大学 CPU+GPU,模型 KV 缓存压
把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍 2024年12月27日14时 作者 量子位 CMU、华盛顿大学及Meta AI的研究提出MagicPIG,通过CPU上的LSH采样技术缓解GPU内存限制,显著提高LLM解码吞吐量和下游准确率,有望降低模型部署成本。