把注意力计算丢给CPU,大模型解码吞吐量提高1.76~4.99倍 下午2时 2024/12/27 作者 量子位 CMU、华盛顿大学及Meta AI的研究提出MagicPIG,通过CPU上的LSH采样技术缓解GPU内存限制,显著提高LLM解码吞吐量和下游准确率,有望降低模型部署成本。