HeadInfer:通过逐头卸载实现内存高效的大语言模型推理 2025年2月26日8时 作者 NLP工程化 HeadInfer 是一个内存高效的推理框架,专为大型语言模型设计,通过逐头卸载策略减少 GPU 内存消耗。