内存优化的推理框架（HeadInfer）归档 - 每时AI

HeadInfer：通过逐头卸载实现内存高效的大语言模型推理

2025年2月26日8时作者 NLP工程化

HeadInfer 是一个内存高效的推理框架，专为大型语言模型设计，通过逐头卸载策略减少 GPU 内存消耗。