ExlLlamaV3:为现代消费级GPU优化的本地运行LLMs的量化和推理库 上午8时 2025/04/08 作者 NLP工程化 ExlLlamaV3是为现代消费级GPU优化的本地运行LLMs量化和推理库,支持多种架构,低内存需求,70B模型仅需16GB显存。