turboderp-org 归档 - 每时AI

ExlLlamaV3：为现代消费级GPU优化的本地运行LLMs的量化和推理库

2025年4月8日8时作者 NLP工程化

ExlLlamaV3是为现代消费级GPU优化的本地运行LLMs量化和推理库，支持多种架构，低内存需求，70B模型仅需16GB显存。