ExlLlamaV3:为现代消费级GPU优化的本地运行LLMs的量化和推理库

ExlLlamaV3:为现代消费级GPU优化的本地运行LLMs的量化和推理库。亮点:

  1. 支持多种架构,适配更多模型;
  2. EXL3量化格式,高效转换,仅需几分钟到几小时;
  3. 低内存需求,70B模型仅需16GB显存。

参考文献:
[1] http://github.com/turboderp-org/exllamav3



(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往