无需采购GPU,1小时内轻松完成100个微调模型部署,按量计费每月立省10万!

团队介绍并指出多业务微调模型部署存在的成本和管理问题。分享了一个成功案例:通过Infini-AI异构云平台·大模型服务平台的Lora自部署模型服务,无需采购GPU即可在1小时内完成100个7BLoRA微调模型的部署,并确保高调用量模型的响应速度,同时实现成本低和资源利用高效。

清华&面壁开源高效压缩技术:一块 80 G A100 轻松加载 50 个 7B 模型

清华大学与面壁智能团队提出Delta Compression技术,通过存储主干模型与任务专用模型之间的参数差值显著降低模型对显卡的存储需求。混合精度压缩方法Delta-CoMe进一步提升了模型推理效率和灵活性,支持多达50个7B模型加载在一块80G A100 GPU上,几乎不损失任务性能。