80G显存塞50个7B大模型!清华&OpenBMB开源增量压缩新算法,显存节省8倍
清华大学NLP实验室提出Delta-CoMe模型增量压缩技术,80G的A100 GPU可加载50个7B模型,节省显存约8倍。该方法结合低秩分解和低比特量化技术,显著提升复杂任务性能并兼顾效率,优于传统微调方法。
清华大学NLP实验室提出Delta-CoMe模型增量压缩技术,80G的A100 GPU可加载50个7B模型,节省显存约8倍。该方法结合低秩分解和低比特量化技术,显著提升复杂任务性能并兼顾效率,优于传统微调方法。
Akash Systems 与美国商务部签署备忘录,计划使用钻石冷却技术提升 GPU 效率,并应用于卫星通信。该技术能降低热点温度、减少风扇速度并提高超频能力。未来或使数据中心节省数百万美元的冷却成本。