混合精度归档

ArchScale：微软推出的神经架构预训练一站式工具

2025年7月24日8时作者 NLP工程化

ArchScale是微软推出的一个神经架构预训练工具，支持多种前沿模型及扩展比例定律，提供优化器、高性能训练和全面评估方案等，适合专业研究和实验。

2025年2月13日12时作者硅星人Pro

服务器繁忙，请稍后再试”，正在让各地用户抓狂。
此前不太被大众所知的DeepSeek，因2024年1

2025年2月10日14时作者 GiantPandaCV

220718268
编辑丨GiantPandaCV
今年 10 月在费城开 COLM 的时候，我有幸

2024年11月29日14时作者量子位

清华大学NLP实验室提出Delta-CoMe模型增量压缩技术，80G的A100 GPU可加载50个7B模型，节省显存约8倍。该方法结合低秩分解和低比特量化技术，显著提升复杂任务性能并兼顾效率，优于传统微调方法。