ArchScale:微软推出的神经架构预训练一站式工具
ArchScale是微软推出的一个神经架构预训练工具,支持多种前沿模型及扩展比例定律,提供优化器、高性能训练和全面评估方案等,适合专业研究和实验。
ArchScale是微软推出的一个神经架构预训练工具,支持多种前沿模型及扩展比例定律,提供优化器、高性能训练和全面评估方案等,适合专业研究和实验。
清华大学NLP实验室提出Delta-CoMe模型增量压缩技术,80G的A100 GPU可加载50个7B模型,节省显存约8倍。该方法结合低秩分解和低比特量化技术,显著提升复杂任务性能并兼顾效率,优于传统微调方法。