昇腾集群归档

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

2025年4月15日16时作者量子位

华为训练出的盘古Ultra模型参数量为135B，在数学、编程等推理任务中与DeepSeek-R1相当。该模型在预训练和指令调优阶段采用了Sandwich-Norm层归一化、TinyInit初始化策略及多并行优化技术，实现了52%以上的算力利用率，并在多个数据集上取得优异表现。