Qwen3-8B 归档 - 每时AI

720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的

2025年6月30日16时作者智东西

华为发布了盘古Pro MoE和盘古Embedded 7B两个新模型，并开源了基于昇腾的模型推理技术。盘古Pro MoE在多项基准测试中超越Qwen3-32B等模型；盘古Embedded 7B则具备灵活切换快慢思考的能力。

2025年6月26日11时作者量子位

奖励模型
训练也形成了学生选择标准答案的学习模式，陷入诸如“长回答=好回答”“好格式=好答案”等错误

MLNLP社区是国内外知名的人工智能和技术交流平台，旨在促进机器学习和自然语言处理领域内的学术与产业界的交流合作。近日发布的论文探讨了改进语言模型推理能力的方法，并提出了一种名为Critique-GRPO的技术方案。