Magistral发布:用纯RL打造出首个多语言、透明Reasoning大模型!


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

论文:Magistral
链接:https://mistral.ai/static/research/magistral.pdf

为什么说这是推理模型的革命?

传统AI模型增强推理能力依赖“蒸馏”——用大模型生成解题步骤教小模型,如差生直接抄写学霸作业。而Mistral的Magistral首次实现纯强化学习(RL)训练推理模型,让AI从“抄答案”变成“自己刷题进化”。

关键突破:完全抛弃现成解题数据,仅用数学题和编程题作为题库,通过RL让模型自主探索解题路径,最终在AIME数学竞赛题上准确率提升50%!

纯强化学习的三大方法

  • 算法魔改GRPO:抛弃PPO的“监工” critic 模型,用群体平均分作基准(省算力+稳定训练)。公式中红色部分是灵魂改动
    关键操作:放松上限ε (允许探索冷门解题思路)+ 剔除零分小组(避免无效训练)。
  • 多语言自由切换:10%题目翻译成6种语言,用语言一致性奖励强制模型用用户语言推理。结果:中文解题也能丝滑输出!
  • 格式严师出高徒:答案必须用<think>标签包裹,数学答案装进\boxed{},代码用三重引号——格式错直接零分!

训练效率翻倍的方案

异步流水线架构解决RL训练最大痛点:生成答案速度不均(有的1秒写完,有的卡壳5分钟), 进而会导致生成器频繁空闲,流水线效率低下。

  • 三大工人分工:
    • Generator(持续生成答案,不等训练器完成更新)
    • Verifier(秒批卷子打分)
    • Trainer(实时更新模型权重)
  • 关键技巧
    • 权重更新不中断生成
    • 权重在生成中途被替换后回继续续使用旧的 KV 缓存
    • 利用NCCL 在 GPU 间广播(Broadcast)(单次更新<5秒),GPU利用率拉满!

性能炸裂的实锤数据

  • 推理能力:Magistral Medium在AIME数学竞赛题上73.6分(原模型仅26.8),超越DeepSeek-R1。
  • 跨领域通吃:纯数学训练的模型,编程能力竟自动提升15.6%(反哺效应惊人)。
  • 多语言环境下的推理能力:相较于英文版本,非英文版本上的表现下降了 4.3% 到 9.9% (中文63.7% vs 英语73.6%),但仍是突破!

意外发现:多模态的“免费午餐”

最反直觉结论:纯文本训练竟提升图像理解力!

  • 多模态基准MMMU-Pro视觉部分暴涨12%
  • 原理:文本推理的思维链能力迁移到图像问题(案例:光折射/化学键/植物病理分析)

开源小模型的逆袭

Magistral Small(24B参数)开源!

  • 三步打造性价比之王:
    1️⃣ 用Magistral Medium生成题库
    2️⃣ 教给小模型(SFT蒸馏)
    3️⃣ RL强化训练
  • 结果:小模型在多项基准逼平大模型,代码能力反超5.8%!

失败经验同样宝贵

  • 比例奖励陷阱:编程题按测试通过率给分 → 性能反降2%(模糊信号干扰学习)
  • 熵惩罚翻车:加熵鼓励探索 → 数学任务有效,编程任务熵值爆炸!

未来已来:RL的无限可能

Magistral证明:

  • 工具调用能力未受损(87.4%→87.2%)
  • 自主刷题式训练将是下一代AGI核心路径
  • 下一步:更大规模RL + 多模态代理 + 自我进化推理


(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往