7B小模型也能教出强推理AI

Transformer作者之一Llion Jones,其公司Sakana AI提出的方法让模型“像人类教师一样”教学。如此,模型就像有了参考答案,讲解推理过程毫不费力。这种RLT(Reinforcement Learning Teacher)模式,和过去AI训练方式有两个大不同:

  • 教师模型不用再靠“自己解出题”来获得奖励,而是看学生有没有学懂;

  • 每道题不仅给问题,还给答案,让小模型能更专注在“怎么教”上,而不是“怎么解”。

成果也很炸裂:

  • 一个7B的小模型RLT,训练出的学生在推理能力上超过了DeepSeek-R1(671B)【图2】;

  • 教出比自己大4倍的32B模型,效果依然在线;

  • 在AIME、GPQA等高难基准上,RLT表现也优于传统RL方法;

  • 成本压缩到极致:用单节点训练32B模型只需一天,RL方法要好几个月。

参考文献:
[1] https://x.com/SakanaAILabs/status/1936965841188425776
[2] 博客:https://sakana.ai/rlt
[3] 论文:https://arxiv.org/abs/2506.08388
[4] 代码:https://github.com/SakanaAI/RLT
[5] https://huggingface.co/collections/SakanaAI/reinforcement-learning-teachers-6853ed251c99aa3da2228ada



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论