7B小模型也能教出强推理AI

Transformer作者之一Llion Jones，其公司Sakana AI提出的方法让模型“像人类教师一样”教学。如此，模型就像有了参考答案，讲解推理过程毫不费力。这种RLT（Reinforcement Learning Teacher）模式，和过去AI训练方式有两个大不同：

教师模型不用再靠“自己解出题”来获得奖励，而是看学生有没有学懂；
每道题不仅给问题，还给答案，让小模型能更专注在“怎么教”上，而不是“怎么解”。

成果也很炸裂：

一个7B的小模型RLT，训练出的学生在推理能力上超过了DeepSeek-R1（671B）【图2】；
教出比自己大4倍的32B模型，效果依然在线；
在AIME、GPQA等高难基准上，RLT表现也优于传统RL方法；
成本压缩到极致：用单节点训练32B模型只需一天，RL方法要好几个月。

参考文献：
[1] https://x.com/SakanaAILabs/status/1936965841188425776
[2] 博客：https://sakana.ai/rlt
[3] 论文：https://arxiv.org/abs/2506.08388
[4] 代码：https://github.com/SakanaAI/RLT
[5] https://huggingface.co/collections/SakanaAI/reinforcement-learning-teachers-6853ed251c99aa3da2228ada

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

发表评论 取消回复

发表评论取消回复