Reinforcement Learning Teacher 归档 - 每时AI

7B小模型也能教出强推理AI

2025年6月26日8时作者 NLP工程化

Sakana AI提出的新方法RLT让7B模型训练出的学生超过671B模型，且成本仅为传统方法的1/3。