7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLMTransformer作者团队 2025年6月27日14时 作者 机器学习算法与自然语言处理 MLNLP社区是国内外知名的人工智能社区,专注于推动自然语言处理与机器学习的学术交流和技术进步。Sakana AI提出的新方法通过教师模型输出清晰解释来训练学生模型,显著提高了效率。
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO 2025年3月18日16时 作者 机器之心 化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。 近日,