强化学习方法归档

Think or No Think? 让推理大模型自己决定是否思考可行性及背后方案梳理

2025年7月27日14时作者老刘说NLP

之一
。这个主要是今天社区有说到Qwen3模型将思考和非思考模型分开的话题，进
而引出了让大模型自己

MLNLP社区是国内外知名的人工智能社区，专注于推动自然语言处理与机器学习的学术交流和技术进步。Sakana AI提出的新方法通过教师模型输出清晰解释来训练学生模型，显著提高了效率。

2025年3月18日16时作者机器之心

化学习效率，不过其论文中似乎还缺少一些关键细节，让人难以复现出大规模和工业级的强化学习系统。
近日，