强化学习归档 - 第26页共46页

ICLR 2025 真正「Deep」的「Research」，通过强化学习实现可自主进化的科研智能体来了！

2025年3月31日11时作者机器之心

CycleResearcher 研究团队发布了首个通过强化学习迭代优化训练的 AI 科研智能体，实现了文献检索、模型提问、论文撰写等完整闭环。团队开源了数据集和代码，展示了其在学术研究中的潜力。

2025年3月30日16时作者机器之心

Databricks发布TAO模型调优方法，无需标注数据即可提升LLM性能，甚至超越基于标注数据的传统微调技术。

MLNLP社区致力于促进机器学习与自然语言处理领域的学术交流与进步。文章介绍了如何解决大型推理模型（LRMs）带来的冗余思考问题，包括字数预算、双系统切换、模型路由等方法，并探讨了未来高效推理的发展方向。

2025年3月27日11时作者量子位

这段时间，蚂蚁一篇技术论文引发关注。论文中显示，他们推出的两款MoE大模型，能够在国产GPU上完成

2025年3月26日23时作者机器人开放社区

魔法原子举办「原子双生」2025场景战略发布会，推出人形机器人和四足机器人，并宣布量产计划及落地应用场景。预计今年将有400台人形机器人进入工业、商业场景。人形机器人小麦在商场不同场景展示多样化工作岗位，并展示了与追觅科技合作的具身智能大模型原子万象。

2025年3月26日23时作者量子位

人形机器人独角兽Figure展示了利用强化学习实现的自然人形行走技术，机器人步态更像人、速度更快，并且在不同场景下均表现出优异性能。

2025年3月26日8时作者新智元

谷歌最新发布的Gemini 2.5 Pro模型在推理和代码能力上表现优异，横扫多个基准测试排行榜榜首，并且实现了显著的性能提升。

2025年3月25日23时作者极市干货

.zhihu.com/p/22128744640
编辑丨极市平台
极市导读
本文以通俗易懂的方式剖析