强化学习归档 - 第12页共46页

机器狗能当羽毛球搭子了！仅靠强化学习从0自学，还涌现出类人回位行为 Science子刊

2025年5月30日16时作者量子位

机器狗通过强化学习学会了打羽毛球，最高挥拍速度达12米/秒，在与人类选手的协作比赛中展示了精准和类人行为。研究结果发表在Science Robotics上。

2025年5月29日23时作者 AI寒武纪

DeepSeek R1-0528版本超越xAI、Meta等成为全球第二大人工智能实验室，并与谷歌并列。其智能指数得分从60分跃升至68分，超过多个顶级模型，提升主要体现在数学竞赛、代码生成和推理方面。

2025年5月29日16时作者量子位

UC Berkeley团队提出的新方法Intuitor通过优化模型自身的置信程度来提升大模型的复杂推理能力，无需外部奖励信号或标准答案。与传统强化学习相比，Intuitor能有效减少无效响应并提高模型在数学和代码生成任务中的表现。

2025年5月29日16时作者机器之心

本文提出ZeroSearch框架，无需真实搜索引擎即可激活大语言模型搜索能力。通过轻量级监督微调将LM转为检索模块，并采用课程学习逐步降低文档质量来激发推理能力，显著降低训练成本和提高性能。

2025年5月29日16时作者机器之心

万亿 MoE 模型，此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra M

MLNLP社区是国内外知名的机器学习与自然语言处理社区。该社区致力于促进学术界、产业界和爱好者间的交流与进步，特别是针对初学者的提升。近期有论文提出Agent蒸馏技术，通过使用检索工具和代码工具让小模型学会像人类一样解决问题，显著提升了小模型在某些任务上的性能。

2025年5月28日23时作者新智元

LM推理性能暴涨24.6%，一举颠覆传统的RL训练认知。
今早的一篇爆火论文，彻底颠覆了人们对「强化

2025年5月28日19时作者老刘说NLP

2025年5月28日，北京晴。文章探讨了从几张图看RAG及Agent的问题和基于自我置信度作为强化学习监督信号的工作，强调实际业务数据的重要性，并指出不要过度依赖Agent智能体解决问题。

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进