
近日,ACM 将 2024 年的图灵奖授予强化学习之父 Richard S. Sutton 和其导师 Andrew G. Barto,以表彰他们在强化学习领域的开创性贡献。正如 Sutton 所言:“尽管生成式 AI 目前备受关注,但强化学习一直在稳步提升自己的重要性,而不是靠夸大宣传”。
随着 DeepSeek 等推理模型引发的热潮,推理模型已成为通往 AGI 的重要范式,而强化学习正是推动其发展的关键引擎。在此背景下,前 OpenAI 研究员、清华大学交叉信息研究院助理教授吴翼博士将出席 2025 全球机器学习技术大会(https://ml-summit.org/)并进行分享。大会将于 4 月 18-19 日在上海隆重举行,汇聚全球顶尖学者和产业领袖,共同探索人工智能技术的无限可能。

吴翼博士确认出席 2025 ML-Summit
吴翼博士现任清华大学交叉信息研究院助理教授,回国前曾任 OpenAI 全职研究员,在深度强化学习、多智能体学习、推理模型、人机交互等领域拥有深厚的积累。他于 2019 年在美国加州大学伯克利分校获得博士学位,师从著名人工智能专家 Stuart Russell 教授,2014 年本科毕业于清华大学交叉信息院计算机科学实验班(姚班)。

吴翼博士个人主页:https://jxwuyi.weebly.com/
作为一名活跃的科研工作者,吴翼博士及其团队在国际顶级学术会议和期刊上发表了大量高质量的研究成果。仅 2024 年,吴翼博士团队就取得了多项学术成果,3 篇论文入选机器人领域顶级会议 ICRA,2 篇论文获深度学习知名会议 ICLR 接收,1 篇期刊论文刊登于 IEEE RA-L,1 篇论文被 OOPSLA 录用(这是吴翼博士职业生涯的首篇主线 PL 论文!)。此外,团队还有 2 篇论文入选 AAMAS,1 篇论文获 AAAI 接收。
吴翼博士还在强化学习、多智能体学习等领域取得了丰硕成果。在 NeurIPS 上发表的 《Multi-agent actor-critic for mixed cooperative-competitive environments》一文,引用次数高达 5946 次,是多智能体强化学习领域的经典之作。
在 NeurIPS 上发表的 《The surprising effectiveness of ppo in cooperative multi-agent games》一文,引用次数也超过 1655 次,展现了 PPO 算法在合作多智能体环境中的优越性。在 ICLR 上发表的《Emergent tool use from multi-agent autocurricula》一文,探索了多智能体自主学习中涌现工具使用行为的现象,具有重要的理论意义。
此外,吴翼博士的代表作还包括强化学习泛化性早期工作 Value Iteration Network,以及 OpenAI 多智能体捉迷藏项目等。他还曾荣获顶级会议 NeurIPS 2016 最佳论文奖和 ICRA 2024 最佳演示奖提名。

AReal:专为大型推理模型设计的灵活高效的开源强化学习系统
随着 o1/R1 系列模型的出圈,推理模型成为了 AGI Scaling Law 之路上的有一个重要范式,而强化学习正是推动推理模型范式发展的重要引擎。
然而强化学习算法相较传统深度学习更为复杂,模块更多,因此对搭建适应强化学习算法的训练系统提出了很大的挑战。在 2025 全球机器学习技术大会现场,吴翼博士将介绍清华大学和蚂蚁研究院针对推理模型和强化学习开发的训练系统 AReaL,这是一个专为大型推理模型设计的灵活高效的开源强化学习系统,为强化学习在大模型时代的创新应用注入新的活力。

自 2017 年正式启动全球机器学习技术大会以来,已有数万名 AI 研究者、工程师及企业决策者齐聚一堂,共同见证 AI 技术的飞速演进。大会涵盖从基础理论到前沿应用的广泛议题,包括大模型技术、多模态 AI、生成式 AI、AI 工程实践等,持续推动 AI 技术的创新与落地。
2025 全球机器学习技术大会(ML-Summit 2025)将延续这一传统,汇聚全球顶级专家与产业领袖,围绕十二大核心主题展开深度研讨,为开发者提供最具价值的技术分享与行业趋势洞察。

ML-Summit 2025 不仅是一场技术盛宴,更是企业展示创新成果、洽谈深度合作的绝佳平台。我们诚挚邀请各大厂商、技术服务提供商、初创企业以及行业领军企业加入此次盛会,通过现场展示与互动,拓展业务机会、建立战略合作。
欢迎洽谈合作,抢占市场先机,携手推动 AI 技术与产业的深度融合!
↓↓ 点击「阅读原文」,了解「2025 全球机器学习技术大会」更多信息!
(文:AI科技大本营)