图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

Sutton 提出的新算法 Swift-Sarsa 结合了时序差分学习 SwiftTD 的核心思想与 True Online Sarsa (λ),用于线性控制问题。实验表明,Swift-Sarsa 在操作性条件反射基准测试中的性能随元步长和初始步长参数的变化而变化,并且结合预处理方法后在复杂问题上可达到与深度强化学习算法相当的性能水平。

前 OpenAI 研究员、清华大学吴翼博士亮相 2025 ML-Summit,剖析大型推理模型强化学习系统

近日,ACM 将 2024 年图灵奖授予强化学习之父 Richard S. Sutton 和 Andrew G. Barto。吴翼博士将出席 4 月在上海召开的全球机器学习技术大会,并介绍针对推理模型和强化学习开发的训练系统 AReaL。