图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

Sutton 提出的新算法 Swift-Sarsa 结合了时序差分学习 SwiftTD 的核心思想与 True Online Sarsa (λ),用于线性控制问题。实验表明,Swift-Sarsa 在操作性条件反射基准测试中的性能随元步长和初始步长参数的变化而变化,并且结合预处理方法后在复杂问题上可达到与深度强化学习算法相当的性能水平。

SIGIR 2025 AgentIR研讨会征稿:探索Agent驱动的信息检索新边界

第二届AgentIR研讨会将于2025年7月17日与SIGIR 2025同期举行,聚焦Agent视角下的信息检索创新。活动将讨论深度强化学习和大语言模型在信息检索中的融合应用及其理论基础、工业应用瓶颈等问题。