图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

Sutton 提出的新算法 Swift-Sarsa 结合了时序差分学习 SwiftTD 的核心思想与 True Online Sarsa (λ),用于线性控制问题。实验表明,Swift-Sarsa 在操作性条件反射基准测试中的性能随元步长和初始步长参数的变化而变化,并且结合预处理方法后在复杂问题上可达到与深度强化学习算法相当的性能水平。

多模态后训练反常识:长思维链SFT和RL的协同困境

华为与香港科大研究发现,在多模态视觉语言模型中,长思维链监督微调(Long-CoT SFT)和强化学习(RL)的组合表现不佳甚至互相拖后腿。研究提出难度分类方法,并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。

首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练

刘子儒等人提出GHPO算法框架,在复杂推理模型训练中引入模仿学习,解决了奖励稀疏问题。该框架实现了在线强化学习与模仿学习的融合,并动态调整提示策略以适应不同难度的数据集。论文详细介绍了GHPO的具体实现和实验结果,其性能优于现有方法。

你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞

上海AI实验室与北航联合推出首个专注具身智能体安全性的评测基准IS-Bench,旨在测试基于视觉语言模型的家务助手的安全性。该基准包含150多个暗藏危险的家居场景和贯穿全过程的动态评测框架,揭示当前VLM家政助手在完成任务时的安全完成率不足40%。