GUI定位还在玩「非黑即白」?浙大团队提出GUI-G²,显著提升GUI智能体定位性能
本文介绍了一种新的GUI Grounding方法——GUI-G²,通过引入双重高斯奖励机制和自适应方差机制来提升GUI智能体的定位精度和空间覆盖能力。
本文介绍了一种新的GUI Grounding方法——GUI-G²,通过引入双重高斯奖励机制和自适应方差机制来提升GUI智能体的定位精度和空间覆盖能力。
Sutton 提出的新算法 Swift-Sarsa 结合了时序差分学习 SwiftTD 的核心思想与 True Online Sarsa (λ),用于线性控制问题。实验表明,Swift-Sarsa 在操作性条件反射基准测试中的性能随元步长和初始步长参数的变化而变化,并且结合预处理方法后在复杂问题上可达到与深度强化学习算法相当的性能水平。
华为与香港科大研究发现,在多模态视觉语言模型中,长思维链监督微调(Long-CoT SFT)和强化学习(RL)的组合表现不佳甚至互相拖后腿。研究提出难度分类方法,并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。
Deep Cogito发布四款混合推理模型,包括4050亿参数稠密模型和6710亿MoE模型,展示迭代蒸馏与增强技术,训练成本不到350万美元。
谷歌发布Gemini 2.5 Deep Think模型,提供更快、更直观的数学问题解决能力。新版本比去年展示的速度更快,性能更高,可以用于IMO竞赛和研究。
刘子儒等人提出GHPO算法框架,在复杂推理模型训练中引入模仿学习,解决了奖励稀疏问题。该框架实现了在线强化学习与模仿学习的融合,并动态调整提示策略以适应不同难度的数据集。论文详细介绍了GHPO的具体实现和实验结果,其性能优于现有方法。
上海AI实验室与北航联合推出首个专注具身智能体安全性的评测基准IS-Bench,旨在测试基于视觉语言模型的家务助手的安全性。该基准包含150多个暗藏危险的家居场景和贯穿全过程的动态评测框架,揭示当前VLM家政助手在完成任务时的安全完成率不足40%。