机器之心，作者每时AI - 第2页共134页

GUI定位还在玩「非黑即白」？浙大团队提出GUI-G²，显著提升GUI智能体定位性能

2025年8月3日16时作者机器之心

本文介绍了一种新的GUI Grounding方法——GUI-G²，通过引入双重高斯奖励机制和自适应方差机制来提升GUI智能体的定位精度和空间覆盖能力。

图灵奖得主Sutton再突破：强化学习在控制问题上媲美深度强化学习？

2025年8月3日16时作者机器之心

Sutton 提出的新算法 Swift-Sarsa 结合了时序差分学习 SwiftTD 的核心思想与 True Online Sarsa (λ)，用于线性控制问题。实验表明，Swift-Sarsa 在操作性条件反射基准测试中的性能随元步长和初始步长参数的变化而变化，并且结合预处理方法后在复杂问题上可达到与深度强化学习算法相当的性能水平。

GPT-5难产，外媒爆料：性能提升不大，OpenAI高管Slack上当众破防

2025年8月2日23时作者机器之心

种梗图「吐槽」：
其实，这几天关于 GPT-5 的传言就没消停。
先是有网友在 macOS Chat

多模态后训练反常识：长思维链SFT和RL的协同困境

2025年8月2日12时作者机器之心

华为与香港科大研究发现，在多模态视觉语言模型中，长思维链监督微调（Long-CoT SFT）和强化学习（RL）的组合表现不佳甚至互相拖后腿。研究提出难度分类方法，并构建了精细多模态推理榜单数据集来探究不同组合策略的效果。

一个模型超了DeepSeek R1、V3，参数671B，成本不到350万美元

2025年8月2日12时作者机器之心

Deep Cogito发布四款混合推理模型，包括4050亿参数稠密模型和6710亿MoE模型，展示迭代蒸馏与增强技术，训练成本不到350万美元。

刚刚，谷歌「IMO金牌」模型上线Gemini，数学家第一时间证明猜想

2025年8月2日12时作者机器之心

谷歌发布Gemini 2.5 Deep Think模型，提供更快、更直观的数学问题解决能力。新版本比去年展示的速度更快，性能更高，可以用于IMO竞赛和研究。

全球首款通用AI科研智能体问世：我一个文科生用它写了份CRISPR基因编辑综述报告

2025年8月1日23时作者机器之心

越来越多的人在讨论一种叫
SciMaster
的「AI 科学助手」，有让它做实验的，有让他帮忙开题的

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

2025年7月28日8时作者机器之心

刘子儒等人提出GHPO算法框架，在复杂推理模型训练中引入模仿学习，解决了奖励稀疏问题。该框架实现了在线强化学习与模仿学习的融合，并动态调整提示策略以适应不同难度的数据集。论文详细介绍了GHPO的具体实现和实验结果，其性能优于现有方法。

你的AI管家可能正在「拆家」？最新研究揭秘家⽤具⾝智能体的安全漏洞

2025年7月27日23时作者机器之心

上海AI实验室与北航联合推出首个专注具身智能体安全性的评测基准IS-Bench，旨在测试基于视觉语言模型的家务助手的安全性。该基准包含150多个暗藏危险的家居场景和贯穿全过程的动态评测框架，揭示当前VLM家政助手在完成任务时的安全完成率不足40%。

钛动科技发布首个全球营销 AI Agent，改写中国品牌出海「新叙事」

2025年7月27日23时作者机器之心

2016 年，「硅谷精神之父」凯文・凯利在《必然》一书中写道：我们都只有「倾听」科技所偏好的方向，并