微软发布GUIAgent新范式!告别传统方式,小参数少数据,7B吊打72B模型


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

想象你要指挥一个机器人点击手机上的“购物车”图标。传统Agent怎么做?它会像报经纬度一样输出:x=0.345, y=0.721。这带来三大问题:

  • 定位死板:按钮内任意位置都能点,AI偏要死磕一个点;
  • 缺乏空间感:AI靠猜数字而非“看懂”界面;
  • 兼容性差:换个屏幕尺寸就懵圈。

就像让人用坐标点外卖,不如直接说“第三排第二个”直观!

论文:GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
链接:https://arxiv.org/pdf/2506.03143

革命:GUI-Actor的“无坐标交互”

微软团队从人类行为获得灵感——我们从不计算坐标,而是用眼睛锁定目标后直接点!于是他们打造了GUI-Actor:

关键技术 1:<ACTOR>令牌——AI的“虚拟手指”

  • 在指令中加入特殊标记 <ACTOR> (例:“点击 <ACTOR> 购物车图标”);
  • AI用注意力机制将 <ACTOR> 与屏幕图像区块关联,自动锁定目标区域。

相当于给AI装了个“激光笔”,指哪打哪!

关键技术 2:多区块监督——容忍合理误差

  • 传统方法:只认1个坐标点,偏移就判错;
  • GUI-Actor:把按钮覆盖的所有图像区块(约28×28像素)都视为正确目标。

就像教孩子点按钮:“这一片都能点,不用非戳中心!”

关键技术 3:验证器——AI的“二次确认”

  • 从注意力图中选多个候选区(如高亮区域);
  • 轻量验证器快速判断哪个最符合指令。

类似人类点按钮前扫一眼:“嗯,这个图标长得像购物车!”

实验:小模型暴打巨头

在三大权威测试集上,GUI-Actor全面碾压前SoTA:

  • ScreenSpot-Pro(高难度专业软件测试):
    • 7B参数模型 44.6分 vs 前冠军72B模型 38.1分
    • 少90%参数,性能反超17% !
  • 跨平台泛化能力
    • 面对陌生分辨率/布局,GUI-Actor波动更小(传统模型早衰明显),下图c。

省钱!少数据、低算力友好

  • 训练数据省60% :仅用60%数据达到传统模型100%数据的效果;
  • 冻结大模型:只微调新增的1亿参数(7B模型仅动1.4%参数),性能媲美全调优模型;
  • 推理零额外成本:一次前向传播生成多候选区,无需重复计算。

未来:AI助理的“人机交互革命”

  • 手机助手:说“清空后台”自动关APP;
  • 自动化办公:口头指令操作Excel/PS;
  • 无障碍技术:视障用户语音操控界面。

试想未来:对着电脑喊“帮我P掉照片路人”,AI直接鼠标咔咔操作!


(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往