微软发布GUIAgent新范式！告别传统方式，小参数少数据，7B吊打72B模型

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

想象你要指挥一个机器人点击手机上的“购物车”图标。传统Agent怎么做？它会像报经纬度一样输出：x=0.345, y=0.721。这带来三大问题：

就像让人用坐标点外卖，不如直接说“第三排第二个”直观！

论文：GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
链接：https://arxiv.org/pdf/2506.03143

革命：GUI-Actor的“无坐标交互”

微软团队从人类行为获得灵感——我们从不计算坐标，而是用眼睛锁定目标后直接点！于是他们打造了GUI-Actor：

相当于给AI装了个“激光笔”，指哪打哪！

就像教孩子点按钮：“这一片都能点，不用非戳中心！”

类似人类点按钮前扫一眼：“嗯，这个图标长得像购物车！”

在三大权威测试集上，GUI-Actor全面碾压前SoTA：

试想未来：对着电脑喊“帮我P掉照片路人”，AI直接鼠标咔咔操作！

（文：机器学习算法与自然语言处理）