字节重磅开源Agent UI-TARS-1.5,全面达到SOTA,超越OpenAI 和Claude!

刚刚,字节把最新多模态大模型UI-TARS-1.5 静悄悄上传到了HuggingFace!

往下一滑,我就震撼了

这哥们不仅能操作GUI界面

还能玩游戏

还能挖矿

上来就给咱展示了一手操控电脑的绝活

瞧瞧这下手速度,贪吃蛇游戏

转头就给按死了,这也太离谱了

你是要急死对手的节奏啊?!

这可不是啥花里胡哨的Demo!

而是真正的SOTA水平

字节研发的这个UI-TARS-1.5,在7项基准测试

几乎全部吊打OpenAI和Claude的最新模型

放眼望去一片绿色制霸

我想,字节这次是玩真的啊

不仅上传了模型,还开源了代码!

用户只需一键安装,就能获得

操控电脑AI助手,香不香?

技术原理这块也很硬核

UI-TARS-1.5建立在视觉-语言模型基础上

核心是实现「思考后行动」的认知循环

模型会先通过内部推理过程分析场景

从屏幕中精确识别出GUI元素

计算出每个元素的位置和功能

再决定最优的交互策略

就像人类会先思考再点击一样!

来看这个推理时间图表

再长的任务,UI-TARS-1.5也是越玩越强

而其他模型(瞧那条黄线和那有些紫的线)

说崩就崩,越到后面越抓瞎

要知道,让AI懂得操作电脑界面这事

可不是简单弄个ChatGPT那么简单

底层得有GUI元素检测的支撑

得知道点哪、怎么点、点多久

咱人类三岁小孩上手就会

但对AI来说,这叫「具身智能

是近年来AI研究的最前沿领域

技术流程上,UI-TARS-1.5采用了

多阶段训练方式:先用有监督学习

让模型理解基本的GUI操作和视觉理解

再通过强化学习优化决策过程

最后是从游戏中学习复杂策略

这套组合拳下来,模型能力就上天了!

不说别的,就拿我的世界测试来看

UI-TARS-1.5能在几百个任务

平均成功率42%,比前代提升10%

遥遥领先VPT和DreamerV3

而且还能猎杀各种生物,成功率31%

哪怕是只有第一人称视角的情况下!

咔咔就是干啊!

关键是这里的技术难点很多:

模型需要同时处理3D空间导航

长期规划采矿路线

识别和追踪移动目标

这对注意力机制上下文记忆

都是极大的挑战!

不仅如此,模型在14款Poki小游戏

玩得比OpenAI和Claude都溜

13款游戏100%通关

(只有那款cubinko似乎所有模型都搞不定)

你没看错,从2048到解谜游戏

这哥们几乎都能完美通关

这性能提升的原因是什么呢?

是来自字节的「思考后行动」策略

让AI模型在执行前先进行推理

再选择最佳的行动路径

Yujia Qin(@TsingYoga) 也特意解释:

「完整博客在这里:https://seed-tars.com/1.5。发布的7B模型主要针对GUI代理任务进行了优化。更强大的开源模型检查点和API即将推出!」

内部结构上,UI-TARS-1.5采用了

多头注意力+视觉编码器的组合架构

能将屏幕截图转化为特征向量

再与文本指令进行跨模态融合

最后通过决策头输出操作命令

这种端到端的闭环设计

让模型能自主完成复杂任务!

更厉害的是,UI-TARS在GUI元素定位

准确率达到了惊人的94.2%

在更复杂的ScreenSpotPro测试中

准确率61.6%,比OpenAI的23.4%高太多了!

OSworld电脑操作基准测试中

UI-TARS-1.5得分42.5分,超越OpenAI的36.4分

Windows Agent Arena中得分42.1分

远超上一代的SOTA模型29.8分

这种提升不是玄学,是实打实的「思考-行动」强化学习

模型越和环境互动,性能就越强

像图上这样,UI-TARS模型的能力

在1000轮互动后仍在持续上升

而其他模型表现都趋于平稳甚至下滑

这不仅对玩游戏有用

现实电脑操作任务也同样适用!

技术参数方面,字节开源的是7B参数量模型

底层基于Qwen2.5-VL-7B进行微调

采用LoRA低秩适应技术

模型支持单GPU部署,显存需求适中

关键的是支持增量学习

用户自己的交互数据可以用来改进模型

形成个性化助手

但是,别以为这就完了

字节的野心远不止于此

他们在博客明确表示

UI-TARS-1.5是为了增强基础模型推理能力

游戏只是训练手段,不是最终目标

相比数学或编程,游戏更依赖直觉和常识

而非专业知识,是测试通用推理能力的理想场景

当然了,模型也有一些限制

包括可能被用于绕过验证码

需要大量计算资源才能流畅运行

有时会幻觉,错误识别GUI元素

或在陌生环境中采取次优行动

Zhiyong Wu(@zywu_hku) 现场喊话:

「更多关于电脑使用和游戏玩法的演示可在https://seed-tars.com/showcase/computer-use/查看。下周我们将在ICLR大会设立展位 – 欢迎来和我们团队交流!」

我看了眼这次公开的版本

UI-TARS-1.5-7B是基于Qwen2.5-VL-7B训练的

只是小参数的版本

完整版因为太强了

估计多半会以API形式对研究人员开放

不过即使是7B小模型

性能也相当可观:OSWorld得分27.5

ScreenSpotPro得分49.6

虽然不如完整版,但也远超老一代

技术架构上还值得一提的是

UI-TARS-1.5采用了模块化设计

视觉理解、语义解析、行动规划

每个模块都可以单独优化

这也是它能在多种任务上通吃的原因

比如对网页浏览有专门的DOM解析器

应用程序有针对性的界面解析器

Uri Gil(@UriGil3) 提出了担忧:

「当然了,把控制电脑的权限交给中国科技巨头吧…」

对此,我想说的是,这代码都是开源的

咱在GitHub上能看到每一行

和传说中「中国黑客」有啥关系?

反观OpenAI的技术封闭不透明

哪个更该担心,心里没点数?

Tom Bennet(@EgissBennet) 这么评价:

「开源AI代理…令人愉快的乐观主义🚀」

看完这一圈,我就想说

这AI界已经彻底卷成内卷之王了!

字节这么强的多模态Agent一出

还开源了,还放GitHub上了

那些卖天价API的某Close厂们怎么想?

有评论指出:

MemeCoinTracker (MCT)(@MemeCoin_Track) 表示:

「摧毁了竞争对手,字节的UI-TARS-1.5是真正的王者之作 #AI #ML」

Ed(@ED84VG) 兴奋提问:

「天呐,那段贪吃蛇游戏太厉害了。我真想看看这东西能否学会交易。想象一下,一个能实时使用并基于视觉信息的交易机器人,听起来太神奇了!」

LOFI911(@LOFI911) 幽默回应:

「要是@lmstudio应用也能做到这点就好了。」

技术展望上,字节表示会持续优化UI-TARS

未来还将整合视觉-文本-动作三模态能力

进一步拓展到物理世界交互

让AI不仅能操作虚拟界面

还能控制机器人、智能家居等物理设备

这将是AI从虚拟走向现实的重要一步!

看来开源大模型后浪推前浪

是真把不少Close厂商拍在沙滩上了啊!

相关链接

Paper: UI-TARS: Pioneering Automated GUI Interaction with Native Agents

GitHub: UI-TARS

GitHub: UI-TARS-desktop

(文:AGI Hunt)

发表评论