刚刚,字节把最新多模态大模型UI-TARS-1.5 静悄悄上传到了HuggingFace!
往下一滑,我就震撼了
这哥们不仅能操作GUI界面
还能玩游戏?
还能挖矿?
上来就给咱展示了一手操控电脑的绝活
瞧瞧这下手速度,贪吃蛇游戏
转头就给按死了,这也太离谱了
你是要急死对手的节奏啊?!

这可不是啥花里胡哨的Demo!
而是真正的SOTA水平
字节研发的这个UI-TARS-1.5,在7项基准测试中
几乎全部吊打OpenAI和Claude的最新模型
放眼望去一片绿色制霸!

我想,字节这次是玩真的啊
不仅上传了模型,还开源了代码!
用户只需一键安装,就能获得
操控电脑的AI助手,香不香?
技术原理这块也很硬核
UI-TARS-1.5建立在视觉-语言模型基础上
核心是实现「思考后行动」的认知循环
模型会先通过内部推理过程分析场景
从屏幕中精确识别出GUI元素
计算出每个元素的位置和功能
再决定最优的交互策略
就像人类会先思考再点击一样!

来看这个推理时间图表
再长的任务,UI-TARS-1.5也是越玩越强
而其他模型(瞧那条黄线和那有些紫的线)
说崩就崩,越到后面越抓瞎
要知道,让AI懂得操作电脑界面这事
可不是简单弄个ChatGPT那么简单
底层得有GUI元素检测的支撑
得知道点哪、怎么点、点多久
咱人类三岁小孩上手就会
但对AI来说,这叫「具身智能」
是近年来AI研究的最前沿领域
技术流程上,UI-TARS-1.5采用了
多阶段训练方式:先用有监督学习
让模型理解基本的GUI操作和视觉理解
再通过强化学习优化决策过程
最后是从游戏中学习复杂策略
这套组合拳下来,模型能力就上天了!

不说别的,就拿我的世界测试来看
UI-TARS-1.5能在几百个任务里
平均成功率42%,比前代提升10%
遥遥领先VPT和DreamerV3
而且还能猎杀各种生物,成功率31%
哪怕是只有第一人称视角的情况下!
咔咔就是干啊!

关键是这里的技术难点很多:
模型需要同时处理3D空间导航
长期规划采矿路线
识别和追踪移动目标
这对注意力机制和上下文记忆
都是极大的挑战!

不仅如此,模型在14款Poki小游戏上
玩得比OpenAI和Claude都溜
13款游戏100%通关!

(只有那款cubinko似乎所有模型都搞不定)
你没看错,从2048到解谜游戏
这哥们几乎都能完美通关!
这性能提升的原因是什么呢?
是来自字节的「思考后行动」策略
让AI模型在执行前先进行推理
再选择最佳的行动路径
Yujia Qin(@TsingYoga) 也特意解释:
「完整博客在这里:https://seed-tars.com/1.5。发布的7B模型主要针对GUI代理任务进行了优化。更强大的开源模型检查点和API即将推出!」
内部结构上,UI-TARS-1.5采用了
多头注意力+视觉编码器的组合架构
能将屏幕截图转化为特征向量
再与文本指令进行跨模态融合
最后通过决策头输出操作命令
这种端到端的闭环设计
让模型能自主完成复杂任务!
更厉害的是,UI-TARS在GUI元素定位上
准确率达到了惊人的94.2%
在更复杂的ScreenSpotPro测试中
准确率61.6%,比OpenAI的23.4%高太多了!
在OSworld电脑操作基准测试中
UI-TARS-1.5得分42.5分,超越OpenAI的36.4分
在Windows Agent Arena中得分42.1分
远超上一代的SOTA模型29.8分
这种提升不是玄学,是实打实的「思考-行动」强化学习
模型越和环境互动,性能就越强
像图上这样,UI-TARS模型的能力
在1000轮互动后仍在持续上升
而其他模型表现都趋于平稳甚至下滑
这不仅对玩游戏有用
对现实电脑操作任务也同样适用!
技术参数方面,字节开源的是7B参数量模型
底层基于Qwen2.5-VL-7B进行微调
采用LoRA低秩适应技术
模型支持单GPU部署,显存需求适中
关键的是支持增量学习
用户自己的交互数据可以用来改进模型
形成个性化助手!
但是,别以为这就完了
字节的野心远不止于此
他们在博客明确表示
UI-TARS-1.5是为了增强基础模型推理能力
游戏只是训练手段,不是最终目标
相比数学或编程,游戏更依赖直觉和常识
而非专业知识,是测试通用推理能力的理想场景
当然了,模型也有一些限制
包括可能被用于绕过验证码
需要大量计算资源才能流畅运行
有时会幻觉,错误识别GUI元素
或在陌生环境中采取次优行动
Zhiyong Wu(@zywu_hku) 现场喊话:
「更多关于电脑使用和游戏玩法的演示可在https://seed-tars.com/showcase/computer-use/查看。下周我们将在ICLR大会设立展位 – 欢迎来和我们团队交流!」
我看了眼这次公开的版本
UI-TARS-1.5-7B是基于Qwen2.5-VL-7B训练的
只是小参数的版本
完整版因为太强了
估计多半会以API形式对研究人员开放
不过即使是7B小模型
性能也相当可观:OSWorld得分27.5
ScreenSpotPro得分49.6
虽然不如完整版,但也远超老一代
技术架构上还值得一提的是
UI-TARS-1.5采用了模块化设计
视觉理解、语义解析、行动规划
每个模块都可以单独优化
这也是它能在多种任务上通吃的原因
比如对网页浏览有专门的DOM解析器
对应用程序有针对性的界面解析器
Uri Gil(@UriGil3) 提出了担忧:
「当然了,把控制电脑的权限交给中国科技巨头吧…」
对此,我想说的是,这代码都是开源的
咱在GitHub上能看到每一行
和传说中「中国黑客」有啥关系?
反观OpenAI的技术封闭不透明
哪个更该担心,心里没点数?
Tom Bennet(@EgissBennet) 这么评价:
「开源AI代理…令人愉快的乐观主义🚀」
看完这一圈,我就想说
这AI界已经彻底卷成内卷之王了!
字节这么强的多模态Agent一出
还开源了,还放GitHub上了
那些卖天价API的某Close厂们怎么想?
有评论指出:
MemeCoinTracker (MCT)(@MemeCoin_Track) 表示:
「摧毁了竞争对手,字节的UI-TARS-1.5是真正的王者之作 #AI #ML」
Ed(@ED84VG) 兴奋提问:
「天呐,那段贪吃蛇游戏太厉害了。我真想看看这东西能否学会交易。想象一下,一个能实时使用并基于视觉信息的交易机器人,听起来太神奇了!」
LOFI911(@LOFI911) 幽默回应:
「要是@lmstudio应用也能做到这点就好了。」
技术展望上,字节表示会持续优化UI-TARS
未来还将整合视觉-文本-动作三模态能力
进一步拓展到物理世界交互
让AI不仅能操作虚拟界面
还能控制机器人、智能家居等物理设备
这将是AI从虚拟走向现实的重要一步!
看来开源大模型后浪推前浪
是真把不少Close厂商拍在沙滩上了啊!
相关链接
Paper: UI-TARS: Pioneering Automated GUI Interaction with Native Agents
GitHub: UI-TARS
GitHub: UI-TARS-desktop
(文:AGI Hunt)