GUI智能体归档

社区供稿 | 开源多模态大模型新突破，书生·万象3.5发布，通用能力、推理能力与部署效率全面升级

2025年9月1日19时作者 Hugging Face

等多维信息，让AI能够像人一样理解世界、解决问题，为用户带来更流畅、更可信赖的交互体验。在多模态大模

2025年6月20日8时作者 NLP工程化

美团和浙江大学联合研发GUIRoboTron-Speech，实现首个语音+截图端到端决策的GUI智能体，可“用说的”操作界面。

2025年5月1日11时作者量子位

浙大与vivo联合提出LearnAct多智能体框架和LearnGUI基准，通过少量示范学习大幅提升手机GUI智能体的性能。该方法能够有效应对多样化应用中的长尾场景挑战。

2025年4月19日14时作者 Hugging Face

上海AI实验室升级并开源了通用多模态大模型书生·万象 3.0 (InternVL3)，在多模态能力方面取得显著突破，成为开源模型中的性能新标杆。

2025年1月23日16时作者 AI寒武纪

字节联合清华发布的UI-TARS AI Agent纯视觉感知、端到端架构及系统2推理能力使其成为通用GUI自动化新突破。多项硬核数据验证其性能超越Claude和GPT-4等现有模型。