跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

GUI智能体

一次示范就能终身掌握!让手机AI轻松搞定复杂操作丨浙大&vivo出品

上午11时 2025/05/01 作者 量子位

浙大与vivo联合提出LearnAct多智能体框架和LearnGUI基准,通过少量示范学习大幅提升手机GUI智能体的性能。该方法能够有效应对多样化应用中的长尾场景挑战。

分类 资讯 标签 51.7%、 GUI智能体、 LearnAct、 vivo AI Lab、 浙江大学、 示范学习 发表评论

社区供稿 | 书生·万象 3.0 升级发布,创新预训练方法

下午2时 2025/04/19 作者 Hugging Face

上海AI实验室升级并开源了通用多模态大模型书生·万象 3.0 (InternVL3),在多模态能力方面取得显著突破,成为开源模型中的性能新标杆。

分类 开源 标签 780亿参数、 GUI智能体、 InternVL3、 上海AI实验室、 图文结合、 多模态大模型 发表评论

字节清华开源力作!UI-TARS原生AI智能体,人人都能拥有“智能助手”

下午4时 2025/01/23 作者 AI寒武纪

字节联合清华发布的UI-TARS AI Agent纯视觉感知、端到端架构及系统2推理能力使其成为通用GUI自动化新突破。多项硬核数据验证其性能超越Claude和GPT-4等现有模型。

分类 国际、 资讯 标签 AI Agent、 GUI智能体、 UI-TARS、 清华大学、 端到端架构、 系统2推理机制 发表评论

一篇78页大模型GUI Agents全面综述~

下午1时 2024/12/03 作者 PaperAgent

本文综述了LLM驱动的GUI智能体的发展和进步,讨论了它们的历史演变、核心组件和技术,并展示了智能体如何通过自然语言处理技术执行多种任务,包括Word、Photos、浏览器、Adobe Acrobat和PowerPoint操作等。

分类 分享 标签 Claude 3.5 Sonnet、 GUI智能体、 LLM驱动、 多模态输入、 新兴决策技术、 跨平台泛化 发表评论

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 干货满满!图灵奖学术大牛和宇树、智谱等明星AI企业齐聚,探讨AI产业新风向
  • “AGI 五年内或将实现”:AI 教父 Bengio 呼吁中美达成共识,警惕 AI 沦为人类武器
  • 深夜突袭!谷歌Gemini 2.5 Pro更新蝉联榜一:推理超越o3,编程超越opus4
  • 强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
  • 免费约饭!美国CVPR 2025,相聚人才晚宴

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 6 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
23242526272829
30  
« 5 月    

归档

  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×