ChatGPT Agent 发布:全整理

 

长话短说

OpenAI 发布了 ChatGPT Agent:OpenAI 版的 Manus

集成在了ChatGPT,付费会员(Pro/Plus/企业用户)可用

打开 ChatGPT 后,你便会看到这个

下面是本次发布会的具体内容,整理如下

ChatGPT Agent 发布会实录

原视频在这
https://www.youtube.com/watch?v=1jn_RpbPbEc
另有一份官方博客,在此:
https://openai.com/index/introducing-chatgpt-agent

开场:Agent 的诞生

发布会由 Sam Altman 开场。

他回顾了之前发布的 Deep Research 和 Operator,指出用户真正的需求是希望将这些强大的能力整合起来,形成一个统一的、能使用电脑完成复杂、长周期真实世界任务的 AI 智能体。

为此,OpenAI 整合了 Operator 和 Deep Research 团队,共同打造了今天的主角——ChatGPT Agent。

核心研发团队亮相

核心能力

ChatGPT Agent 的核心是拥有一个自己的虚拟电脑环境,并配备了各种工具

浏览器(Browser)
包含文本和视觉两种模式。文本模式(类似 Deep Research)可以高效抓取信息,而视觉模式(类似 Operator)能像人一样点击、拖拽,与复杂的网页 UI 交互

终端(Terminal)
允许 Agent 运行代码、生成和分析文件(如 Excel 表格、PPT 幻灯片),甚至调用外部 API

API 连接
Agent 可以连接到公共 API,也可以通过连接器安全地访问用户的私有数据源,如 Google Drive、GitHub 等

图像生成
集成了图像生成能力,可以为报告或幻灯片创建视觉素材

Agent 的虚拟电脑屏幕

功能演示:复杂的婚礼策划

团队展示了一个非常贴近生活的复杂任务:帮助朋友策划婚礼行程。

任务下达
用户提供了一个婚礼网站链接,要求 Agent 推荐符合着装要求的服装、寻找酒店并挑选礼物。

执行过程
Agent 首先访问婚礼网站,提取关键信息(日期、地点、着装要求)。接着,它搜索天气信息,并根据温暖气候推荐了合适的服装选项。然后,它在 Booking.com 上搜索并比较了附近的酒店。最后,它还搜索了合适的结婚礼物建议。

结果交付
Agent 生成了一份详细的《婚礼准备报告》,清晰地列出了活动概览、服装推荐、酒店选项和礼物建议,所有信息都有来源链接和截图作为佐证。

Agent 生成的婚礼策划报告

在生成的过程中,可以追加任务,如“为我们团队的启动仪式制作一些 swag 贴纸,并从 StickerMule 订购 500-575 张。”

Agent 立即理解了新指令,开始利用图像生成工具设计贴纸,并访问 StickerMule 网站准备下单。

为团队吉祥物设计的动漫风贴纸

功能演示二:Agent 评估自己

为了展示 Agent 处理数据和生成文件的能力,团队进行了一个“元任务”(meta-task):让 Agent 评估自己的性能。

任务
“从 Google Drive 连接器中拉取 ChatGPT Agent 的评测数据,并制作成带图表的幻灯片。不需要引言和结论,只呈现带图表的结果。”

执行
Agent 通过 API 连接到 Google Drive,找到了评测数据文件。接着,它使用终端(Terminal)编写并运行代码,处理数据、生成图表,并最终将所有内容整合到一个 PowerPoint(.pptx)文件中。

结果
Agent 成功生成了一份专业的幻灯片,其中包含了多个基准测试的对比图表。

Agent 自己做的业绩报告 PPT

性能基准

ChatGPT Agent 在基准测试中得到了验证,超越了以往模型。其在多个领域接近甚至超越了人类专家的。

高难度智能测试

Humanity’s Last Exam (HLE) 是一个衡量 AI 在各学科专家级问题上表现的综合性测试。Agent 模式凭借其动态规划和自主选择工具的能力,取得了 41.6% 的新 SOTA 成绩。

更有趣的是,当采用“学习小组”策略(并行运行 8 次,选择置信度最高的答案)时,分数进一步提升至 44.4%

Humanity’s Last Exam

FrontierMath 是在目前已知的最难数学基准测试,包含了人类专家都需要数小时甚至数天才能解决的新问题,ChatGPT Agent 利用代码执行等工具,取得了 27.4% 的准确率,远超之前的模型。

FrontierMath

真实世界任务基准

WebArena 和 BrowseComp 两个基准测试专注于评估 Agent 的网页浏览和信息检索能力。在 WebArena 上,Agent 模式超越了 o3 驱动的 CUA 模型;在 BrowseComp 上更是创下 68.9% 的新纪录,比 Deep Research 高出 17.4个百分点。

WebArena
BrowseComp

在模拟真实电子表格编辑任务的 SpreadsheetBench 中,ChatGPT Agent 的表现尤为突出。在能够直接访问和编辑 .xlsx 文件的情况下,其准确率高达 45.5%,远超 Copilot in Excel 的 20.0%,并已接近 71.3% 的人类水平。

SpreadsheetBench

在 DSBench 数据科学基准测试中,Agent 的表现更是惊人,在数据分析和数据建模两个子任务上均大幅超越了人类专家的表现。

DSBench

在一系列内部专业基准测试中,Agent 的能力同样得到了验证。

例如,在模拟投资银行分析师(Economically important tasks) 工作(如为财富 500 强公司制作三表模型)的测试中,Agent 的平均准确率高达 41%,显著高于 Deep research 和 o3。

在其他具有经济价值的复杂知识工作中,Agent 的产出在约一半的情况下与人类专家相当或更优。

Economically important tasks

安全措施

团队强调,Agent 是一项强大的新技术,但也带来了新的安全挑战,例如“提示词注入”(Prompt Injection)攻击。为此,OpenAI 采取了多层安全措施:

模型训练
训练模型忽略可疑或恶意的网页指令

流程监控
实时监控 Agent 的行为,发现异常时及时中止

用户确认
在执行关键操作(如支付、发送邮件)前,会请求用户确认

用户接管
用户可以随时点击“Take control”按钮,亲自接管浏览器完成敏感操作

上线计划:

Pro & Plus/Team 用户
即日开始逐步推出。
Pro 用户每月 400 次调用,Plus 和 Team 用户每月 40 次。

Enterprise & EDU 用户
预计本月底前上线

 


(文:赛博禅心)

发表评论