ChatGPT Agent 发布：全整理

长话短说

OpenAI 发布了 ChatGPT Agent：OpenAI 版的 Manus

集成在了ChatGPT，付费会员（Pro/Plus/企业用户）可用

下面是本次发布会的具体内容，整理如下

ChatGPT Agent 发布会实录

原视频在这

https://www.youtube.com/watch?v=1jn_RpbPbEc

另有一份官方博客，在此：

https://openai.com/index/introducing-chatgpt-agent

开场：Agent 的诞生

发布会由 Sam Altman 开场。

他回顾了之前发布的 Deep Research 和 Operator，指出用户真正的需求是希望将这些强大的能力整合起来，形成一个统一的、能使用电脑完成复杂、长周期真实世界任务的 AI 智能体。

为此，OpenAI 整合了 Operator 和 Deep Research 团队，共同打造了今天的主角——ChatGPT Agent。

核心能力

ChatGPT Agent 的核心是拥有一个自己的虚拟电脑环境，并配备了各种工具

浏览器（Browser）
包含文本和视觉两种模式。文本模式（类似 Deep Research）可以高效抓取信息，而视觉模式（类似 Operator）能像人一样点击、拖拽，与复杂的网页 UI 交互

终端（Terminal）
允许 Agent 运行代码、生成和分析文件（如 Excel 表格、PPT 幻灯片），甚至调用外部 API

API 连接
Agent 可以连接到公共 API，也可以通过连接器安全地访问用户的私有数据源，如 Google Drive、GitHub 等

图像生成
集成了图像生成能力，可以为报告或幻灯片创建视觉素材

功能演示：复杂的婚礼策划

团队展示了一个非常贴近生活的复杂任务：帮助朋友策划婚礼行程。

任务下达
用户提供了一个婚礼网站链接，要求 Agent 推荐符合着装要求的服装、寻找酒店并挑选礼物。

执行过程
Agent 首先访问婚礼网站，提取关键信息（日期、地点、着装要求）。接着，它搜索天气信息，并根据温暖气候推荐了合适的服装选项。然后，它在 Booking.com 上搜索并比较了附近的酒店。最后，它还搜索了合适的结婚礼物建议。

结果交付
Agent 生成了一份详细的《婚礼准备报告》，清晰地列出了活动概览、服装推荐、酒店选项和礼物建议，所有信息都有来源链接和截图作为佐证。

在生成的过程中，可以追加任务，如“为我们团队的启动仪式制作一些 swag 贴纸，并从 StickerMule 订购 500-575 张。”

Agent 立即理解了新指令，开始利用图像生成工具设计贴纸，并访问 StickerMule 网站准备下单。

功能演示二：Agent 评估自己

为了展示 Agent 处理数据和生成文件的能力，团队进行了一个“元任务”（meta-task）：让 Agent 评估自己的性能。

任务
“从 Google Drive 连接器中拉取 ChatGPT Agent 的评测数据，并制作成带图表的幻灯片。不需要引言和结论，只呈现带图表的结果。”

执行
Agent 通过 API 连接到 Google Drive，找到了评测数据文件。接着，它使用终端（Terminal）编写并运行代码，处理数据、生成图表，并最终将所有内容整合到一个 PowerPoint（.pptx）文件中。

结果
Agent 成功生成了一份专业的幻灯片，其中包含了多个基准测试的对比图表。

性能基准

ChatGPT Agent 在基准测试中得到了验证，超越了以往模型。其在多个领域接近甚至超越了人类专家的。

高难度智能测试

Humanity’s Last Exam (HLE) 是一个衡量 AI 在各学科专家级问题上表现的综合性测试。Agent 模式凭借其动态规划和自主选择工具的能力，取得了 41.6% 的新 SOTA 成绩。

更有趣的是，当采用“学习小组”策略（并行运行 8 次，选择置信度最高的答案）时，分数进一步提升至 44.4%。

FrontierMath 是在目前已知的最难数学基准测试，包含了人类专家都需要数小时甚至数天才能解决的新问题，ChatGPT Agent 利用代码执行等工具，取得了 27.4% 的准确率，远超之前的模型。

真实世界任务基准

WebArena 和 BrowseComp 两个基准测试专注于评估 Agent 的网页浏览和信息检索能力。在 WebArena 上，Agent 模式超越了 o3 驱动的 CUA 模型；在 BrowseComp 上更是创下 68.9% 的新纪录，比 Deep Research 高出 17.4个百分点。

在模拟真实电子表格编辑任务的 SpreadsheetBench 中，ChatGPT Agent 的表现尤为突出。在能够直接访问和编辑 .xlsx 文件的情况下，其准确率高达 45.5%，远超 Copilot in Excel 的 20.0%，并已接近 71.3% 的人类水平。

在 DSBench 数据科学基准测试中，Agent 的表现更是惊人，在数据分析和数据建模两个子任务上均大幅超越了人类专家的表现。

在一系列内部专业基准测试中，Agent 的能力同样得到了验证。

例如，在模拟投资银行分析师（Economically important tasks） 工作（如为财富 500 强公司制作三表模型）的测试中，Agent 的平均准确率高达 41%，显著高于 Deep research 和 o3。

在其他具有经济价值的复杂知识工作中，Agent 的产出在约一半的情况下与人类专家相当或更优。

安全措施

团队强调，Agent 是一项强大的新技术，但也带来了新的安全挑战，例如“提示词注入”（Prompt Injection）攻击。为此，OpenAI 采取了多层安全措施：

模型训练
训练模型忽略可疑或恶意的网页指令

流程监控
实时监控 Agent 的行为，发现异常时及时中止

用户确认
在执行关键操作（如支付、发送邮件）前，会请求用户确认

用户接管
用户可以随时点击“Take control”按钮，亲自接管浏览器完成敏感操作

上线计划：

Pro & Plus/Team 用户
即日开始逐步推出。
Pro 用户每月 400 次调用，Plus 和 Team 用户每月 40 次。

Enterprise & EDU 用户
预计本月底前上线

（文：赛博禅心）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31