ChatGPT Agent 团队专访:基模公司做通用 Agent,和 Manus 有什么不一样?

基模公司下场做通用 Agent 了。

OpenAI 这么介绍 ChatGPT Agent——第一个在计算机上完全「具身化」的 Agent。在叠加了 Deep Research 和 Operator 两者能力之后,ChatGPT Agent 实现了多种工具共享状态,使用户能够在单一环境中,流畅地在视觉浏览、文本分析和代码执行之间切换。同时,能够在执行长达一个小时的复杂任务时「不失控」。

怎么做到的?

他们没有为特定的工具使用模式编写程序,而是让模型通过在数千个虚拟机上进行 RL,自行发现最优策略。用核心研究者 Casey Chu 的原话,更形象地来说:我们基本上是给了模型一堆工具,然后把它「锁在房间里」让它自己去实验。我们并不会明确告诉它什么时候该用什么工具,它会自己琢磨出来。

在 ChatGPT Agent 发布后,红杉资本与团队的三位核心成员 Issa Fulford、Casey Chu 和 Edward Sun 进行对话,探讨了 ChatGPT Agent 背后的训练方法、如何解决 Agent 实际与现实世界交互的风险问题,以及未来的 Agent 交互形态等。

虽然下场略晚,但基模公司对于 Agent 的技术思路和训练方法,颇多可借鉴之处。配合 Manus 的 Agent 搭建攻略,当下 Agent 的痛点到底在哪里,已经很明确了。

Founder Park 对访谈内容进行了编译,并做了精简处理。


超 10000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

给模型一堆工具,

让它自己琢磨

主持人:先介绍下 ChatGPT Agent 是什么?

Issa Fulford:简单来说,这是我们团队将「深度研究」和「Operator」这两个方向结合的成果,我们在 ChatGPT 中创造了一个全新的 Agent。这个 Agent 擅长处理那些对人类来说非常耗时的复杂任务。

为了实现这一点,我们给了它一台「虚拟计算机」,让它能通过多种方式与网络世界交互。首先,它有一个文本浏览器,这和「深度研究」工具很像,能高效地抓取和搜索在线信息。同时,它还有一个图形界面的虚拟浏览器,这更像是「Operator」工具,让它能像人一样,在网页上点击、填表、滚动、拖拽。这两种工具的结合,比单一的工具效果更好,一个侧重效率,另一个侧重灵活性。

同时,我们为它开放了终端(terminal)权限。这意味着它能运行代码、分析文件,以及帮你制作电子表格和幻灯片。通过终端,它还能调用公共或私有的 API。只要你授权登录,它就能访问你的 GitHub、Google Drive、SharePoint 等各种服务。

最酷的一点是,所有这些工具都「共享状态」。就像你在自己的电脑上,所有应用都能访问同一个文件系统。这个 Agent 同样也是,可以在不同工具间灵活切换来执行任务,能代表用户处理极其复杂的任务。

主持人:这种结合在多大程度上实现了「1+1 > 2」的效果?

Edward Sun:在深度研究项目中,我们一直想弄清楚如何让它能访问一个真正的浏览器,从而加载所有真实的内容,这是之前的深度研究无法做到的。这次的结合实现了这个目标。

Casey Chu:你用「1+1 > 2」来形容很有趣,因为我们不仅结合了深度研究和 Operator,还加入了我们能想到的几乎所有其他工具。比如终端工具,让它能运行命令做计算;还有图片生成工具,如果它想给幻灯片配张图,也能自己搞定。

主持人:它能调用 API,还能制作 PPT?

Casey Chu:是的,它能做的事情非常多。

主持人:技术方面,ChatGPT Agent 是怎么做的?

Edward Sun:这个 Agent 是用强化学习(RL)技术训练的。我们为它提供了前面提到的所有工具,包括文本浏览器、图形界面浏览器、终端等,都集成在同一个虚拟机里。然后,我们给它设定一些相当困难的任务,它必须综合利用这些工具才能完成。如果它完成得又快又好,我们就会给予奖励。通过这种方式,它逐渐学会了如何在这些工具间自如切换。经过这样的训练后,模型能学会在这些工具之间流畅地切换。

Issa Fulford:我认为这个工具与过去那些工具使用的实现方式相比,最酷的一点是所有工具都「共享状态」。就像你的电脑,用浏览器下载的文件,其他软件也能立刻访问。Agent 也是一样,它可以用文本浏览器高效地打开一个页面,发现需要视觉交互时,再无缝切换到图形浏览器;或者用浏览器下载一个文件,然后在终端里对它进行处理。这种灵活性,给了模型一种更强的能力,去和网络、文件、代码进行交互。

Casey Chu: 需要强调的是,我们基本上是给了模型一堆工具,然后把它「锁在房间里」让它自己去实验。我们并不会明确告诉它什么时候该用什么工具,它会自己琢磨出来。这过程几乎像魔法一样。

主持人:听起来和深度研究的技术非常相似,这是 OpenAI 未来训练 Agent 的标准方法吗?

Issa Fulford:我认为我们还可以把这项技术推向更远。我们的团队合作的时间其实并不长,我们甚至把这次模型运行的定位描述为「最低可交付的风险规避版本」,这个版本只是我们能一起做出的最基础的形态。

比如幻灯片制作能力,虽然已经非常令人印象深刻了,但我们还有很多可以进一步推动和改进的地方。我们可以用同样的技术把它做得更好,当然,未来可能也需要引入新的东西。

Edward Sun:是的,到目前为止,同一个算法能从基础的工具调用,进化到如今更高级的计算机和浏览器使用,感觉相当神奇。


02 

可以运行一小时而不「失控」

主持人:大家通常使用 ChatGPT Agent 做什么?

Issa Fulford:我认为最酷的一点是,关于人们会如何使用它,我们有一些自己的想法或预设,但我们也有意让它保持了相当大的开放性。它被命名为 Agent,这个词本身就很宽泛,部分原因是我们很期待看到人们最终如何使用它。

当然,我们重点训练了它处理几类任务。比如「深度研究」类的,当你需要一份关于某个主题的详尽报告时;或是「Operator」类的,你希望它帮你预订、买东西;此外,还有制作幻灯片、处理电子表格和数据分析。

但我认为,ChatGPT Agent还能做其他许多事情。就像我们当初推出深度研究时,很多人用它来搜索代码,这完全超出了我们的预料。我们希望能看到更多我们自己都想不到的新用例。

主持人:你觉得它的应用会更偏向消费者(B2C)还是商业(B2B)领域?或者说这种划分本身就是错误的?

Issa Fulford:我们希望两者兼顾。我们的目标用户是「专业消费者」(prosumer),那些愿意为了一个详细报告等待 30 分钟的人。这既可能发生在个人场景,也可能发生在工作场景。我认为它两者都适用。

主持人:你们自己有没有特别喜欢用它来做的某件事?

Edward Sun:我主要是用它从 Google Docs 的电子表格或内部日志里提取数据,然后整理成幻灯片做展示。这个功能对我来说非常实用。

Casey Chu:我最近在用它研究古代 DNA,这是我的个人爱好。这个领域在过去五年有很多激动人心的进展,但因为太新了,网上缺乏系统性的总结资料。Agent 刚好可以帮我搜集所有相关论文和信息,整合成一份报告或幻灯片供我阅读。我认为它简直是为这个主题量身定做的。

Issa Fulford:我喜欢用它处理一些个人消费场景,比如网上购物。很多网站有复杂的筛选器,或者需要你直观地看到商品的样子,这时候视觉浏览器就特别有用。此外,用它来策划活动也很方便。

主持人:在我们录制播客之前,你们还展示了一个非常酷的案例,分享一下。

Issa Fulford:这是我们同事 Tedel 的一个尝试。她让 Agent 根据网上能找到的信息,估算 OpenAI 的市值,并创建一个带预测的财务模型。具体来说,是先创建一个电子表格,生成一份总结报告,最后再做成幻灯片来展示。希望它的预测是准的,因为它给出的数字相当乐观。

主持人:那份幻灯片确实令人印象深刻。

Issa Fulford:是的。关于这个过程,我想指出的一点是,它推理了大概 28 分钟。我认为开启了一种新的范式,你给 Agent 一个任务,然后你走开,它带着一份报告回来。随着 Agent 变得越来越有自主性,任务的时长会越来越长,这是一个很好的例子。

主持人:这是你们目前运行时间最长的任务吗?

Casey Chu:我想是的。我刚刚就运行了一个长达一小时的任务,我以前从没见过这么久的。

主持人:是什么技术能让 Agent 运行这么长时间但不会「失控」?

Edward Sun:我们有一些工具,能让模型突破其原有的上下文长度限制,进一步扩展它的处理范围。这样,模型就能够通过一步步记录它正在做什么,就像在逐渐增加任务的时间跨度,但不需要人类的干预。

主持人:而且整个协作流程似乎非常顺畅。我可以在它执行任务的过程中随时介入吗?

Issa Fulford:是的。这个模型非常灵活,且善于协作,这对我们至关重要。它的交互模式是模仿你请求别人为你完成一项任务时的情景。比如,你在 Slack 上请同事帮忙。你先给出指令,他们可能会问几个问题,然后开始工作。中途,他们可能会再来找你:「关于这个,你能再澄清一下吗?」或者「你能帮我登录一下这个网站吗?」

同样,你也可能会想起一些事,中途打断他们:「哦对了,记得把那个也做了。」或者,如果他们偏离了方向,你也可以随时纠正。

我认为,用户和 Agent 都能主动发起沟通,这一点至关重要。我们现在的版本,可能是这种模式最基础的形态,但它已经比我们之前在该领域发布的任何产品都要好。首先,Agent 可以像深度研究那样问你一些澄清性问题,但方式更灵活,它不总是会问。其次,你可以打断它。此外,如果它要执行某些破坏性操作时,或者需要你登录某个服务,也会在行动前征求用户的许可。

Casey Chu:我们还为它构建了一个类似计算机桌面的界面。你可以实时观察 Agent 在做什么。任务完成后,这个界面依然存在,你可以回去追问,让它修改,或者执行下一个任务。

你还可以随时「接管」那台虚拟电脑,亲自点击、为它登录、输入你的信用卡信息等等。我喜欢把它比作「站在同事身后看他操作,并在必要时搭把手」。


03 

第一个在计算机上完全「具身化」的 Agent

主持人:训练这个 Agent 最困难的部分是什么?

Edward Sun:我认为最大挑战之一是如何保持训练的稳定性。我们实际上是同时启动成百上千个虚拟机,然后让它们同时访问互联网。所以训练起来其实相当困难,训练也经常失败。

主持人:下一步计划是什么?

Casey Chu:我认为,这个 Agent 框架的一个我喜欢的地方在于,你可以让它做任何你想做的事。你可以让它执行你所能想象到的所有任务,只是它可能做得不够好而已。比如,你可以让它「上网给我赚钱」,它真的会去试试。所以我觉得,我们接下来的核心工作,其实就是一个不断提升准确率的过程——让它在人类会在电脑上做的所有任务上,都表现得更好。而这是一个非常庞大的任务集合。

Edward Sun:是的,通过这种迭代部署,我们非常期待看到用户会在我们的 Agent 中发现哪些新的能力,就像在深度研究中发现了编码能力,或者在 Operator 中发现了深度研究能力一样。

主持人:你自己会用 Agent 来写代码吗?

Edward Sun:我经常用它来编码。我发现它不会总想着重写我的整个代码库,而是更擅长做一些小范围的编辑。而且它能很好地阅读不同函数的原始文档,所以我感觉它在函数编码方面的「幻觉」更少。

主持人:在实际工作中,你怎么选择什么时候用 Codex,什么时候用 Agent?

Edward Sun:我使用 Agent 的方式,更像是和 GPT-4o 互动,是一种交互式的体验。而 Codex 更像是,你有一个精心设计好的问题,希望一个「同事」来解决,他会直接为你创建一个 PR(代码合并请求)。相比之下,Agent 更像是在旁边给你提供一个函数建议或是一段代码参考。

主持人:它能通过 API 访问 GitHub,整合了各种能力。

Casey Chu:是的。到目前为止,感觉我们把 Agent 所需的各种「肢体」都构建了出来,然后将它们全部整合到了一起。这真的就像是第一个在计算机上完全「具身化」的 Agent。这非常令人兴奋。

Issa Fulford:是的,另一个我们很期待推进的领域是与 Agent 协作的体验。我认为这个模型在多轮对话方面已经非常出色,能够持续处理一个任务,体验很好。这恰好是之前「深度研究」的不足之处。很多人会在一次对话中发出多个深度研究请求,但效果往往不佳。所以我们对它目前的多轮对话能力非常满意,并希望进一步提升。

此外,我还认为个性化和记忆对于 Agent 来说也至关重要。而且,目前每个 Agent 任务都是由用户发起的,但在未来,它应该能够在你甚至没有提出要求的情况下,就主动为你完成任务。

Casey Chu:我也对 Agent 的用户界面(UI)和用户体验(UX)充满期待。现在我们是在 ChatGPT 的对话框里工作,但完全可以想象未来会有更多、更丰富的与 Agent 互动的模式。


04 

未来可能是一个统一的通用 Agent

主持人:你认为未来会是一个单一的、无所不包的超级 Agent,还是会分化出像金融分析师、派对策划师这样的子 Agent?

Issa Fulford:我觉得大家有不同的看法。但我认为,从终极体验来看,最理想的状态是你只需要提出一个需求,它就能自己搞清楚该如何完成。就像你拥有一个极其出色的幕僚长,他知道如何正确地分配任务,并能搞定你需要的任何事,那样的体验会非常轻松。

Casey Chu:我同意这个观点。在我们的实际测试中,当模型处理一个购物任务时,它有时会自己打开终端去做一些预算计算。我认为模型就应该能够自由地调用所有工具,它不需要先成为一个「金融分析师」,才能使用金融分析的工具。

Edward Sun:我觉得,在发布产品时,推出像 GPTs 那样定制化的模型或指令,让模型扮演特定角色,是合理的。但在底层训练时,各种技能——比如深度研究、网页操作、幻灯片制作——之间存在很多积极的迁移效应。所以,只训练一个强大的、单一的底层 Agent 模型,要合理得多。

主持人:要达到这样一个能胜任广泛任务的 Agent,是不是需要非常大量的数据?从强化学习的角度来看,有哪些经验教训?

Edward Sun:是的。我们实际上创建了一系列非常多样化的任务。有些任务需要在互联网上寻找非常小众的话题或答案,有些任务则非常类似于深度研究,需要写一篇完整的长文。还有很多任务,就是我们希望模型擅长的所有任务。到目前为止,我们认为,只要你能对这些任务进行评估,也就是在模型给出结果后,你能判断它的表现好坏,你就能可靠地训练模型在这项任务上表现得更好。

Issa Fulford:强化学习的数据效率非常高。这意味着我们能够精心策划一个规模小得多但质量非常高的数据集。这个数据的规模与预训练数据的规模相比简直是微不足道。因此,我们能够通过策划这些规模小得多的高质量数据集,来教给模型新的能力。

Casey Chu:我补充一点,为了让 Operator 这部分能运作良好,在进行强化学习之前,模型本身必须足够好,能够对任务有一个基本的完成能力。我们的团队在过去的两三年里花了很多时间,才让模型对网页和视觉元素的理解达到了一个能真正进行有效推理的水平。所以,今天的成果是建立在所有这些基础之上的。

主持人:我记得 OpenAI 早期有个叫「比特世界」(World of Bits)的项目,当时用强化学习训练鼠标路径似乎是个无解的难题。现在是什么改变了,让这个问题变得可以解决了?

Casey Chu:「比特世界」这个项目有很长的历史渊源,可以追溯到 2017 年。实际上,我们计算机使用部分的代号就是「比特世界 2」。变化在于训练的规模。我不知道具体的倍数,但计算量上肯定有 10 万倍之类的增长。我们做的预训练和强化学习的数据量也增加了。所以,我真的认为就是规模,规模终于赶上了我们的雄心。

主持人:规模就是你所需要的一切。

Casey Chu:当然,还需要好的数据。

主持人:在 Agent 模式中,有哪些特别让你兴奋的功能或能力?

Edward Sun:它在进行真正的数据科学研究,并将发现总结到电子表格里的能力,表现得相当不错。在一些数据科学的基准测试中,它的表现实际上已经超过了人类基线。这意味着在某些任务上,它已经是超人类的了,我们可以依赖它做一些基础分析。这是我们团队的 John Blackman 一直在大力推动的领域。

Casey Chu:另一件让我兴奋的事是基础能力的提升。我们在一月份发布的 Operator,在点击操作上还算可以,但现在我们已经大幅提升了这方面的能力,它准确得多了,能把基础的事情做好。能可靠地填写表单,做这类事情,这正是我感到兴奋的地方。

主持人:ChatGPT Agent 项目的下一步规划是什么?

Issa Fulford:我认为我们真正兴奋的是,我们给模型提供的这个工具集非常通用。它基本上涵盖了你在电脑上能做的大部分事情。如果你想一下人类在电脑上能做的所有任务,那范围是极其广泛的。所以现在我们觉得,问题就在于我们如何让模型也擅长所有这些任务,并找到一种方法,用这个非常通用的工具来训练尽可能多样化的任务。所以我认为我们面前还有很多艰苦的工作,但我们对此非常兴奋。

同时,我也很期待推动与 Agent 互动的不同形式。我认为用户和这些虚拟助手或 Agent 之间未来会出现很多新的互动范式。所以,未来有很多激动人心的时刻。


05 

目前还没解决好「与现实世界交互」的问题

主持人:ChatGPT Agent 目前存在哪些问题或者风险?

Issa Fulford:我认为 ChatGPT Agent有一个很有意思的地方是:它能采取行动,对真实世界产生实际影响,所以风险也随之大了很多。之前的「深度研究」是只读模式,能做的事情有限,风险也相对可控。但现在这个 Agent,理论上它可以在完成任务的过程中,会附带产生很多意想不到的有害行为。举个例子,你让它帮你买件东西,它为了让你满意,可能会自作主张地买下 100 个不同的选项让你挑。

Casey Chu:没错,类似的例子可以想出很多。遂于,安全、安全训练以及相应的缓解措施,是我们开发过程中最核心的环节之一。正是这种与真实世界的直接交互,让一切都变得非常困难。我们的训练需要在数千个虚拟机上大规模进行,而只要一接触真实的网站,各种问题就都来了,比如网站可能会宕机,或者我们自己会遇到各种容量和负载测试的瓶颈。这只是个开始,我们会一步步解决这些工程细节,但它确实是目前一个主要的限制因素。

主持人:从安全角度来看,你们是如何建立安全护栏的?我怎么确保它不会登录我的银行账户,把钱都转走?

Casey Chu:这是个非常好的问题,也是绝对正在出现的风险。互联网是个危险的地方,有很多攻击者、诈骗犯,还有钓鱼攻击等。我们的模型虽然经过训练,能对这些风险进行推理,但有时还是会被骗,或者为了完成你的任务而「过于热心」。

我们的团队付出了巨大的努力,构建了一整套复杂的安全缓解措施,力求让模型尽可能安全。举个例子,我们有一个监控器,它就像在模型背后「监视」着,看有没有任何看起来不对劲的地方,比如它是否在访问奇怪的网站等。

当然,我们不可能捕捉到所有问题,这是一个我们会持续迭代的重要领域。我们有一个协议,如果我们在野外发现或遇到了新的攻击方式,我们可以迅速响应并更新这些监控器,就像更新你的杀毒软件一样,它会识别这些新的攻击,保护安全。

Issa Fulford:我认为安全训练是真正的跨部门合作,融合了安全、治理、法务、研究、工程等多个团队的努力。我们在每个层级都设置了大量的缓解措施,并做了大量的内外部红队演练。但就像 Casey 说的,当我们发布模型后,肯定会发现新的问题,所以我们必须有强大的机制来快速响应和修复。

主持人:对于滥用风险,比如利用它制造生物危害,你们是如何管理的?

Casey Chu:生物安全一直是我们高度关注的问题。团队一直在非常审慎地思考,我们认为这个 Agent 非常强大,它加速研究工作,但这也意味着它可能加速危害的产生。我们团队一直在关注的首要问题之一就是生物风险,比如制造生物武器这类事情。团队一直在非常审慎地思考如何防范这种情况,并且总体上非常谨慎。团队花了数周时间进行专项红队演练,确保模型不会被用于这些有害的目的,并设置了很多额外的防范措施。我们对此有非常清醒的认识,并始终保持高度谨慎。



(文:Founder Park)

发表评论