LangChain CEO 再聊 Agent:chat 模式只是起点,Ambient Agents 才是未来

「workflow 才是 Agent 的高级且成熟的形式。」

「现实中最靠谱的路径是 Agent+workflow 这种组合的优化。」

「workflow 本质上是工具,只是工具中用到了 AI 能力,所有被定义成 Work Flow 的就应该被做成工具。」

一边是 Agent 遍地开花,另一边,创业者们还在争论到底 Agent 和 Workflow 孰优孰劣。

在 LangChain CEO Harrison Chase 看来,Agent 并不是「非黑即白」,而是像一个光谱。引用吴恩达的观点,与其讨论一个东西是不是智能体,不如讨论它的「智能体化程度」(agenticness)。LLM 决定下一步的程度越高,应用的「智能体化程度」就越高。

那 chatbot 是 Agent 最佳模式吗?未来到底是一个 Agent 还是很多 Agent?大家都在做 Agent,Agent 的下一步会是什么方向?

Harrison Chase,以及 企业 Agent 平台 Dust 的 CEO Stanislas Polu,在这个话题上还是有一些发言权的。在最近的一期播客中,两人对 Agent 的下一步会怎么走进行了深入探讨。

以下为两人的对谈内容,Founder Park 编译了其中的核心内容。

产品介绍

  • Langchain,专注于为开发者提供开源工具和框架,构建了一系列开发者工具,旨在让构建智能体应用的过程变得尽可能简单。

  • Dust,Dust 是一个为企业用户提供 Agent 的平台,让公司能够轻松地为其员工构建、部署和管理高度定制化的 AI 智能体(AI Agents)。

TLDR: 

  • Stanislas Polu 认为:工作流很有价值,因为它能让你更好地控制流程,但从长远看,并没有太大意思,想象空间有限。智能体更容易构建,任何人都可以构建一个智能体,但并不是任何人都能构建一个工作流。工作流就像典型的 Make、Zapier 之类的东西,很容易上手,大多数人都能与这些产品互动,但不是每个人都可以。

  • Harrison Chas 则认为,通常用工作流和智能体可以实现同样的目标,其核心区别在于描述任务的难易程度。

  • 未来的交互界面会发生分化。当智能体需要更长时间来完成任务,或在无人干预的情况下被触发时,你需要的可能是一个「指挥中心」(Command Center),而不是一个对话列表。

  • 在实现这样一个「环境化」和自主的世界前,一个很好的中间形态是「工作计划」(work plan)。你可以把一个大任务分解成许多子任务,然后将其中一部分委派给智能体,形成一个人机协作的任务看板。随着智能体变得越来越可靠,它们会承担越来越多的工作,最终实现自主规划。

  • 在智能体拥有真正有效的功能性记忆之前,专有智能体仍然是必需的。因为如果智能体没有良好的情景记忆,它将很难学会哪些数据是过时的,哪些数据是新鲜的。定制化的智能体可以指向正确的数据,解释正确的流程,这样就不必每次都重复做。


超 10000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

怎么定义 Agent 不重要,

Agentic 程度更重要

主持人:我们应该如何理解 AI 智能体(AI agent)到底是什么?

Harrison Chase:智能体是一个由大型语言模型(LLM)来决定其控制流程的应用程序。从技术角度来讲,很多开发者认为智能体就是在一个 for 或 while 循环中运行 LLM,由 LLM 决定下一步该做什么,然后执行相应的动作,直到它判定任务完成。在这种模式下,LLM 明确地主导着应用的每一步。

我认为也存在一些不那么「智能体化」的应用程序,其中 LLM 可能只决定几个步骤,而有些步骤是硬编码的,比如 A 之后总是执行 B。甚至在多智能体应用中,你可能运行一个这样的循环,然后它会立即转到另一个应用,该应用会运行一个检查程序,或者甚至另一个智能体,然后再返回。

所以,Agent 是一个光谱。有一个我很喜欢的说法是,吴恩达建议我们与其讨论一个东西是不是智能体,不如讨论它的「智能体化程度」(agenticness)。LLM 决定下一步的程度越高,应用的「智能体化程度」就越高。

主持人:Stan 有什么补充吗?

Stanislas Polu:我完全同意这个说法。目前市场上一个有趣的议题,就是「智能体」与「AI 工作流」之争。

我认为,工作流很有价值,因为它能让你更好地控制流程,但从长远看,我认为它并没有太大意思,想象空间有限。我们预见的世界里,智能体将成为真正的同事,而你无法用一个固定的工作流来编码一个同事。因此,我们更看好帮助人们创造智能体,而不是工作流。

非常有趣的是,虽然智能体更丰富,但在某种意义上也更有风险。智能体更容易构建,任何人都可以构建一个智能体,但并不是任何人都能构建一个工作流。工作流就像典型的 Make、Zapier 之类的东西,很容易上手,大多数人都能与这些产品互动,但不是每个人都可以。这需要一点学习和适应过程。

相比之下,构建一个智能体,实际上只是用简单的英语描述你想做什么,然后点击智能体应该具备的功能。智能体实际上对更广泛的受众开放。所以,从长远来看,最强大的东西在某种程度上也是最容易构建的。

主持人:这是否可以理解为:工作流是给他一份详细的食谱,而智能体是直接创造一个厨师,让他去发挥?

Stanislas Polu:是的,这就像麦当劳和米其林星级餐厅的区别。前者流程化,结果可预期;后者则依赖厨师根据情况和现有的食材进行的即兴创作。

Harrison Chase:我有一些不同的看法。我认为,通常用工作流和智能体可以实现同样的目标,其核心区别在于描述任务的难易程度。在智能体的世界里,一切都以自然语言进行,比如,你可以用自然语言写下一个「食谱」,比如「嘿,先做 A,再做 B,然后做 C」。但这种方式并非完全确定性的,所以它在安全性上有所妥协,但在易用性上却大大提升了。我们早期借鉴了「React 智能体」这篇论文的概念,它创新性的地方在于,你只需要给智能体一些工具和一个系统提示,它就会开始做事。这种简洁性非常美妙。

注:论文《ReAct: Synergizing Reasoning and Acting in Language Models》

https://arxiv.org/abs/2210.03629

Stanislas Polu:React 论文是一个有趣的数据点。今天的人读它可能会觉得「这太显而易见了,也算一篇论文?」但这恰恰说明了在 2022 年末,我们对这项技术能做什么还知之甚少。建议大家都去读一下,可以直观地感受到这个领域发展的速度。


02 

chat 模式只是起点,

常驻、无感化的 Agent 才是未来

主持人:目前来看,智能体在哪些用例上最为卓有成效?在这些用例中,你们看到了哪些「商业杠杆」?

Stanislas Polu: 我们的产品是完全横向的,应用场景非常广泛,而且让每个人都能共享、创建和分享智能体,并在业务环境中让智能体之间相互协作。

举几个例子:将 Slack 上的某个特定话题下的一系列讨论,自动转化为一个结构化的 GitHub 工单;或者在每一次销售通话结束后,激活一群智能体,它们会自动提供反馈、填写 Salesforce、提取产品兴趣点,甚至到 Notion 相应的页面去创建评论。最令人兴奋的是,智能体能完成一些过去人类因为工作量太大而根本不会去做的新任务。

Harrison Chase: 我们内部也在广泛使用智能体。客户支持是一个很大的用例,我们用它来处理大量问询。编码是另一个用例,我们用它来回复问题、管理讨论等。我个人用得最多的,是一个监控我的电子邮件、起草回复并标记重点的智能体。此外,深度研究和市场营销也是非常重要的应用领域,比如我们会用它把博客文章改写成推文。

主持人:你曾在一篇博文*中提到我们与智能体的互动方式会从主动输入提示,转向更「环境化/常驻」(ambient)的模式。这具体是指什么,为什么你认为会朝这个方向发展?

注:《Introducing ambient agents》

https://blog.langchain.com/introducing-ambient-agents/

Harrison Chase: 到目前为止,聊天(Chat)一直是主流的用户体验,因为它把人类置于控制中心,非常注重 human-in-the-loop,安全且直观。

但它的缺点也很明显:你必须主动发起所有对话,而且不适合处理耗时很长的任务。而且因为你通常期望即时得到回应,所以它们不能花太长时间,否则你就会觉得无聊然后切换走。

我认为未来会朝着「环境化智能体」的方向发展,也就是让智能体主动监听事件流。比如一封新邮件、一次日历更新,然后在后台异步地采取行动。当需要人类决策时,它再以某种方式(比如一封草稿邮件)呈现给你。我认为至关重要的是,这些不一定是自主智能体。它们在某些环节仍然需要有人类参与,因为我认为这对于企业采纳仍然是必要的。

Stanislas Polu: 我完全同意。我们确实认为,对话界面一直是主流界面。我们假设,未来的交互界面会发生分化。当智能体需要更长时间来完成任务,或在无人干预的情况下被触发时,你需要的可能是一个「指挥中心」(Command Center),而不是一个对话列表。

相反,对话模式在 B2C 场景中可能会更有价值,因为在 B2C 场景中,你的智能体实际上是你的行政助理,所以你和它之间有一条或几条对话流。

同时,多人与一个或多个智能体互动的场景也需要新的交互模式。更长远地看,智能体甚至可以主动浏览公司内部发生的一切,然后主动联系你并提供价值。你可以想象,给一组智能体一个高层次的项目目标,然后让它们自行组织、分工、协作,几天后再向你汇报成果。这是最终的形态。

Harrison Chase: Stan,你提到的「指挥中心」,这个功能现在在产品里了吗?还是未来的一个方向?

Stanislas Polu: 我也不知道它具体是什么样的,但你们内部正在构建的「智能体收件箱」显然是朝这个方向迈出的第一步。

关于智能体,奇怪的一点是,API 本身就非常偏向于对话。目前整个生态系统,从 API 到后训练层面,都还有点被束缚在对话界面附近。

模型似乎被后训练来给你一个即时答案。但我们真正想要的交互是:「你去工作一天,有问题随时问我,一天后给我看成果。」 现有的系统还很难支持这种互动。

Harrison Chase: 是的,在我们刚开始构建时,根本没有「消息」(messages)这个概念,只是文本输入,文本输出。OpenAI 只提供了聊天消息 API,现在一切都是在这个基础之上。

这导致了不同模型间的消息格式不统一的问题。OpenAI 有他们自己的输入输出模式,但这和 Anthropic 的不同,和 Google 的也不同。

而且,到目前为止所有聊天智能体都是同步的。我认为聊天是一种很好的同步沟通形式,而异步的交互,当它需要浮现到用户面前时,最终还是会以一条消息的形式出现,因为这是同步沟通的主导范式。

主持人:要实现这样一个「环境化」和自主的世界,目前主要的障碍是什么?我们离那个指挥中心的世界还有多远?

Stanislas Polu:我认为可靠性是一个核心的限制因素。模型有时在非常简单的问题上会表现得令人难以置信地愚蠢,但在另一些领域又能解决极其复杂的问题。这充分说明了数据的重要性、预训练的重要性、后训练的重要性,以及在代码和数学等领域投入了大量精力。

我认为,在实现完全环境化之前,一个很好的中间形态是「工作计划」(work plan)。你可以把一个大任务分解成许多子任务,然后将其中一部分委派给智能体,形成一个人机协作的任务看板。随着智能体变得越来越可靠,它们会承担越来越多的工作,最终实现自主规划。

所以我认为,即使在当前这个世界,智能体在某些任务上的可靠性仍有很大局限,人类的监控非常重要,我们仍然可以想象出许多产品界面,它们将开始融合同步交互和更异步的交互,通过内省正在发生的事情来实现这一点。

Harrison Chase: 我同意单个智能体的可靠性是关键。此外,学习和记忆机制也非常重要。

目前,我认为,代码领域是很好的「先行指标」,因为模型在这方面做得很好,可靠性更高。比如,Claude Code 就是是一个很好的例子,模型做得足够好,可靠性就更好一些。我们已经开始看到一些针对长时间运行的编码智能体的「指挥中心」式交互界面出现,但还处于非常早期的阶段。


03 

不是一个万能 Agent,

而是 Multi-Agent 系统

主持人:你们认为未来会是一个「万能智能体」的时代,还是一个由无数专业智能体组成的生态?

Stanislas Polu:这是一个大问题,我们没有明确的答案。最初,我们从许多定制化智能体开始,考虑到当时模型的状况,这在当时是正确的。随着模型变强,确实有一股力量在推动向更通用的智能体发展。

在智能体拥有真正有效的功能性记忆之前,我认为定制化智能体仍然是必需的。因为如果智能体没有良好的情景记忆,它将很难学会哪些数据是过时的,哪些数据是新鲜的。定制化的智能体可以指向正确的数据,解释正确的流程,这样就不必每次都重复做。

我猜测智能体的抽象层次会提高,所以完成工作所需的智能体数量可能会减少。但它是否会趋同于一个,目前还很不清楚。

Harrison Chase: 我基本同意 Stan 的看法。但我有几点补充想法。

第一,我们得先想清楚,「拥有多个智能体」到底意味着什么?它们之间有什么不同?通常来说,它们的区别就在于「提示词」(Prompts)不一样,有时候用的模型也不一样,但最主要的还是提示和它们能调用的工具有什么区别。所以,理论上,在最极端的情况下,你也许可以做出一个超级智能体,它的系统提示里写满了公司里所有事情该怎么做的说明,并且能调用所有的工具。但这显然不是我们现在看到的景象。未来可能会朝那个方向发展,或者说,朝着智能体数量变少的方向发展。

我认为我们现在看到的,更像是另一种模式:公司的用户可能只跟一个智能体互动,但在这个智能体背后,其实藏着许多「子智能体」。这个主智能体可以去调用、分发任务或者使用这些子智能体。每个子智能体都有非常具体的指令。当我们跟别人聊怎么做智能体时会说,你先写下一个标准操作流程(SOP),搞清楚它需要什么工具。所以,未来也许会有一个中央的「总管」智能体,它负责跟所有这些下属智能体互动,这就开始涉及到多智能体系统了。这方面还非常早期,但我认为已经有一些初步的苗头了。

主持人:我们如何确保智能体在做有用工作的同时,避免陷入一味奉承和讨好的模式?

Stanislas Polu:我有一个很想做的研究项目:让智能体为了一个共同目标而相互辩论。不一定是完全对抗性的,更像一个研究社区。智能体的目标是在某种「真理」的指引下获得高排名。在多智能体设置中,你可以提示一些智能体去挑战那些只会给出讨好答案的智能体,这可能会缓解这个问题。当然,这目前还属于研究领域。

Harrison Chase: 从实践上讲,现在可行的是提示智能体持有不同的观点。另外,一个简单的版本是让一个智能体对另一个智能体的产出进行反思或批判。对于代码这类有明确验证标准(比如能否编译通过)的任务,这种「循环中的评估」已经可以实现了。

主持人:那现在有人在做类似的事情吗?比如让不同的智能体提出观点,然后像 Hacker News 那样进行 PK 和排名?

Stanislas Polu:我知道全球肯定有不少团队在研究这类想法。OpenAI 就有一个多智能体团队,我猜他们拿下的国际数学奥林匹克竞赛(IMO)金牌,背后很可能就是一套类似的多智能体系统。所以,很多人肯定在探索,这也很合理。但在现阶段,我认为这绝对还处在研究领域。

Harrison Chase:我们能看到一些非常初级的版本,最简单的就是「反思」或「批判」。比如,让一个智能体生成内容,再让另一个智能体来给它提意见。

对于代码这类任务,这就更容易了,因为你可以直接运行它看结果。代码编译不通过,这就是一个客观事实,一个来自系统的「不同观点」。你可以想象为写文章也做类似的事,让一个「编辑」智能体来审查初稿。

但总的来说,这目前还偏向研究。除非你能找到一种可验证的奖励机制,我们称之为「循环中的评估」(evals in the loop),比如运行代码就是最直接的例子。我们内部就在试验,让一个独立的智能体来判断一个编码任务是否算完成。这不算是对抗,更像是一种职责分离。所以,现在大家做的一些尝试,可以看作是朝着这个方向努力,但方式还比较初级和简单。


04 

执行力就是护城河,

任何超过六个月的规划都可能被推翻

主持人:在当前这个时刻,投身 AI 领域创业意味着什么?面对快速的跟风者,你们如何建立自己的护城河?

Stanislas Polu: 在 AI 领域创业,确实是一团乱码。在过去的几十年里,技术基础一直非常稳定。比如说,在我们身后的 SaaS(软件即服务)时代,技术基础是 JavaScript 和 Postgres。

但现在,我称之为「AI 的迷雾」(The Fog of AI)时代。意思是说,底层技术正以惊人的速度迭代,这意味着你必须对未来有一个清晰的愿景,但无法绘制出通往愿景的详细蓝图。任何超过六个月的规划都可能被推翻。这给组织的对齐(Alignment)带来了巨大的挑战。「AI 对齐问题」是在 AI 领域创业最具挑战性的部分之一。

我们的策略是,努力构建一个比市场稍微领先的产品,即使看不清未来,也要投入资源去构建我们坚信是未来的东西,以此来创造防御性。

Harrison Chase: 我同意这是一个混乱的时期。我认为执行力就是护城河,执行速度也是。AI 领域有太多事情在发生,这反而会让竞争对手分心。因此,真正专注于一个问题,对此抱有信念并持续构建,但其实这非常困难。

从产品的角度看,关键在于你能不能真正理解自己要实现的目标,然后以此为核心,打造出一条连贯的产品策略和体验。你加的某个功能,别人也许能抄走,但如果他们没有你那种对全局的理解,就永远做不到位,细节上总会露怯。

我们早期做了很多事,都是在用户体验方向。现在,我们开始思考更深层次的技术赌注是什么。如果你从外面看,可能会觉得:「天啊,他们做了上百件事。」 但实际上,我们真正押注的,只有两三个核心的技术方向。

这需要有信念,也确实很难。因为你既要跑得快,又要有一个坚定一致的信念,或者说,一个明确的技术押注,这样才能建立起别人一两周抄不走的东西。

主持人: 不久前发生了 Windsurf 的并购风波,你们如何看待这类事件?

Stanislas Polu: 这可能会引起争议,但我认为谷歌的这种人才收购(acqui-hire)的安排,比 Scale AI 的情况要好。我觉得 Scale AI 的情况更奇怪,因为它既是 CEO 的人才收购,但同时又不是一次完全的收购,只是购买了多数股权。人才收购一直都存在,只是这次的金额太大了,让事情变得很奇怪。但对于那些被留下的员工来说,眼睁睁看着一群人带着巨款离开,这显然是完全不可接受的。

Harrison Chase: 这已经不是第一次了,Character.ai、Inflection 都有过类似的情况。现在的人才市场正处于一个非常疯狂的时期。我很难想象 LangChain 会走那条路,因为我创业的初衷就是和一群我喜欢的人一起创造伟大的东西。但我也不想评判任何人。

主持人:在如此火热的人才市场中,你们作为初创公司如何竞争,吸引到合适的人才?

Stanislas Polu:我们在巴黎创业,这是一个简单的优势。这里的竞争远不及旧金山激烈,我们有能力在巴黎打造一个非常有吸引力的品牌。这对我们建立我们同样非常兴奋能与之共事的团队来说,是一件非常棒的事情。我认为这主要是我们在这里的差异化方法,即工程团队的本地化。

Harrison Chase: 我们主要在旧金山,所以要困难得多。我们更多是招聘普通的软件工程师,而不是研究工程师。很多人想在初创公司工作,这是我们区别于那些大模型实验室的主要优势。

主持人:对于通用人工智能(AGI)何时到来,你们有什么看法?

Stanislas Polu:我没有具体的时间表。可以肯定的是,对这个生态系统的疯狂投资仍在继续,这意味着推动模型进步的资源没有上限。所以我认为进步不会停止,但具体速度难以预测。老实说,这不是我花太多时间思考的问题。因为无论技术是停滞还是飞跃,将现有技术部署到社会中都需要很多年,围绕这个过程创造价值的空间是巨大的。我曾开玩笑说,这是 AGI 之前的最后一班车,可能是创办公司的最后机会。

Harrison Chase:我也花很少的时间去想这个问题。即使模型变得非常强大,你仍然需要通过某种方式将它们集成起来,才能让它们产生影响。这正是我们专注的工作。

主持人:如果你们有无限的资源,最想做一个什么样的实验?

Harrison Chase: 我会探索「记忆」这个领域,包括 AI 的记忆、个性化和学习。另外一个与 AI 无关的,是我想搞清楚怎样才能睡得最好,这对我个人很重要。

Stanislas Polu:我会用无限资源去搭建所有将模型连接到正确行动和数据的「管道」,因为现在缺失了太多管道,我们看不清模型的真正能力上限。另一个实验是,我想找到一个产品的最佳团队规模是多少,尤其是在 AI 时代。我怀疑在某个点上存在一个效率的最大值。



(文:Founder Park)

发表评论