谷歌发76页智能体白皮书！你的「AI替身」已上线

新智元报道

编辑：英智

【新智元导读】谷歌最新发布的76页AI智能体白皮书，深入剖析了智能体的应用前景。智能体通过感知环境、调用工具和自主规划，能够完成复杂任务并做出高级决策。从智能体运维（AgentOps）到多智能体协作，这份白皮书为AI智能体指明了方向。

近日，谷歌发表了76页的AI智能体白皮书！

智能体通过感知环境，并利用工具策略性地采取行动，实现特定目标。

其核心原理，是将推理能力、逻辑思维以及获取外部信息的能力融合，完成一些基础模型难以实现的任务，做出更复杂的决策。

这些智能体具备自主运行的能力，它们可以追寻目标，主动规划后续行动，无需明确指令就能行动。

参考链接：https://www.kaggle.com/whitepaper-agent-companion

白皮书深入探讨了智能体的评估方法，介绍了谷歌智能体产品在实际应用中的情况。

参与过生成式AI开发的人都知道，从一个创意发展到概念验证阶段并不难，但想保证最终成果的高质量，并将其投入实际生产，就没那么简单了。

在将智能体部署到生产环境时，质量和可靠性是最大的问题，智能体运维（AgentOps）流程是优化智能体构建过程的有效方案。

智能体运维

过去两年，生成式AI（GenAI）发生了巨大变革，企业客户越来越关注如何将解决方案真正应用到实际业务中。

智能体与运维（AgentOps）属于生成式AI运维的一个分支，重点关注如何让智能体更高效地运行。

AgentOps新增了一些关键组件，包括对内部和外部工具的管理、智能体核心提示（像目标、配置文件、操作指令）的设置与编排、记忆功能的实现，任务分解等。

开发运维（DevOps）是整个技术运营体系的基石。

模型应用开发在一定程度上继承了DevOps的理念和方法，机器学习运维（MLOps）则是在DevOps的基础上，针对模型的特点发展而来的。

运维离不开版本控制、通过持续集成 / 持续交付（CI/CD）实现的自动化部署、测试、日志记录、安全保障，以及指标衡量等能力。

每个系统通常会根据指标进行优化，衡量系统的工作情况、评估结果和业务指标，然后通过自动化流程获取更全面的指标，一步步提升系统性能。

不管叫「A/B测试」「机器学习运维」，还是「指标驱动开发」，本质上都基于相同的理念，AgentOps中也会遵循这些原则。

需要注意的是，新的技术实践并不会完全取代旧的。

DevOps和MLOps中的优秀实践经验，对于AgentOps来说依然不可或缺，它们是AgentOps顺利运行的基础。

比如，智能体调用工具时会涉及API，而这个过程中用到的API，和非智能体软件使用的API是一样的。

智能体成功指标

大多数智能体都是围绕完成特定目标设计的，目标完成率是一个关键指标。

一个大目标往往可以细分成几个关键任务，或者涉及一些关键的用户交互环节。这些关键任务和交互都应单独监测和评估。

每个业务指标、目标，或者关键交互数据，都会按照常见的方式进行汇总统计，比如计算尝试次数、成功次数、成功率等。

另外，从应用程序遥测系统获取的指标，像延迟、错误率等，对智能体也非常重要。

监测这些高级指标，是了解智能体运行状况的重要手段。

用户反馈也是一个不可忽视的指标。

在智能体或任务执行的过程中，一个简单的反馈表，就能帮助了解智能体哪些地方表现得好，哪些地方还需要改进。

这些反馈可能来自普通用户，也可能是企业员工、质量检测人员，或者是相关领域的专家。

智能体评估

想把概念验证阶段的智能体，变成可以真正投入生产使用的产品，一个强大的自动化评估框架必不可少。

评估智能体能力

在评估特定的智能体应用场景之前，可以先参考一些公开的基准测试和技术报告。

对很多基本能力，像模型性能、是否会产生幻觉、工具调用和规划能力等，都有公开的基准测试。

例如，伯克利函数调用排行榜（BFCL）和τ-bench等基准测试，就能展示智能体的工具调用能力。

PlanBench基准测试，则专注于评估多个领域的规划和推理能力。

工具调用和规划只是智能体能力的一部分。智能体行为，会受到它所使用的LLM和其他组件的影响。

智能体和用户的交互方式，在传统的对话设计系统和工作流系统中也有迹可循，可以借鉴这些系统的评估指标和方法，来衡量智能体的表现。

AgentBench这样的综合智能体基准测试，会在多种场景下对智能体进行全面评估，测试从输入到输出的整体性能。

现在，很多公司和组织针对特定的应用场景，设立了专门的公开基准测试，如Adyen的数据分析排行榜DBAStep。

大多数基准测试报告中，都会讨论智能体常见的失败模式，这能为建立适合应用场景的评估框架提供思路。

除了参考公开评估，还要在各种不同的场景中测试智能体的行为。

可以模拟用户和智能体的交互过程，观察它的回应，不仅要评估最终给出的答案，还要关注它得出答案的过程，也就是行动轨迹。

软件工程师可以把智能体评估和代码的自动化测试联系起来。在代码测试中，自动化测试能节省时间，还能让开发者对软件质量更有信心。

对于智能体来说，自动化评估同样如此。

精心准备评估数据集非常重要，它要能准确反映智能体在实际应用中会遇到的情况，这点甚至比软件测试中的数据集准备还要关键。

评估行动轨迹和工具使用

智能体在回复用户之前，通常会执行一系列操作。

比如，它可能会对比用户输入和会话历史，消除某个术语的歧义；也可能查找政策文档、搜索知识库，或者调用API来保存票据。

这些操作中的每一个，都是其达成目标路径上的一个步骤，也被称为行动轨迹。

每次智能体执行任务时，都存在这样一条行动轨迹。

对开发者来说，对比智能体实际采取的行动轨迹和预期的行动轨迹，非常有助于发现问题。

通过对比，能够找出错误或效率低下的环节，提升智能体的性能。

不过，并非所有指标都适用于每种情况。

有些应用场景要求智能体必须严格按理想的行动轨迹执行，而有些场景则允许一定的灵活性和偏差。

这种评估方法也存在明显的局限性，那就是需要有一个参考行动轨迹作为对比依据。

评估最终响应

最终响应评估，其实核心是：智能体有没有实现既定目标？

可以根据自身的需求，制定自定义的成功标准来衡量这一点。

比如，评估一个零售聊天机器人能否准确回答产品相关问题；或者判断一个研究智能体，能不能用恰当的语气和风格，有效地总结研究成果。

为了实现评估过程的自动化，可以使用自动评分器。自动评分器本质上是一个LLM，它扮演着评判者的角色。

给定输入提示和智能体生成的响应后，自动评分器会依据用户预先设定的一组标准，对响应进行评估，以此模拟人类的评估过程。

不过要注意，由于这种评估可能没有绝对的事实依据作为参照，精确地定义评估标准就显得尤为关键。

人机协同评估

人机协同评估在一些需要主观判断、创造性解决问题的任务中，有很大的价值。

同时，它还能用来校准和检验自动化评估方法，看其是否真的有效，是否符合预期。

人机协同评估主要有以下优点：

主观性：人类能够评估一些难以量化的特质，像创造力、常识以及一些细微的差别，这些是机器较难把握的。
情境理解：人类评估者可以从更广泛的角度，考虑智能体行动的背景以及产生的影响，做出更全面的判断。
迭代改进：人类给出的反馈，能为优化智能体的行为和学习过程，提供非常有价值的见解，助力智能体不断优化。
评估评估者：人类反馈还能为校准和优化自动评分器提供参考，让自动评分器的评估更加准确。

多模态生成（如图像、音频、视频）的评估，则更为复杂，需要专门的评估方法和指标。

多智能体及其评估

如今，AI系统正朝着多智能体架构方向发生变革。

在这种架构中，多个具有专业能力的智能体相互协作，共同完成复杂的目标。

多智能体系统就好比是一个由专家组成的团队，各自在擅长的领域发挥专长。

每个智能体都是一个独立的个体，它们可能使用不同的LLM，承担独特的角色，并且有着不同的任务背景。

这些智能体通过相互沟通、协作，来实现共同的目标。

这和传统的单智能体系统有很大区别，在单智能体系统中，所有任务都由一个LLM来处理。

理解多智能体架构

多智能体架构会把一个复杂问题拆解成不同的任务，交给专门的智能体去处理。

每个智能体都有明确的角色，它们之间动态互动，以此优化决策过程、提升知识检索效率、确保任务顺利执行。

这种架构实现了更有条理的推理方式、去中心化的问题解决模式，以及可扩展的任务自动化处理。

多智能体系统运用了模块化、协作和分层的设计原则，构建出一个强大的AI生态系统。

智能体可以根据功能分为不同类型，例如：

规划智能体：负责将高层次的目标拆解成一个个结构化的子任务，为后续工作制定详细计划。
检索智能体：通过动态地从外部获取相关数据，优化知识获取过程，为其他智能体提供信息支持。
执行智能体：承担具体的计算工作，生成响应内容，或者与 API 进行交互，实现各种实际操作。
评估智能体：对其他智能体生成的响应进行监控和验证，确保符合任务目标，并且逻辑连贯、准确无误。

通过这些组件的协同工作，多智能体架构不再局限于简单的基于提示的交互方式，实现了自适应、可解释且高效的AI驱动工作流程。

多智能体评估

多智能体系统评估是在单智能体系统评估的基础上发展而来的。

智能体的成功指标在本质上并没有改变，业务指标依然是核心关注点，其中包括目标和关键任务的完成情况，以及应用程序遥测指标，如延迟和错误率等。

通过对多智能体系统运行过程的跟踪记录，有助于在复杂的交互过程中发现问题、调试系统。

评估行动轨迹和评估最终响应这两种方法，同样适用于多智能体系统。

在多智能体系统中，一个完整的行动轨迹可能涉及多个甚至所有智能体的参与。

即便多个智能体共同协作完成一个任务，最终呈现给用户的是一个单一的答案，这个答案可以单独进行评估。

由于多智能体系统的任务流程通常更为复杂，步骤更多，所以可以深入到每个步骤进行细致评估。行动轨迹评估是一种可行的、可扩展的评估方法。

智能体增强检索生成

在智能体增强检索生成（Agentic RAG）中，智能体会通过多次搜索来获取所需信息。

在医疗保健领域，智能体增强检索生成可以帮助医生浏览复杂的医学数据库、研究论文和患者记录，为他们提供全面、准确的信息。

Vertex AI Search是一个完全托管的、具有谷歌品质的搜索与检索增强生成（RAG）服务提供商。涵盖数据收集、处理、嵌入、索引 / 排序、生成、验证和服务等流程。

Vertex AI Search拥有布局解析器、向量排序API等组件，还提供RAG引擎，通过Python SDK进行编排，支持众多其他组件。

对于希望构建自己搜索引擎的开发者，上述每个组件都作为独立的API开放，RAG引擎能借助类似LlamaIndex的Python接口轻松编排整个流程。

企业中的智能体

企业开发并使用智能体，协助员工执行特定任务，或在后台自动化运行。

商业分析师借助AI生成的见解，能轻松挖掘行业趋势，制作极具说服力的数据驱动型演示文稿；人力资源团队可利用智能体优化员工入职流程。

软件工程师依靠智能体，能主动发现并修复漏洞，更高效地进行开发迭代，加快部署进程。

营销人员利用智能体，能深入分析营销效果，优化内容推荐，灵活调整营销活动以提升业绩。

目前，有两类智能体崭露头角：

助手型智能体：这类智能体与用户进行交互，接收任务并执行，然后将结果反馈给用户。

助手型智能体既可以是通用的，也可以专门针对特定领域或任务。

例如，帮助安排会议、分析数据、编写代码、撰写营销文稿、协助销售人员把握销售机会的智能体，甚至还有根据用户要求对特定主题进行深入研究的智能体。

它们响应方式不同，有些能快速同步返回信息或完成任务，有些则需要较长时间运行（比如深度研究型智能体）。

自动化智能体：这类智能体在后台运行，监听事件，监测系统或数据的变化，然后做出合理决策并采取行动。

这些行动包括操作后端系统、进行测试验证、解决问题、通知相关员工等。

如今，知识工作者不再只是简单地调用智能体执行任务并等待结果，他们正逐渐转型为智能体的管理者。

为了便于管理，未来会出现新型用户界面，实现对多智能体系统的编排、监控和管理，这些智能体既能执行任务，还能调用甚至创建其他智能体。

NotebookLM企业版

NotebookLM是一款研究和学习工具，旨在简化复杂信息的理解与整合流程。

用户可以上传各种源材料，如文档、笔记和其他相关文件，NotebookLM借助AI技术，助力用户更深入地理解这些内容。

想象一下，在研究复杂主题时，NotebookLM能把零散的资料整合到一个有序的工作空间。

本质上，NotebookLM就像一个专属研究助手，加速研究进程，帮助用户从单纯的信息收集迈向深度理解。

NotebookLM企业版将这些功能引入企业环境，简化员工的数据交互方式，帮他们从中获取有价值的见解。

例如，AI生成的音频摘要功能，用户可以通过「听」研究内容来提升理解效率，促进知识吸收。

NotebookLM企业版融入了企业级的安全和隐私功能，严格保护敏感的公司数据，符合相关政策要求。

Agentspace空间企业版

Google Agentspace提供了一套由AI驱动的工具，旨在通过方便员工获取信息，自动化复杂的智能体工作流程，提升企业生产力。

Agentspace有效解决了传统知识管理系统的固有缺陷，通过整合分散的内容源，生成有依据且个性化的回复、简化业务流程，帮助员工高效获取信息。

Agentspace企业版的架构基于多个核心原则构建。

安全性始终是Google Agentspace的首要关注点。

员工可以通过它获取复杂问题的答案，还能统一访问各类信息源，无论是文档、邮件等非结构化数据，还是表格等结构化数据。

企业可根据自身需求配置一系列智能体，用于深度研究、创意生成与优化、数据分析等工作。

智能体空间企业版还支持创建定制化的AI智能体，满足特定业务需求。

该平台能够开发和部署具有上下文感知能力的智能体，帮助营销、财务、法律、工程等各部门员工高效开展研究、快速生成内容，并实现重复性任务（包括多步骤工作流程）的自动化。

定制智能体可连接内外部系统和数据，贴合公司业务领域和政策要求，甚至能基于专有业务数据训练模型。

多智能体架构实际应用

为了说明多智能体概念在实际中的应用，来看一个专为汽车设计的综合多智能体系统。

在这个系统中，多个专用智能体协同工作，为用户带来便捷、流畅的车内体验。

对话式导航智能体：专门用于帮助用户查找位置、推荐地点，并借助Google Places和Maps等API进行导航。
对话式媒体搜索智能体：专注于帮用户查找和播放音乐、有声读物和播客。
消息撰写智能体：帮助用户在驾驶时起草、总结和发送消息或电子邮件。
汽车手册智能体：借助检索增强生成（RAG）系统，专门解答与汽车相关的问题。
通用知识智能体：解答关于世界、历史、科学、文化及其他通用主题的事实性问题。

多智能体系统将复杂任务拆解为多个专业子任务。

在这种架构下，每个智能体专注于特定领域。这种专业化使整个系统更加高效。

导航智能体专注于定位和路线规划；媒体搜索智能体精通音乐和播客资源查找；汽车手册智能体擅长解决车辆相关问题。

系统会根据任务难度分配资源，简单任务用低配置资源，复杂任务再调用高性能资源。

关键功能（如调节温度、开窗等）由设备端智能体快速响应，而像餐厅推荐这类非紧急任务则交给云端智能体。

这种设计还具备天然的容错能力。网络连接中断时，设备端智能体仍能保证基本功能正常运行，比如温度控制和基本媒体播放不受影响，只是暂时无法获取餐厅推荐。

（文：新智元）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

新智元报道

发表评论 取消回复

发表评论取消回复