深度｜2024 总结：AI Agent 元年，LLM 操作系统前夜

01 2024 年，模型能力小年，AI Agents 智能体的大年

2024 年即将结束，今年行业对 AI 的论调也基本尘埃落定.相比 2023 年的多个重磅发布，2024 年是模型能力的小年，但 AI Agent 却是实在的大年。OpenAI、AI 大模型独角兽 Anthropic、微软等科技公司纷纷转向开发 AI Agent，试图打破目前 LLM 的技术平台期。

Anthropic 发布 Computer Use

图片来源：Anthropic

2024 年 10 月，Anthropic 已经推出了名为“Computer Use”的 AI Agent。Anthropic 开发了一个特殊的 API，允许开发者指导 Claude 完成各种计算机操作任务。这些任务包括查看屏幕内容、移动光标、点击按钮以及打字等。开发者可以通过这个 API 将书面指令转换为具体的计算机指令，从而实现自动化任务。

OpenAI 重新定义 AGI 路线，Agents 和工具调用是后续重点

在 7 月 12 日，OpenAI 举行了一个全体员工会议，设计了一个从 1 到 5 的”AI 成长等级，更新定义了 AGI 的路线图。OpenAI 认为自己目前处于第 1 级，但接近达到第 2 级。从第3阶段起的 Agents、Innovators、Organizations，是具备高推理能力的模型基础上，依靠外部工程手段实现的智能体框架，已经脱离大模型能力范畴。

图片来源：OpenAI

据彭博社报道，OpenAI 即将推出一款代号为”Operator”的软件，可以直接对个人电脑进行操作。这款工具能够自动执行包括编写代码、预订旅行、自动电商购物等复杂任务，并计划作为研究预览版向开发者开放 API 接口。”Opertaor “预计将在 2025 年 1 月发布。

微软也在加快 AI Agent 的脚步

今年 10 月，在伦敦举行的”AI Tour”活动上，微软对外公布了一项重要计划：面向 Dynamics 365 业务应用平台，开发部署 10 款专业 AI 助手。这批智能代理将主要服务于企业的销售环节、会计业务以及客户服务等关键领域。按照发布时间表，这些 AI 助手将在年底开放公测，测试阶段预计延续到 2025 年初期。

图片来源：微软

国内大模型公司紧随其后

同时期，国内大模型公司智谱发布 AI Agent 项目 AutoGLM 。AutoGLM 的任务执行需要通过无障碍服务权限获取用户当前屏幕上的信息，基于此进行理解分析并且做出任务规划，实现手机上常用操作的模拟执行。只需接收简单的文字/语音指令，它就可以模拟人类操作手机，在微信朋友圈评论点赞，在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖等等。11月的升级发布，将支持自主执行超过54步的长步骤操作，也可以跨 App 执行任务。还发布基于 PC 的自主 Agent GLM-PC ，可以自主完成会议替身、文档处理、网页搜索与总结、远程和定时操作等功能。

图片来源：智谱

02 Agent 趋势：强自主性、视觉、任务操作，开始向 OS 迈步

Agent 发展趋势：

1. 强自主性：

AI Agent 与传统软件自动化系统存在本质性差异。传统自动化系统通常要求用户通过规范化的方式——无论是基于 UI 的拖拽操作还是编程方式——来定义具体的操作逻辑，以此取代手动编码。这种方式需要经历完整的实施周期：从前期的业务流程分析，到中期的部署实施，再到后期因界面或句柄变更而进行的重新部署。

相比之下，AI Agent 展现出更高层次的智能自主性：它只需要一个明确的目标指令，就能够自主完成任务的分解与执行。在纯软件环境中，AI Agent 的能力范围已相当广泛，从网页浏览、办公软件操作，到购买决策分析，甚至能够执行支付操作等复杂任务，体现出显著的适应性和灵活性。这种范式的转变标志着自动化技术正在向更智能、更自主的方向演进。

2. 复杂工具调用：

Agent 需要有丰富的工具调用能力，从基础的代码函数、应用程序，到复杂的 AI 模型，乃至硬件设备的运动控制算法。在实际运行中，大语言模型（LLM）通过文本形式对这些工具进行智能选择，并根据具体场景确定所需的调用参数。当底层完成相关工具的执行逻辑封装后，LLM 便能够自主地进行工具调用和任务执行，实现了一种高度灵活且可扩展的自动化范式。这种架构设计不仅提升了系统的适应性，也为 AI Agent 的能力边界提供了持续扩展的可能。

3. 视觉能力：

视觉能力意味着，AI 解除了获取用户界面和物理世界信息的限制，模型将可以与人类使用相同类型 UI，而不是通过 API 进行读取。视觉能力也将帮助 AI 获得更多的上下文信息，从而深入用户场景。

视觉的信息丰富度远远超过文字。因此，视觉能力也将决定未来大模型实际落地的价值有多大。我们完成任务不仅需要解决“它是什么”，还需要解决“它在哪里”。智谱发布的 GLM-PC 正是将其通用的视觉-操作模型 CogAgent 应用到了计算机上，CogAgent 模拟人类的视觉感知来从环境中获取信息输入，以进行进一步的推理和决策。

LLM 为中心的操作系统蓝图，正在逐渐清晰

已经离开 OpenAI Andrej Karpathy，曾在在 23 年发表了关于 LLM 操作系统（LLM OS）的愿景，他的想法是语言模型在某种程度上是一种新型计算机，一种新型操作系统。大语言模型置于计算系统的核心位置，类似于传统操作系统中 CPU 的角色。通过函数调用机制连接并控制外围设备（如视频、音频）、传统软件工具（如计算器、Python 解释器）、存储系统以及网络资源（浏览器、其他 LLM）

图片来源：Andrej Karpathy

从 Karpathy 的技术前瞻带来一些启发。计算范式转变从指令式到意图式：传统计算机需要精确的指令序列，而 LLM 可以理解模糊的人类意图并将其转换为具体操作。抽象层次的提升：就像 CPU 让程序员不必关心底层电路细节，LLM 让用户不必关心具体的程序实现细节。Agent 完成人机交互：Agent 替代人完成作步骤，普通用户也能完成复杂的计算任务

03 软硬结合的 LLM-OS 将成为 AI 落地的深水区

应用的繁荣来自于端侧操作系统的成熟

桌面端应用的繁荣受益于 Windows 和 Mac 等操作系统的成熟，移动端应用的繁荣受益于 Android 和 IOS 的繁荣。未来 AI 应用的繁荣，也将依赖于 AI 操作系统的繁荣。

前 Android 核心成员 Hugo Barra 认为开发者目前没有标准的工具和系统来构建 AI Agent ，并希望通过创建一个统一的平台来填补这一空白，使其成为 AI 世界的操作系统。其创立的 /dev/agents 首轮估值5亿美金，正致力于基于云的操作系统将跨设备工作，并利用生成性人工智能提供个性化用户界面。

大模型操作系统 LLM-OS 前夜已到

大模型公司与手机厂、PC 厂、芯片厂正在进行深度合作，软硬件的结合 LLM-OS 也将成为 AI 落地的深水区。Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革，还能将其推广到各类智能设备上，实现基于大模型的互联互通。这种全面的操控和协调能力，正是未来 LLM 驱动的操作系统的核心特征。

智谱新的产品发布涵盖了从 Phone Use、Computer Use、Car Use 到 All Device Use，全是基于 GLM 大模型链接智能与终端硬件。AutoGLM 只是智谱在端侧的初步落地，未来还将拓展更多场景和应用落地。智谱的客户及合作伙伴荣耀、华硕、小鹏、高通、英特尔等硬件厂商都看到了 AI Agent 的巨大前景，分别从不同的场景出发，展望智能终端的实践。

可以说大模型通用操作系统 LLM-OS 的前夜已经到来。

参考资料：

TechCrunch, https://techcrunch.com/2024/11/28/ai-agent-startup-dev-agents-has-raised-a-massive-56m-seed-round-at-a-500m-valuation/

——-

（文：Z Potentials）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31