2024 年即将结束,今年行业对 AI 的论调也基本尘埃落定.相比 2023 年的多个重磅发布,2024 年是模型能力的小年,但 AI Agent 却是实在的大年。OpenAI、AI 大模型独角兽 Anthropic、微软等科技公司纷纷转向开发 AI Agent,试图打破目前 LLM 的技术平台期。
Anthropic 发布 Computer Use

OpenAI 重新定义 AGI 路线,Agents 和工具调用是后续重点
图片来源:OpenAI微软也在加快 AI Agent 的脚步
图片来源:微软国内大模型公司紧随其后

图片来源:智谱
02 Agent 趋势:强自主性、视觉、任务操作,开始向 OS 迈步
Agent 发展趋势:
1. 强自主性:
AI Agent 与传统软件自动化系统存在本质性差异。传统自动化系统通常要求用户通过规范化的方式——无论是基于 UI 的拖拽操作还是编程方式——来定义具体的操作逻辑,以此取代手动编码。这种方式需要经历完整的实施周期:从前期的业务流程分析,到中期的部署实施,再到后期因界面或句柄变更而进行的重新部署。
相比之下,AI Agent 展现出更高层次的智能自主性:它只需要一个明确的目标指令,就能够自主完成任务的分解与执行。在纯软件环境中,AI Agent 的能力范围已相当广泛,从网页浏览、办公软件操作,到购买决策分析,甚至能够执行支付操作等复杂任务,体现出显著的适应性和灵活性。这种范式的转变标志着自动化技术正在向更智能、更自主的方向演进。
2. 复杂工具调用:
Agent 需要有丰富的工具调用能力,从基础的代码函数、应用程序,到复杂的 AI 模型,乃至硬件设备的运动控制算法。在实际运行中,大语言模型(LLM)通过文本形式对这些工具进行智能选择,并根据具体场景确定所需的调用参数。当底层完成相关工具的执行逻辑封装后,LLM 便能够自主地进行工具调用和任务执行,实现了一种高度灵活且可扩展的自动化范式。这种架构设计不仅提升了系统的适应性,也为 AI Agent 的能力边界提供了持续扩展的可能。
3. 视觉能力:
视觉能力意味着,AI 解除了获取用户界面和物理世界信息的限制,模型将可以与人类使用相同类型 UI,而不是通过 API 进行读取。视觉能力也将帮助 AI 获得更多的上下文信息,从而深入用户场景。
视觉的信息丰富度远远超过文字。因此,视觉能力也将决定未来大模型实际落地的价值有多大。我们完成任务不仅需要解决“它是什么”,还需要解决“它在哪里”。智谱发布的 GLM-PC 正是将其通用的视觉-操作模型 CogAgent 应用到了计算机上,CogAgent 模拟人类的视觉感知来从环境中获取信息输入,以进行进一步的推理和决策。
LLM 为中心的操作系统蓝图,正在逐渐清晰
已经离开 OpenAI Andrej Karpathy,曾在在 23 年发表了关于 LLM 操作系统(LLM OS)的愿景,他的想法是语言模型在某种程度上是一种新型计算机,一种新型操作系统。大语言模型置于计算系统的核心位置,类似于传统操作系统中 CPU 的角色。通过函数调用机制连接并控制外围设备(如视频、音频)、传统软件工具(如计算器、Python 解释器)、存储系统以及网络资源(浏览器、其他 LLM)

图片来源:Andrej Karpathy
从 Karpathy 的技术前瞻带来一些启发。计算范式转变从指令式到意图式:传统计算机需要精确的指令序列,而 LLM 可以理解模糊的人类意图并将其转换为具体操作。抽象层次的提升:就像 CPU 让程序员不必关心底层电路细节,LLM 让用户不必关心具体的程序实现细节。Agent 完成人机交互:Agent 替代人完成作步骤,普通用户也能完成复杂的计算任务
03 软硬结合的 LLM-OS 将成为 AI 落地的深水区
应用的繁荣来自于端侧操作系统的成熟
桌面端应用的繁荣受益于 Windows 和 Mac 等操作系统的成熟,移动端应用的繁荣受益于 Android 和 IOS 的繁荣。未来 AI 应用的繁荣,也将依赖于 AI 操作系统的繁荣。
前 Android 核心成员 Hugo Barra 认为开发者目前没有标准的工具和系统来构建 AI Agent ,并希望通过创建一个统一的平台来填补这一空白,使其成为 AI 世界的操作系统。其创立的 /dev/agents 首轮估值5亿美金,正致力于基于云的操作系统将跨设备工作,并利用生成性人工智能提供个性化用户界面。
大模型操作系统 LLM-OS 前夜已到
大模型公司与手机厂、PC 厂、芯片厂正在进行深度合作,软硬件的结合 LLM-OS 也将成为 AI 落地的深水区。Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。这种全面的操控和协调能力,正是未来 LLM 驱动的操作系统的核心特征。
智谱新的产品发布涵盖了从 Phone Use、Computer Use、Car Use 到 All Device Use, 全是基于 GLM 大模型链接智能与终端硬件。AutoGLM 只是智谱在端侧的初步落地,未来还将拓展更多场景和应用落地。智谱的客户及合作伙伴荣耀、华硕、小鹏、高通、英特尔等硬件厂商都看到了 AI Agent 的巨大前景,分别从不同的场景出发,展望智能终端的实践。
可以说大模型通用操作系统 LLM-OS 的前夜已经到来。

参考资料:
TechCrunch, https://techcrunch.com/2024/11/28/ai-agent-startup-dev-agents-has-raised-a-massive-56m-seed-round-at-a-500m-valuation/
(文:Z Potentials)