2025 年中丨大模型市场分析报告

本文由特工自制 Agent 翻译,宇宙编辑部精校而成。

原文:https://menlovc.com/perspective/2025-mid-year-llm-market-update/
基础大模型不仅仅是生成式 AI 的核心引擎,它们正在塑造计算的未来。随着其能力和成本控制的不断演进,建立在其之上的系统、应用乃至整个产业格局,也将随之变革。

去年 11 月,Menlo Ventures 发布了《2024 企业生成式 AI 现状报告》。彼时,关于这一基础层仍有诸多关键问题悬而未决:

  • 大语言模型的 API 需求是否能与消费级应用的增长节奏保持一致?

  • 模型将变得多智能?进化速度又将如何?

  • 开源模型是否会在性能上赶超闭源的前沿模型?如果会,这将如何影响企业的采用路径?

  • 最关键的是,长期价值究竟会沉淀在哪里?

六个月过去,从数据维度来看,这些问题目前已经较为清晰:

在这段时期内,模型 API 支出增长了一倍多,从 35 亿美元跃升至 84 亿美元。企业的重心已从模型的训练微调转向模型推理,这标志着一个重要的阶段性转折。

“代码生成”成为第一个大规模爆发的 AI 应用场景。在预训练之外,基础模型正在沿着另一条轴线升级能力——结合验证器的强化学习(RLHF with verifiers)。

与此同时,尽管开源模型持续取得进展,但西方实验室在前沿模型突破上的放缓,也在一定程度上抑制了企业侧的开源采用趋势。过去大家看到模型天天突破,企业纷纷入场;现在模型进展没那么猛了,企业开始“更理性消费”,不再四处尝试,而是抱紧那些成熟好用的闭源大模型。结果是,企业的投入正集中流向少数几个高性能的闭源模型,而 Anthropic 也因此跃升为新的市场领跑者。

为了全面捕捉当前 LLM 市场的状态,我们调研了 150 多位来自初创公司和大型企业的技术负责人,聚焦于当下 AI 技术栈的基础层:谁在赢得市场份额?哪些模型已投入生产?又是哪些选择标准正在影响整个技术栈的构建?

以下是我们观察到的关键信息:

Anthropic 在企业使用率上超越 OpenAI

到 2023 年底,OpenAI 曾占据企业级大模型市场 50% 的份额,是当之无愧的第一。但这一领先优势如今已经明显缩水。现在,OpenAI 的企业使用率只剩 25%,是两年前的一半。

最新的市场头号玩家是 Anthropic,它在企业 AI 市场的占比达 32%,超过了 OpenAI 和最近增长迅猛的 Google(20%)。Meta 的开源模型 Llama 占 9%,而尽管 DeepSeek 在年初高调发布,目前的企业使用占比却只有 1%

Anthropic 登上大模型排行榜榜首的势头,真正开始于 2024 年 6 月 Claude Sonnet 3.5 的发布。到了 2025 年 2 月,Claude Sonnet 3.7 的推出进一步加速了这股势头,它首次真正展示了“以 Agent 为核心”的大模型雏形。而在 2025 年 5 月,Claude Sonnet 4、Opus 4 与 Claude Code 的相继发布,则彻底巩固了 Anthropic 的领先地位
推动 Anthropic 崛起的三大行业趋势:
1. 代码生成成为 AI 的第一个杀手级应用。
Claude 很快就成为开发者进行代码生成时的首选,占据了 42% 的市场份额,是 OpenAI(21%)的两倍还多。仅仅一年时间,Claude 就将原本由 GitHub Copilot 主导的单一产品市场,拓展成了一个 价值 19 亿美元的生态系统。2024 年 6 月发布的 Claude Sonnet 3.5 展示了模型层的突破如何直接推动应用层的演化,催生出一系列全新形态的产品:如 AI IDE(Cursor、Windsurf)、应用构建工具(Lovable、Bolt、Replit),以及企业级代码智能体(Claude Code、All Hands)等。

2. 带验证器的强化学习成为智能扩展的新路径。

过去扩展大模型智能的主路径,是不断加大模型规模、喂入更多数据进行预训练。但到了 2024 年,互联网数据的增长已接近瓶颈,单靠“加量”难以持续提升。带可验证奖励的强化学习(RLVR) 成为新的突破口,尤其适用于代码这类结果明确、易于检验的任务领域。这一策略也正逐步成为模型后训练阶段的关键路径,用于提升可靠性与实际能力。

3. 训练模型成为“Agent”,让它们真正有用起来。

最初的大语言模型被设计为“一问一答”的形式,目标是在单轮对话中完成任务。而现在,更强的能力来自于赋予模型“多轮思考”的能力:一步步推理、持续交互、灵活调用工具——也就是所谓的 Agent。2025 年被称为“Agent 之年”,正是因为这一范式的爆发。Anthropic 是其中的领先者,它率先训练模型进行多轮自我优化,并通过 MCP 协议接入包括搜索、计算器、编程环境等外部工具,大幅提升了模型的执行力与用户粘性。

企业侧的开源模型采用趋于平缓
当前约有 13% 的 AI 任务运行在开源模型上,较六个月前的 19% 略有下降。市场领先者依然是 Meta 的 Llama 系列,但 2024 年 4 月发布的 Llama 4 在真实场景中的表现未达预期,略显平庸。
过去半年内,开源领域仍相当活跃,涌现出多个值得关注的模型发布,包括:DeepSeek(V3、R1)、字节跳动的 Seed(豆包)、MiniMax(Text 1)、阿里巴巴(Qwen 3)、Moonshot AI(Kimi K2)以及智谱 AI(GLM 4.5)。这些模型目前都可以通过 OpenRouter 的统一 API 进行试用。
开源模型对企业的吸引力依旧显著:可高度定制、更具成本优势,并支持私有云或本地化部署。然而,尽管模型能力在持续进步,开源模型在整体性能上仍落后于前沿闭源模型 9~12 个月。
这一性能差距,加上开源模型部署上的技术复杂度,以及一些企业对来自中国公司的 API 持保留态度(而这些公司恰恰贡献了近阶段表现最亮眼的开源模型),共同导致了开源模型市场份额的停滞。
不仅仅是企业。出于这些原因,采用开源模式的初创企业也越来越少。正如一位受访者所说

目前,我们 100% 的生产工作负载都在闭源模型上运行。我们最初使用 Llama 和 DeepSeek 进行 POC(概念验证),但随着时间的推移,它们的性能已经无法与闭源模型相媲美。

企业更换模型的动因是性能,而非价格
模型供应商切换本身相对容易,但如今已不常见。大多数团队会留在原平台上,仅在新模型发布时升级版本。一旦选定某个平台,企业倾向于稳定使用,并在第一时间追新换代。
根据调研数据:66% 的开发者选择在原有供应商体系内升级模型;23% 一整年都没有更换模型;只有 11% 实际切换了模型供应商。
真正驱动决策的是性能,不是价格。开发者们始终将“前沿性能”作为首选标准,而非更便宜或速度更快的替代品。他们愿意为性能买单。当新模型发布时,切换行为往往在数周内完成。例如,在 Claude 4 发布后仅一个月内,Claude 4 Sonnet 就拿下了 45% 的 Anthropic 用户,而 Sonnet 3.5 的使用占比则从 83% 降至 16%。
性能优先逻辑下的一个“反直觉现象”是:哪怕旧模型价格大幅下降(甚至降价十倍),开发者也不会为省钱而回头使用它们——他们只会集体奔赴性能最强的那个新模型。

AI 支出正从训练转向推理

计算支出正稳步从模型构建和训练,转向推理。这种转变在初创企业中最为明显:74% 的模型开发者表示,他们的大部分工作任务都来自推理,高于一年前的 48%,大型企业也紧随其后。近一半(49%)的企业表示,他们的大部分或几乎所有计算任务都由推理驱动,高于去年的 29%。


Anyway,预测 AI 的未来可能是徒劳的。市场每周都在变化,激动人心的新模型层出不穷,基础模型功能不断提升,成本也不断下降。
然而,显而易见的是,在当今的基础模块之上,新一代持久的 AI 业务的建立条件已经成熟。

(文:特工宇宙)

发表评论