御三家打起来了：OpenAI 开源、谷歌发布可交互的世界模型、Claude 4.1 成了编程新旗舰

同一天，硅谷模型三巨头连续发布了新的模型（到底也不知道谁截胡谁了）。

OpenAI 终于发布了新的开源模型，gpt-oss-120b 和 gpt-oss-20b，上次开源 GPT-2 已经是 6 年前的事情了。从目前的评测成绩来看，两款模型能力接近 o4-mini，虽然编程能力略弱，但这个 SOTA 级别的能力表现，很期待接下来的开源生态的发展。

DeepMind 也发了个大招，一个看起来基本进入可用阶段的世界模型 Genie 3，一句话直接生成可交互的 3D 世界、角色和道具，目前尚未对外开放，但演示片很震撼。

Claude 发布了旗舰模型 Opus 的小版本升级——Claude Opus 4.1，编程能力依旧没得说，这次强化了 Agent 能力。

接下来，该期待 DeepSeek R2 了。

文章内容编译自「机器之心」、部分官博文章。

超 10000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01 OpenAI 开源两个推理模型，

o4-mini 水平

这是近几年来（自 GPT-2 以来），OpenAI 重新开源模型。

两款模型均采用 Transformer 架构，并利用专家混合（MoE）来减少处理输入所需的活跃参数数量。其中，gpt-oss-120b 每个 token 激活 5.1B 参数，而 gpt-oss-20b 则激活 3.6B 参数。两款模型的总参数分别为 117B 和 21B。

此外，两款模型采用交替密集和局部带状稀疏注意力模式，类似于 GPT-3。为了提高推理和内存效率，模型还使用了分组多查询注意力，组大小为 8。同时利用旋转位置编码（RoPE）进行位置编码，并原生支持最长 128k 的上下文长度。

两款开源模型与 o3、o4-mini 的跑分结果比较如下：

作为两个 SOTA 级别的开源语言模型，gpt-oss-120b 和 gpt-oss-20b 可以提供强大的实际应用性能，并具有低成本优势。

两款模型在推理任务上超越了同等规模的开源模型，展示了强大的工具使用能力，并且经过优化，能够高效部署在消费级硬件上。训练过程中结合了强化学习以及受 OpenAI 内部最先进模型启发的技术，包括 o3 和其他前沿模型。

其中，gpt-oss-120b 模型在核心推理基准测试上与 o4-mini 几乎持平，同时能够在单个 80GB GPU 上高效运行。gpt-oss-20b 模型在常见基准测试中表现与 o3-mini 相似，且仅需 16GB 内存即可运行，适用于边缘设备，非常适合本地推理、设备端使用或在没有高昂基础设施的情况下快速迭代。

两款模型在工具使用、few-shot 函数调用、CoT 推理以及 HealthBench 测试中表现非常出色，甚至超越了 o1 和 GPT-4o 等专有模型。

总结一波，这两个开源模型的亮点包括：

宽松的 Apache 2.0 许可证：自由构建，不受版权限制或专利风险 – 非常适合实验、定制和商业部署。
可调整的推理力度：根据具体用例和延迟需求轻松调整推理力度（低、中、高）。
完整的思维链（CoT）：完全可访问模型的推理过程，从而更轻松地进行调试并增强对输出的信任。不计划向终端用户展示。
可微调：通过参数微调，完全可根据特定用例定制模型。
Agentic 功能：使用模型的功能进行函数调用、网页浏览、Python 代码执行和结构化输出。
原生 MXFP4 量化：模型使用原生 MXFP4 精度针对 MoE 层进行训练，使得 gpt-oss-120b 可在单个 H100 GPU 上运行，gpt-oss-20b 模型可在 16GB 内存内运行。

除了本地部署外，目前可以在 OpenRouter、Amazon Bedrock、Amazon SageMaker AI 等平台在线体验。

GitHub 地址：https://github.com/openai/gpt-oss

hugging face 地址：https://huggingface.co/openai/gpt-oss-20b

hugging face 地址：https://huggingface.co/openai/gpt-oss-120b

博客地址：https://openai.com/index/introducing-gpt-oss/

02 谷歌推出世界模型 Genie 3：

玩家实时交互，支持提示词生成

谷歌 DeepMind 宣布其 Genie 世界模型系列最新版本 Genie 3。据介绍，在 Genie 3 生成的动态世界中，玩家可以每秒 24 帧的速度实时导航，在 720p 分辨率下保持几分钟的一致性。

相比 Genie 2，最新一代 Genie 实现了分辨率的显著提升，达到了实际可用的程度，同时支持使用提示词生成世界事件。

怎么说，一句话生成一个可游玩体验的游戏，可能就成真了！

Genie 3 的进化最大的亮点在于实时响应的用户交互，以及能够长达数分钟的场景（三维）一致性。Genie 3 所生成的环境在数分钟内仍能保持高度一致性，其视觉记忆能力最远可回溯至一分钟前的画面状态。

具体功能包括：

模拟世界的物理属性：展现自然现象如水与闪电，以及复杂的环境交互。
模拟自然世界：生成充满活力的生态系统，从动物行为到复杂的植物生命。
建模动画和小说：激发想象力，创造奇幻场景和富有表现力的动画角色。
建模不同地点和历史背景：超越地理和时间的界限，探索各地和历史场景。

博客地址：https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

03 Anthropic 发布 Claude Opus 4.1：

主打智能体任务、真实世界编程能力

Anthropic 发布了其最新编程模型 Claude Opus 4.1，基于此前发布的 Claude Opus 4 构建，在智能体任务、真实世界编程和推理能力上有了大幅提升，具备 200K 上下文窗口。

性能方面，Opus 4.1 在 SWE-bench Verified 基准上达到 74.5%，创造了该项评测的新纪录。此外，该模型还在深度研究和数据分析等方面有所提升，尤其是在细节追踪和智能体搜索方面。

据第三方 GitHub 评估，Claude Opus 4.1 在大多数能力上相较于 Opus 4 都有所提升，尤其在多文件代码重构方面表现出显著进步。

目前，Claude Opus 4.1 已集成至 Claude Code 中，面向 Claude Pro、Max、Team 和 Enterprise（企业）用户开放使用。

开发者可通过以下平台使用 Claude Opus 4.1：

Anthropic API
Amazon Bedrock
Google Cloud 的 Vertex AI

在 API 价格方面，Claude Opus 4.1 的定价为：

每百万输入 token 15 美元
每百万输出 token 75 美元

博客地址：https://www.anthropic.com/news/claude-opus-4-1

System Card: https://assets.anthropic.com/m/4c024b86c698d3d4/original/Claude-4-1-System-Card.pdf

（文：Founder Park）

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

01

OpenAI 开源两个推理模型，

o4-mini 水平

02

谷歌推出世界模型 Genie 3：

玩家实时交互，支持提示词生成

03

Anthropic 发布 Claude Opus 4.1：

主打智能体任务、真实世界编程能力

发表评论 取消回复

发表评论取消回复