刚刚，OpenAI正式发布o3-pro！奥特曼激动更新博客：温和的奇点

机器之心报道

编辑：Panda

今天凌晨一点，OpenAI 宣布：OpenAI o3-pro today.

前沿模型的轮流更新这一次轮到 OpenAI 了。

https://x.com/piet_dev/status/1932530536225935374

从即日起，所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。Team 用户也可在模型选择器选择使用它。而企业用户和教育用户还需等待下一周。

有趣的是，这一次发布 o3-pro，OpenAI 并未采用以往大家熟悉的发布形式（视频直播 + 博客文章），而只是简单地发布了几条介绍推文。

尽管如此，OpenAI CEO Sam Altman 还是表示： o3-pro「真是太聪明了！我第一次看到它相对于 o3 的胜率时，简直不敢相信。」他甚至还久违地发了一篇题为「温和的奇点（The Gentle Singularity）」的博客文章 —— 将在后文呈现。

下面我们先来看看 o3-pro 的基准测试表现，然后分享一下 Pro 用户们早期测试得到的案例。

o3-pro 的基准成绩

首先来看专家评估结果，下图展示了在多项任务上，o3-pro 相较于 o3 的胜率情况。

可以看到 o3-pro 有明显优势。OpenAI 表示，在专家评估中，评论者更喜欢 OpenAI o3-pro 而不是 o3 并具有一致性，这一结果凸显了其在科学、教育、编程、数据分析和写作等关键领域的性能提升。另外，评论者还对 o3-pro 的清晰度、全面性、指令遵从性和准确性给予了更高的评价。

与 OpenAI o1-pro 一样，OpenAI o3-pro 尤其擅长数学、科学和编程，以下的学术评估结果也证明了这一点。

另外，为了评估 OpenAI o3-pro 的关键优势，OpenAI 再次使用了严格的「4/4 可靠性」评估，即只有在四次尝试中（而不仅仅是一次）正确回答问题，模型才被视为成功，结果如下：

可以看到，o3-pro 的表现依然相当出色。

而 ARC Prize 也已经公布了该模型在 ARC-AGI 半私有评估数据集上的结果。意外的是，在这个基准上，o3-pro 的表现看起来与 o3 差不多，但成本明显更高。

当然，o3-pro 也可以使用 ChatGPT 已经集成的各种工具，包括搜索网页、分析文件、推理视觉输入、使用 Python、使用记忆个性化响应等等。

目前 OpenAI 尚未公布这款强大推理模型的系统卡，但由于 o3-pro 使用了与 o3 相同的底层模型，因此安全信息等数据也可以在 o3 系统卡中找到。

另外，根据模型文档，o3-pro 支持文本和图像两种输入模态，上下文窗口大小为 200k，最大输出 token 数为 100k，知识的截至时间为 2024 年 6 月 1 日，所以它本身并不具备近一年内的信息，但用户可以通过搜索和知识库等工具为其提供更多上下文。

至于定价，ChatGPT 用户自然需要先购买 200 美元的 Pro 订阅套餐。

而 API 定价为每百万输入 token 20 美元 / 每百万输出 token 80 美元，虽然比 o1-pro 便宜 87%，但依然还是相当贵的。OpenAI 同时也建议使用 o3-pro 的后台模式：长时间运行的任务将异步启动，从而防止超时。

同时，由于已经上线了 o3-pro，o3 的价格自然也就下降了：API 定价为每百万输入 token 2 美元 / 每百万输出 token 8 美元，也就是 o3-pro API 定价的十分之一。

网友实测

和所有前沿模型更新时一样，o3-pro 一上线就有不少网友对其进行了测试。首先来看个司空见惯的六角弹跳球实验。

https://x.com/flavioAd/status/1932530860063961288

测试者 Flavio Adamo 表示：「我已经秘密测试 o3-pro 一段时间了…… 比 o1-pro 便宜得多、更快、更精确（而且使用 o3 和 o3-pro 进行编程简直感觉是天壤之别）。」

生物医学科学家 Derya Unutmaz 则分享了一个更有趣的案例：与 o3-pro 合作开发免疫系统 2.0。

用户 @Suzacque 则分享了 o3-pro 在海报设计和分析中的卓越表现。

用户 @adonis_singh 表示 o3-pro 可以 100% 地解决外科医生误导性注意力难题，并且从不怀疑自己。他感慨到：「这是真正巨大的进步。」他还表示该模型懂得何时需要思考 ——「在不需要思考的时候也会少思考很多，根据我的经验，它比我接触过的任何其他模型都更不阿谀奉承。（没有任何自定义指令 / 系统提示）对于第一点，对于提示『Hi there』，o1 pro 思考了 28 秒，而 o3 pro 的回复时间不到 7 秒。」

该用户还让 o3-pro 使用纯 HTML、CSS 和 JS 在单个文件中制作的一个「非常酷的」极限空间行走模拟器。这个过程使用了 2 个提示词，得到了如下演示的结果。

当然，也有一些用户直言失望。

https://x.com/quietlogic22/status/1932533482355347669

https://x.com/JaydenDavisNC/status/1932532525634605364

你已经体验过 o3-pro 了吗？不妨与我们分享一下你的看法。

最后，我们来看看 OpenAI 山姆・奥特曼这篇充满乐观未来主义的博客吧。

温和的奇点（The Gentle Singularity）

作者：Sam Altman

（文：机器之心）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

发表评论取消回复