编辑:Panda
今天凌晨一点,OpenAI 宣布:OpenAI o3-pro today.

前沿模型的轮流更新这一次轮到 OpenAI 了。

https://x.com/piet_dev/status/1932530536225935374
从即日起,所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。Team 用户也可在模型选择器选择使用它。而企业用户和教育用户还需等待下一周。

有趣的是,这一次发布 o3-pro,OpenAI 并未采用以往大家熟悉的发布形式(视频直播 + 博客文章),而只是简单地发布了几条介绍推文。
尽管如此,OpenAI CEO Sam Altman 还是表示: o3-pro「真是太聪明了!我第一次看到它相对于 o3 的胜率时,简直不敢相信。」他甚至还久违地发了一篇题为「温和的奇点(The Gentle Singularity)」的博客文章 —— 将在后文呈现。

下面我们先来看看 o3-pro 的基准测试表现,然后分享一下 Pro 用户们早期测试得到的案例。
o3-pro 的基准成绩
首先来看专家评估结果,下图展示了在多项任务上,o3-pro 相较于 o3 的胜率情况。

可以看到 o3-pro 有明显优势。OpenAI 表示,在专家评估中,评论者更喜欢 OpenAI o3-pro 而不是 o3 并具有一致性,这一结果凸显了其在科学、教育、编程、数据分析和写作等关键领域的性能提升。另外,评论者还对 o3-pro 的清晰度、全面性、指令遵从性和准确性给予了更高的评价。
与 OpenAI o1-pro 一样,OpenAI o3-pro 尤其擅长数学、科学和编程,以下的学术评估结果也证明了这一点。

另外,为了评估 OpenAI o3-pro 的关键优势,OpenAI 再次使用了严格的「4/4 可靠性」评估,即只有在四次尝试中(而不仅仅是一次)正确回答问题,模型才被视为成功,结果如下:

可以看到,o3-pro 的表现依然相当出色。
而 ARC Prize 也已经公布了该模型在 ARC-AGI 半私有评估数据集上的结果。意外的是,在这个基准上,o3-pro 的表现看起来与 o3 差不多,但成本明显更高。

当然,o3-pro 也可以使用 ChatGPT 已经集成的各种工具,包括搜索网页、分析文件、推理视觉输入、使用 Python、使用记忆个性化响应等等。
目前 OpenAI 尚未公布这款强大推理模型的系统卡,但由于 o3-pro 使用了与 o3 相同的底层模型,因此安全信息等数据也可以在 o3 系统卡中找到。
另外,根据模型文档,o3-pro 支持文本和图像两种输入模态,上下文窗口大小为 200k,最大输出 token 数为 100k,知识的截至时间为 2024 年 6 月 1 日,所以它本身并不具备近一年内的信息,但用户可以通过搜索和知识库等工具为其提供更多上下文。

至于定价,ChatGPT 用户自然需要先购买 200 美元的 Pro 订阅套餐。

而 API 定价为每百万输入 token 20 美元 / 每百万输出 token 80 美元,虽然比 o1-pro 便宜 87%,但依然还是相当贵的。OpenAI 同时也建议使用 o3-pro 的后台模式:长时间运行的任务将异步启动,从而防止超时。

同时,由于已经上线了 o3-pro,o3 的价格自然也就下降了:API 定价为每百万输入 token 2 美元 / 每百万输出 token 8 美元,也就是 o3-pro API 定价的十分之一。

网友实测
和所有前沿模型更新时一样,o3-pro 一上线就有不少网友对其进行了测试。首先来看个司空见惯的六角弹跳球实验。
https://x.com/flavioAd/status/1932530860063961288
测试者 Flavio Adamo 表示:「我已经秘密测试 o3-pro 一段时间了…… 比 o1-pro 便宜得多、更快、更精确(而且使用 o3 和 o3-pro 进行编程简直感觉是天壤之别)。」
生物医学科学家 Derya Unutmaz 则分享了一个更有趣的案例:与 o3-pro 合作开发免疫系统 2.0。



用户 @Suzacque 则分享了 o3-pro 在海报设计和分析中的卓越表现。

用户 @adonis_singh 表示 o3-pro 可以 100% 地解决外科医生误导性注意力难题,并且从不怀疑自己。他感慨到:「这是真正巨大的进步。」他还表示该模型懂得何时需要思考 ——「在不需要思考的时候也会少思考很多,根据我的经验,它比我接触过的任何其他模型都更不阿谀奉承。(没有任何自定义指令 / 系统提示) 对于第一点,对于提示『Hi there』,o1 pro 思考了 28 秒,而 o3 pro 的回复时间不到 7 秒。」

该用户还让 o3-pro 使用纯 HTML、CSS 和 JS 在单个文件中制作的一个「非常酷的」极限空间行走模拟器。这个过程使用了 2 个提示词,得到了如下演示的结果。
当然,也有一些用户直言失望。

https://x.com/quietlogic22/status/1932533482355347669

https://x.com/JaydenDavisNC/status/1932532525634605364
你已经体验过 o3-pro 了吗?不妨与我们分享一下你的看法。
最后,我们来看看 OpenAI 山姆・奥特曼这篇充满乐观未来主义的博客吧。
温和的奇点(The Gentle Singularity)
-
作者:Sam Altman
-
(文:机器之心)