o3-pro正式推出！说声“嗨”就花了80美元，思考1+1用时16分钟

一水发自凹非寺
量子位 | 公众号 QbitAI

OpenAI深夜放大招，正式推出“最新最强版”推理模型o3-pro！

而且同一时间，o3模型降价80%不降智。

官方测评结果显示，在专家评估中，所有人一致更偏爱o3-pro而非o3的回答。

此外，o3-pro也一举超越o3、o1-pro，成为当前最擅长数学、科学和编程的OpenAI模型。

OpenAI CEO奥特曼也第一时间激动表示：

这真是太聪明了！我第一次看到它相对于o3的胜率时，简直不敢相信。

目前o3-pro已取代o1-pro，面向ChatGPT的Pro和Team用户开放，Enterprise和Edu用户将在下周获得使用权限。

而对开发者来说，o3-pro已经可以通过API接入：

每百万输入tokens收费20美元（约合人民币143元），每百万输出tokens收费80美元（约合人民币574元）。

有多贵呢？

温馨提醒，据称一句简单的“嗨”就花了网友80美元（doge）。

或许OpenAI也意识到这个价格确实有点贵，所以另一边赶紧宣布o3降价80%。

o3降价80%不降智

官网显示，o3的最新API价格如下：

每百万输入tokens收费2美元，每百万输出tokens收费8美元。

对比o1-pro下降了80%以上，不仅是o3-pro的1/10，而且和GPT-4o（每百万输入/输出分别为2.5美元和10美元）基本持平。

至于降价原因，明面上的说法是OpenAI对推理服务架构进行了全面优化。

就是说，虽然o3和o3-pro底层模型相同，但由于推理更高效，所以价格自然就下调了。

不过，就在奥特曼对这一价格“沾沾自喜”时，关于o3“是否真的没有降智”却陷入了争议。

网友们也是相当直白，在奥特曼这条推文底下直接表达了怀疑：

甚至有博主以亲身经历（暂无法确定真实性）出来发声，认为o3在实测中变笨了。

OpenAI降价并非出于慈善……

然而这一说法也遭到了其他网友的反驳，总体来看目前对峙双方并未就这一争议拿出实质性证据。

虽然争议尚未讨论出具体结果，但一些关于o3-pro的测试结果已经新鲜出炉。

和开头所提一致，官方在更严格的“4/4可靠性”评估中也验证了o3-pro尤为擅长数学、科学和编程。

p.s. 这项评估需要o3-pro在四次尝试中（而不仅仅是一次，pass@1）正确回答问题~

不过官方也多次提醒，由于o3-pro可以使用工具，因此响应时间通常比o1-pro更长。

我们建议将其用于对可靠性要求更高的棘手问题，等待几分钟是值得的。

这也和一众网友实测下来的感受相符，o3-pro确实变强了，能够解决一些其他模型无法答对的问题，不过由于响应变慢，价格也是真贵。

HyperWriteAI CEO让它思考“1+1=？”，结果往往需要耗时1分钟以上（第一次问甚至用时16分钟）。

当然，这也恰好代表了o3-pro的错误打开方式。

不论是官方建议还是一些好的网友实测结果，都说明o3-pro更适合挑战一些有难度、有价值的问题。

宾大教授Ethan Mollick分享了一个其他模型都曾铩羽而归的问题：从“SPACE”到“EARTH”制作一个单词阶梯。

这个游戏需要模型从“SPACE”到“EARTH”，每次只改变一个字母，单词真实有效且长度不变（右侧为解释“为什么这是一个合法的英语单词”）。

而o3-pro成功完成了挑战，并且这不是模型通过联网搜索得到的答案（即通过推理得到）。

另一位生物医学科学家也分享了与o3-pro合作开发免疫系统的例子。

作为对比，他也向o3提出了同一任务（要求先识别出人类天然免疫系统的关键局限性），结果表明o3-pro更胜一筹。

o3列出的前五个问题虽然强调了类似的重要问题，但后两个问题无需彻底重构免疫系统即可解决。

相比之下，o3-pro不仅提出了更多限制，而且它所指出的每一个限制都是极其关键、内在的问题，需要彻底重构。

整体而言，通过ARC-AGI测试结果可以看到，o3-pro在高难任务上表现略好，但提升幅度不大，且成本随难度上升。

p.s. 这项测试主要考验AI在面对新问题时的抽象推理和问题解决能力~

奥特曼发小作文

这是我最后一次在没有任何人工智能帮助的情况下写这样的文章了。

有意思的是，同一时间奥特曼也火速发了一篇小作为——

题目为《The Gentle Singularity（温和的奇点）》，来探讨AI发展对人类社会的影响。

其主要观点包括下面这些：

1、2025年，我们迎来了能够真正进行认知工作的智能Agent，编写计算机代码的方式将彻底改变。2026年，我们很可能会看到能产生原创见解的系统；2027年，或许会出现能在现实世界中执行任务的机器人。

2、到了2030年代，智慧和能源——即想法及实现想法的能力——将变得极其丰富。这两者长期以来一直是人类进步的基本限制；如果智慧和能源变得充足（加上良好的治理），理论上我们可以实现一切。

3、随着数据中心的生产逐渐自动化，智能的成本最终应该会接近电力成本。（很多人关心ChatGPT每次查询用多少能量；平均每次查询大约耗电0.34瓦时，大概相当于烤箱运行一秒多一点，或高效灯泡使用几分钟。此外，每次查询大约用水0.000085加仑，约等于十五分之一茶匙。）

4、相比AI，人类有一个长期且重要的优势：我们天生在意他人，以及他人怎么想、怎么做，而对机器却没什么感情。

5、从相对论的角度看，奇点是一点点发生的，融合是逐步进行的。我们正攀登那条技术指数增长的长弧线；向前看总觉得是陡峭的垂直，向后看则像是平缓的线，但其实它是一条平滑的曲线。（回想2020 年，如果那时我们说2025年会接近 AGI，听起来会很疯狂，但对比过去五年所发生的一切，也许现在的预测不那么疯狂了。）

6、我们（整个行业，不只是OpenAI）正在为世界构建一个大脑，它的极限将取决于我们的好点子。

7、OpenAI如今做的事情很多，但最根本的身份仍是一个超级智能研究公司。

BTW，奥特曼最新推文有透露，原计划中的公开权重模型要推迟了。

嗯，又一个期货（doge）~

完整小作文地址如下：
https://blog.samaltman.com/the-gentle-singularity

（文：量子位）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

一水 发自 凹非寺量子位 | 公众号 QbitAI

o3降价80%不降智

奥特曼发小作文

发表评论 取消回复

一水发自凹非寺
量子位 | 公众号 QbitAI

发表评论取消回复