⚡一分钟速读
OpenAI重磅发布新一代推理模型o3-mini。
🔥 重要更新
-
首次向免费用户开放新模型(破天荒第一次!) -
付费用户额度提升至每天150条 -
支持联网搜索功能,可实现”深度搜索” -
比 o1更强的性能表现
💪 模型性能
-
o3-mini-high版本全面超越o1 -
博士级GPQA测试:79.7% > 78% -
编程能力Codeforces:2130分 > 1891分 -
软件工程SWE-bench:49.3% > 48.9%
🌟 三种版本可选
-
o3-mini:基础版,适合日常对话 -
o3-mini-medium:中等算力,性能均衡 -
o3-mini-high:高算力版,更强但更慢
👉 立即体验
-
免费用户:直接使用基础版 -
Plus/Team用户:可用全部三个版本 -
Pro用户:无限制使用
🔄 对标竞品:o3-mini-high整体性能超越DeepSeek-R1
继续阅读,了解详细内容→
如果说昨天的文章《为了迎战DeepSeek,ChatGPT新增这些功能!》中介绍的都是OpenAI一些可有可无,无关痛痒,“挤牙膏”式的更新,那么今天,OpenAI终于放大招了!
全新的推理模型,专攻STEM(科学Science、技术Tech、工程Engineering、数学Math)领域,主打速度、“智商”和物美价廉。
一个月前OpenAI就开始大力宣传的新一代推理模型o3,今天它正式发布了。
不出意外,不是满血版o3,而是小参数版本的o3-mini。

o3-mini并不是灰度发布,目前已全面推出,包括ChatGPT和API。当你登录ChatGPT网页版,大概率会收到下面这个弹窗提醒,那么意味着你的账号已经可以使用o3-mini了!

免费用户也能白嫖是o3-mini的一大特色。要知道,这可是OpenAI破天荒第一次对免费用户开放一个新模型。同时,这也意味着AI平民化时代正在加速到来。
免费用户在这里使用。

此处,我们应该感谢那个国产之光——DeepSeek!

付费用户则拥有更高的o3-mini使用额度:ChatGPT Pro用户无限制使用;Plus和Team用户的使用额度是o1-mini的三倍,也即每天150条。这个量,不干什么大事的话,应该是够了。
同时,付费用户还可以使用一个名为o3-mini-high的模型。严格意义来说,它并不是一个新模型,和之前的o1 pro一样,o3-mini-high是o3-mini的高算力版本,“智商”更高,回答更慢。

更更重要的,o1都不支持的联网搜索功能,o3-mini支持了!也就是,你可以同时使用o3-mini模型 + 联网搜索功能,以达到“深度搜索”的效果。这一点,恐怕也要感谢DeepSeek。因为DeepSeek自从发布推理模型R1起,就开始支持深度思考 + 联网搜索,详情看这里:DeepSeek-R1隐藏玩法:比Kimi更强的“深度搜索”模式!
这样的好处是显而易见的。联网搜索功能一开,相当于给AI的大脑接上全球知识库,岂不是直接开挂。更丰富的上下文信息,更高质量的结果。
比如我问o3-mini,“DeepSeek为什么这么火”。

如果单从基准测试结果来看,o3-mini的高算力版本o3-mini-high,是要比满血版o1还要强那么一丢丢的。其中,灰色阴影区域代表的是多数投票(majority vote, consensus)方法在64个样本上的表现。说人话,回答64次,模型的最高可能准确率。

GPQA Diamond是博士级别极具挑战的测试。o3-mini-high正确率79.7%,高于o1的78%。

编程测试Codeforces,o3-mini-high直接飙到了2130分,远超过o1的1891分。

SWE-bench Verified,评估AI模型解决实际软件工程问题的能力,o3-mini-high正确率49.3%,也是高于满血版o1。

再来看一个小伙伴们都比较关心的问题,o3-mini-high和DeepSeek-R1谁更猛?
这里也放上DeepSeek-R1的基准测试结果。

把o3-mini3个版本的基准测试结果和DeepSeek-R1的整合起来。
| Benchmark 📌 | o3-mini (Low) 🟡 | o3-mini (Medium) 🟠 | o3-mini (High) 🔥 | DeepSeek-R1 🚀 |
|---|---|---|---|---|
| AIME 2024 (Math) 🧮 | 60.0 | 79.6 | 87.3 | 79.8 |
| GPQA Diamond (Science) 🔬 | 70.6 | 76.8 | 79.7 | 71.5 |
| Codeforces (Coding) 💻 | 1831 (ELO) | 2036 (ELO) | 2130 (ELO) | 96.3 (Percentile) |
| SWE-bench Verified (Software Eng.) 🏗️ | 40.8 | 42.9 | 49.3 | 49.2 |
可以看到,和o1对标的DeepSeek-R1整体性能肯定是不如o3-mini-high的,大约是介于Medium和High之间的水平。
但说实话,DeepSeek-R1都开源且免费了,还要什么自行车!
结语
o3-mini一发布,o1-mini可以彻底淘汰了!
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)