硬刚DeepSeek！OpenAI发布「o3-mini」，速度翻倍能联网，白嫖版来了！

⚡一分钟速读

OpenAI重磅发布新一代推理模型o3-mini。

🔥 重要更新

首次向免费用户开放新模型（破天荒第一次！）
付费用户额度提升至每天150条
支持联网搜索功能，可实现”深度搜索”
比o1更强的性能表现

💪 模型性能

o3-mini-high版本全面超越o1
博士级GPQA测试：79.7% > 78%
编程能力Codeforces：2130分 > 1891分
软件工程SWE-bench：49.3% > 48.9%

🌟 三种版本可选

o3-mini：基础版，适合日常对话
o3-mini-medium：中等算力，性能均衡
o3-mini-high：高算力版，更强但更慢

👉 立即体验

免费用户：直接使用基础版
Plus/Team用户：可用全部三个版本
Pro用户：无限制使用

🔄 对标竞品：o3-mini-high整体性能超越DeepSeek-R1

继续阅读，了解详细内容→

如果说昨天的文章《为了迎战DeepSeek，ChatGPT新增这些功能！》中介绍的都是OpenAI一些可有可无，无关痛痒，“挤牙膏”式的更新，那么今天，OpenAI终于放大招了！

全新的推理模型，专攻STEM（科学Science、技术Tech、工程Engineering、数学Math）领域，主打速度、“智商”和物美价廉。

一个月前OpenAI就开始大力宣传的新一代推理模型o3，今天它正式发布了。

不出意外，不是满血版o3，而是小参数版本的o3-mini。

o3-mini并不是灰度发布，目前已全面推出，包括ChatGPT和API。当你登录ChatGPT网页版，大概率会收到下面这个弹窗提醒，那么意味着你的账号已经可以使用o3-mini了！

免费用户也能白嫖是o3-mini的一大特色。要知道，这可是OpenAI破天荒第一次对免费用户开放一个新模型。同时，这也意味着AI平民化时代正在加速到来。

免费用户在这里使用。

此处，我们应该感谢那个国产之光——DeepSeek！

付费用户则拥有更高的o3-mini使用额度：ChatGPT Pro用户无限制使用；Plus和Team用户的使用额度是o1-mini的三倍，也即每天150条。这个量，不干什么大事的话，应该是够了。

同时，付费用户还可以使用一个名为o3-mini-high的模型。严格意义来说，它并不是一个新模型，和之前的o1 pro一样，o3-mini-high是o3-mini的高算力版本，“智商”更高，回答更慢。

更更重要的，o1都不支持的联网搜索功能，o3-mini支持了！也就是，你可以同时使用o3-mini模型 + 联网搜索功能，以达到“深度搜索”的效果。这一点，恐怕也要感谢DeepSeek。因为DeepSeek自从发布推理模型R1起，就开始支持深度思考 + 联网搜索，详情看这里：DeepSeek-R1隐藏玩法：比Kimi更强的“深度搜索”模式！

这样的好处是显而易见的。联网搜索功能一开，相当于给AI的大脑接上全球知识库，岂不是直接开挂。更丰富的上下文信息，更高质量的结果。

比如我问o3-mini，“DeepSeek为什么这么火”。

如果单从基准测试结果来看，o3-mini的高算力版本o3-mini-high，是要比满血版o1还要强那么一丢丢的。其中，灰色阴影区域代表的是多数投票（majority vote, consensus）方法在64个样本上的表现。说人话，回答64次，模型的最高可能准确率。

GPQA Diamond是博士级别极具挑战的测试。o3-mini-high正确率79.7%，高于o1的78%。

编程测试Codeforces，o3-mini-high直接飙到了2130分，远超过o1的1891分。

SWE-bench Verified，评估AI模型解决实际软件工程问题的能力，o3-mini-high正确率49.3%，也是高于满血版o1。

再来看一个小伙伴们都比较关心的问题，o3-mini-high和DeepSeek-R1谁更猛？

这里也放上DeepSeek-R1的基准测试结果。

把o3-mini3个版本的基准测试结果和DeepSeek-R1的整合起来。

Benchmark 📌	o3-mini (Low) 🟡	o3-mini (Medium) 🟠	o3-mini (High) 🔥	DeepSeek-R1 🚀
AIME 2024 (Math) 🧮	60.0	79.6	87.3	79.8
GPQA Diamond (Science) 🔬	70.6	76.8	79.7	71.5
Codeforces (Coding) 💻	1831 (ELO)	2036 (ELO)	2130 (ELO)	96.3 (Percentile)
SWE-bench Verified (Software Eng.) 🏗️	40.8	42.9	49.3	49.2

可以看到，和o1对标的DeepSeek-R1整体性能肯定是不如o3-mini-high的，大约是介于Medium和High之间的水平。

但说实话，DeepSeek-R1都开源且免费了，还要什么自行车！

结语

o3-mini一发布，o1-mini可以彻底淘汰了！

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

⚡一分钟速读

结语

发表评论 取消回复

发表评论取消回复