OpenAI 最新一波模型更新,有点猛。底蕴尤在。
4 月 16 日,OpenAI 官宣推出两款新推理模型:一个是主打高性能的 o3
,一个是走轻量路线的 o4-mini
。

名字平平无奇,实则大有文章。
在我看来,被 OpenAI 官方评价为“可生成有用的新科学假设”的 o3
不单纯是 o1
的升级版,而是已经进化到了另一个维度。
主要体现在 2 个方面:视觉推理(看图思考) + 自主调用工具。
这意味着,o3
模型不但能看图说话、自主推理,还能自行调用 ChatGPT 内的所有工具,包括:联网搜索、运行 Python、画图等。
注意,是自行选择用哪个工具来解决当前的问题。

而 o4-mini
,则是 o3
的高性价比备胎:性能接近 o3
,但轻量、快、成本低;适合边缘部署、实时对话、API效率场景。
本文不对 o4-mini
展开实测,主角只留给 o3
。
01|写作前面的话
有几点需要说明:
-
本次测评主要在 ChatGPT 上完成,如有必要再用 API 测试。
-
o3
对提示词的语言敏感,中文提示词思考时间(深度)会变短,这一点我在昨天的文章里已经说过。但为了方便大家阅读,我会先尝试用中文提示词提问,如果o3
回答有问题,我会继续测试英文提示词。
02|数学推理
一般的数学或者推理问题肯定是测不出来 o3
的极限的,所以我选择先搜索“哪一年的江苏高考数学最难”。
得到了 2003 年这个答案。(有没有江苏的小可爱可以在评论区证明一波)

于是,我找到了 2003 年江苏高考数学真题。
先来小试牛刀,选择题最后一题。

提示词: 基于你自身的知识体系和推理能力,不依赖搜索内容,独立完成该题的详细解答,要求条理清晰、逻辑严密。
正确答案是 A。o3
丝毫不费力地轻松拿下。
这道题目本身不是很难。

再来测试填空题最后一题。

这道题目就需要一定的推理能力了。
o3
也开始思考。

最终,思考时长 2 分 7 秒,o3
得出了正确答案。
解答过程极其详尽。

接着我们来上强度,解答题最后一题:数列。

对于这道题,我变换了一下测试提示词,让 o3
先分析题目,然后查找一下这道题的出处(这里考察它的联网搜索能力),最后再凭借自己的知识作答。
提示词: 对我提供的问题依照以下顺序完成任务:首先进行题目分析,清晰准确地解释和分析题目内容,指出其考点、难点以及涉及的知识领域;接着进行联网搜索,查找该题目的出处,包括是否来自考试、出版物、机构或网络资源,并简要说明来源的可靠性;最后,基于你自身的知识体系和推理能力,不依赖搜索内容,独立完成该题的详细解答,要求条理清晰、逻辑严密。在每个步骤开始前请标注对应小节标题(如“题目分析”、“联网搜索结果”、“独立解答”)。
o3
的表现超乎我的想象。
中文提示词,总思考时长 7 分 12 秒。(这个时长很显然是没有降智的)
第一部分:题目解析。
考点、难点,罗列的条理清晰。

第二部分:搜索题目出处。
一个字:牛!
22 年前的题还真让 o3
给找到了。
参考了知乎和百度文库的数据。

其实更值得一提的是 o3
的整个搜索查找的过程。
共计调用了 5 次搜索工具,最终确定了准确的题目来源。

第三部分:解答。
完美。答案对,推理过程也是对的,虽然方法和标准答案略有出入。
唯一美中不足的是,我在 o3
的思考过程中发现它在验证证明过程的时候自动调用了 Python 代码解释器。

结论:如果让 o3
来做这套平均分却只有 68 分的 2003 年江苏高考数学试卷,满分是跑不了了。
恐怖如斯。
03|代码(前端)
继续先来用“天气卡片”小试牛刀。
这个问题测试的主要是模型的审美,以及前端开发能力。
你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况:
- 风力(如:飘动的云朵、摇曳的树木或风线)
- 降雨(如:下落的雨滴、形成的水洼)
- 晴天(如:闪耀的光线、明亮的背景)
- 下雪(如:飘落的雪花、积雪效果)
所有天气卡片需要并排显示,背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。
将前端显示效果优化得更精致流畅,打造出价值20元/月的精品天气应用既视感。
众所周知,审美和前端一直都不是 o
系列模型的强项。
o3
思考了 38 秒,写了 378 行代码,给出了下面这个前端页面。
你说它丑吧,它可能也没那么丑;但也绝对算不上漂亮。
总体来说,丑的很别致。

来看 DeepSeek-V3-0324
的神作。

有可能是中文提示词的原因,于是我又换成英文提示词再次测试。
You are a top front-end engineer working at Apple. Please create a single HTML file that includes CSS and JavaScript to generate animated weather cards. Each card should visually and vividly display one of the following weather conditions through distinct animation effects:
- Windy (e.g., drifting clouds, swaying trees, or animated wind lines)
- Rainy (e.g., falling raindrops, water puddles forming)
- Sunny (e.g., radiant sunlight, bright background)
- Snowy (e.g., falling snowflakes, snow accumulation effects)
All weather cards should be displayed side by side with a dark-themed background. The HTML, CSS, and JavaScript should all be included within this single file. The JavaScript must include a function or a group of buttons that allows switching between different weather states to demonstrate each animation.
The visual design should be highly polished and fluid, aiming for a premium app experience worth $20/month.
结果,更加“不忍直视”。
只能说:术业有专攻吧。

结论:如果是设计前端页面,还是用 Claude 3.7
或者 DeepSeek,再或者 GPT-4.1
吧。
04|视觉推理
视觉推理,简单来说,就是“看图说话”。
先来一个简单的例子。
下面这张照片是一张 AI 领域的经典照片,拍摄于 2024 年 4 月 24 日,英伟达 CEO 黄仁勋亲自向 OpenAI 交付了全球首台 NVIDIA DGX H200 AI 服务器。交付仪式在 OpenAI 位于旧金山的办公室举行,OpenAI CEO Sam Altman 和联合创始人兼总裁 Greg Brockman 出席了交接仪式。

让我们看看 o3
怎么说。
提示词: 接下来我会提供一张图片,请你动用你的联网搜索能力,尽可能详细、具体、全面地推断与该图片相关的所有信息。包括但不限于:图片中涉及的人物、地点、事件、物体、历史或文化背景、潜在的象征意义等。请不要停留在表面描述,而是尽可能深入分析,结合可靠来源给出推理依据,并说明你的信息是如何得出的。
o3
的表现太惊艳了!
时间、人物、地点、事件,一个不落,全对。甚至延伸推断出了历史文化背景。

负责任的说,目前没有任何一个其他模型能做到这种程度吧。
因为这并不是简单的图片 OCR,或者多模态理解图片,而是理解+推理。
让我们一起来看一下 o3
的推理过程,非常精彩。
先是把图片逐渐放大,以准确理解图里的细节信息。

接着调用搜索工具,进行多轮搜索。
最后再进行推理,得出结论。

这完全就是一整套 AI Agent 才有的流程,现在被一个 AI 模型给实现了!
再来做一个有意思的测试:找不同。
找不同大家都玩过,可是让 AI 模型找不同,这现实吗?
还真可以。

我将提供一张图片,图片被分为左右两部分,请你仔细观察并对比左右两边的内容,找出它们之间所有的不同之处。对于每一处不同,请明确指出位置(如“左上角”或“人物头部附近”)并描述具体差异,同时简要说明你是如何判断出的。
正确答案是 4 处不同,小可爱们看出来了吗?
o3
成功找出了这 4 处不同,但略有瑕疵。它指出的第 5 处不同是错误的。

总结。
那么,这种视觉推理能力,究竟意味着什么?
最大的意义在于:AI 不只是“看懂图”,而是“看图能办事”了。
比如你给它一张手绘流程图,它不仅能识别节点逻辑,还能发现设计漏洞,甚至提出优化建议。
你拍一张财务图表,它能读出趋势、分析波动,还能生成简洁报告。
你传一张白板照片,它能看清公式、理解上下文,再接着写出代码或实验说明。
过去这些,需要靠人去“看图 → 理解 → 提炼 → 行动”,现在 o3
一步到位,全包了。
05|创意写作
最后,来测试一下 o3
的中文写作能力。
提示词如下,要求 o3
写一篇古龙风的武侠小说。
请写一篇1000字左右的原创武侠小说,风格模仿著名武侠小说作家古龙。要求如下:
1. **语言风格**:运用古龙常见的简洁、富有节奏感的句式,语言干练,带有哲理意味;多用短句、留白、对话推动情节。
2. **人物设定**:塑造一位个性鲜明、身世神秘的主角,性格中应带有“亦正亦邪”、“孤独洒脱”的古龙式英雄特质。
3. **情节结构**:开篇应有悬念或冲突,引出一段江湖恩怨或谜题;中段可加入一场智斗或打斗;结尾应出人意料,留下回味或反转。
4. **场景与意境**:注意营造具有江湖气息和视觉画面的场景,如深夜雨巷、酒馆对峙、梅林伏杀等。
5. **对话风格**:人物对白需简练锋利,充满个性,富有哲理意味或情感张力。
请严格模仿古龙风格完成小说,控制在1000字左右。
之前以相同的提示词测过 Gemini 2.5 Pro
,表现非常不错,详情看这里:当 Gemini 写古龙,结果惊艳了整个江湖:冷雨,残月,孤星。
附上 o3
写的武侠小说。
可能是我用了中文提示词,o3
简直没有任何思考,脱口而出。
但小说的质量竟然还不错。反正我是从头到尾读完了。
留白、对话、哲理、冷冽,古龙元素都有。

再来一个写作测试。
为 “华为 Mate XT 非凡大师” 手机写一篇约800字的公众号风格软文,面向都市中产、高效能人士和内容创作者。文章需突出3个创新亮点(如折叠屏设计、AI影像系统、多设备协同等),结合真实使用场景,分析目标用户在工作与生活中的痛点,并展示该手机如何提供解决方案。语言需专业不枯燥,有画面感与情绪共鸣,结构清晰,节奏紧凑,符合科技类公众号常见风格。结尾需有吸引力强的购买号召,引导读者行动或产生强烈兴趣。
似乎看上去还可以。
结构清晰,语言风格也比较符合公众号的调性。
但经常写文章的小可爱应该能读出来,这篇营销文还是带有一定的 AI 味的。不过可以通过修修改改来进一步优化。

结论:o3
的中文写作能力还可以,有没有达到之前 o1
的水平不好说,
结语
看到 o3
这水平,我脑子里只剩一句话:
Agent 的未来,可能已经被提前内置进模型本身了。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)