它能看图说话、会写代码、还能自己查资料？我测了测 o3，有点可怕

OpenAI 最新一波模型更新，有点猛。底蕴尤在。

4 月 16 日，OpenAI 官宣推出两款新推理模型：一个是主打高性能的 o3，一个是走轻量路线的 o4-mini。

名字平平无奇，实则大有文章。

在我看来，被 OpenAI 官方评价为“可生成有用的新科学假设”的 o3 不单纯是 o1 的升级版，而是已经进化到了另一个维度。

主要体现在 2 个方面：视觉推理（看图思考） + 自主调用工具。

这意味着，o3 模型不但能看图说话、自主推理，还能自行调用 ChatGPT 内的所有工具，包括：联网搜索、运行 Python、画图等。

注意，是自行选择用哪个工具来解决当前的问题。

而 o4-mini，则是 o3 的高性价比备胎：性能接近 o3，但轻量、快、成本低；适合边缘部署、实时对话、API效率场景。

本文不对 o4-mini 展开实测，主角只留给 o3。

01｜写作前面的话

有几点需要说明：

本次测评主要在 ChatGPT 上完成，如有必要再用 API 测试。
o3 对提示词的语言敏感，中文提示词思考时间（深度）会变短，这一点我在昨天的文章里已经说过。但为了方便大家阅读，我会先尝试用中文提示词提问，如果 o3 回答有问题，我会继续测试英文提示词。

02｜数学推理

一般的数学或者推理问题肯定是测不出来 o3 的极限的，所以我选择先搜索“哪一年的江苏高考数学最难”。

得到了 2003 年这个答案。（有没有江苏的小可爱可以在评论区证明一波）

于是，我找到了 2003 年江苏高考数学真题。

先来小试牛刀，选择题最后一题。

提示词： 基于你自身的知识体系和推理能力，不依赖搜索内容，独立完成该题的详细解答，要求条理清晰、逻辑严密。

正确答案是 A。o3 丝毫不费力地轻松拿下。

这道题目本身不是很难。

再来测试填空题最后一题。

这道题目就需要一定的推理能力了。

o3 也开始思考。

最终，思考时长 2 分 7 秒，o3 得出了正确答案。

解答过程极其详尽。

接着我们来上强度，解答题最后一题：数列。

对于这道题，我变换了一下测试提示词，让 o3 先分析题目，然后查找一下这道题的出处（这里考察它的联网搜索能力），最后再凭借自己的知识作答。

提示词： 对我提供的问题依照以下顺序完成任务：首先进行题目分析，清晰准确地解释和分析题目内容，指出其考点、难点以及涉及的知识领域；接着进行联网搜索，查找该题目的出处，包括是否来自考试、出版物、机构或网络资源，并简要说明来源的可靠性；最后，基于你自身的知识体系和推理能力，不依赖搜索内容，独立完成该题的详细解答，要求条理清晰、逻辑严密。在每个步骤开始前请标注对应小节标题（如“题目分析”、“联网搜索结果”、“独立解答”）。

o3 的表现超乎我的想象。

中文提示词，总思考时长 7 分 12 秒。（这个时长很显然是没有降智的）

第一部分：题目解析。

考点、难点，罗列的条理清晰。

第二部分：搜索题目出处。

一个字：牛！

22 年前的题还真让 o3 给找到了。

参考了知乎和百度文库的数据。

其实更值得一提的是 o3 的整个搜索查找的过程。

共计调用了 5 次搜索工具，最终确定了准确的题目来源。

第三部分：解答。

完美。答案对，推理过程也是对的，虽然方法和标准答案略有出入。

唯一美中不足的是，我在 o3 的思考过程中发现它在验证证明过程的时候自动调用了 Python 代码解释器。

结论：如果让 o3 来做这套平均分却只有 68 分的 2003 年江苏高考数学试卷，满分是跑不了了。

恐怖如斯。

03｜代码（前端）

继续先来用“天气卡片”小试牛刀。

这个问题测试的主要是模型的审美，以及前端开发能力。

你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件，用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况：
- 风力（如：飘动的云朵、摇曳的树木或风线）
- 降雨（如：下落的雨滴、形成的水洼）
- 晴天（如：闪耀的光线、明亮的背景）
- 下雪（如：飘落的雪花、积雪效果）

所有天气卡片需要并排显示，背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能（例如通过函数或按钮组），以演示每种天气的动画效果。

将前端显示效果优化得更精致流畅，打造出价值20元/月的精品天气应用既视感。

众所周知，审美和前端一直都不是 o 系列模型的强项。

o3 思考了 38 秒，写了 378 行代码，给出了下面这个前端页面。

你说它丑吧，它可能也没那么丑；但也绝对算不上漂亮。

总体来说，丑的很别致。

来看 DeepSeek-V3-0324 的神作。

有可能是中文提示词的原因，于是我又换成英文提示词再次测试。

You are a top front-end engineer working at Apple. Please create a single HTML file that includes CSS and JavaScript to generate animated weather cards. Each card should visually and vividly display one of the following weather conditions through distinct animation effects:

- Windy (e.g., drifting clouds, swaying trees, or animated wind lines)  
- Rainy (e.g., falling raindrops, water puddles forming)  
- Sunny (e.g., radiant sunlight, bright background)  
- Snowy (e.g., falling snowflakes, snow accumulation effects)

All weather cards should be displayed side by side with a dark-themed background. The HTML, CSS, and JavaScript should all be included within this single file. The JavaScript must include a function or a group of buttons that allows switching between different weather states to demonstrate each animation.

The visual design should be highly polished and fluid, aiming for a premium app experience worth $20/month.

结果，更加“不忍直视”。

只能说：术业有专攻吧。

结论：如果是设计前端页面，还是用 Claude 3.7 或者 DeepSeek，再或者 GPT-4.1 吧。

04｜视觉推理

视觉推理，简单来说，就是“看图说话”。

先来一个简单的例子。

下面这张照片是一张 AI 领域的经典照片，拍摄于 2024 年 4 月 24 日，英伟达 CEO 黄仁勋亲自向 OpenAI 交付了全球首台 NVIDIA DGX H200 AI 服务器。交付仪式在 OpenAI 位于旧金山的办公室举行，OpenAI CEO Sam Altman 和联合创始人兼总裁 Greg Brockman 出席了交接仪式。

让我们看看 o3 怎么说。

提示词： 接下来我会提供一张图片，请你动用你的联网搜索能力，尽可能详细、具体、全面地推断与该图片相关的所有信息。包括但不限于：图片中涉及的人物、地点、事件、物体、历史或文化背景、潜在的象征意义等。请不要停留在表面描述，而是尽可能深入分析，结合可靠来源给出推理依据，并说明你的信息是如何得出的。

o3 的表现太惊艳了！

时间、人物、地点、事件，一个不落，全对。甚至延伸推断出了历史文化背景。

负责任的说，目前没有任何一个其他模型能做到这种程度吧。

因为这并不是简单的图片 OCR，或者多模态理解图片，而是理解+推理。

让我们一起来看一下 o3 的推理过程，非常精彩。

先是把图片逐渐放大，以准确理解图里的细节信息。

接着调用搜索工具，进行多轮搜索。

最后再进行推理，得出结论。

这完全就是一整套 AI Agent 才有的流程，现在被一个 AI 模型给实现了！

再来做一个有意思的测试：找不同。

找不同大家都玩过，可是让 AI 模型找不同，这现实吗？

还真可以。

我将提供一张图片，图片被分为左右两部分，请你仔细观察并对比左右两边的内容，找出它们之间所有的不同之处。对于每一处不同，请明确指出位置（如“左上角”或“人物头部附近”）并描述具体差异，同时简要说明你是如何判断出的。

正确答案是 4 处不同，小可爱们看出来了吗？

o3 成功找出了这 4 处不同，但略有瑕疵。它指出的第 5 处不同是错误的。

总结。

那么，这种视觉推理能力，究竟意味着什么？

最大的意义在于：AI 不只是“看懂图”，而是“看图能办事”了。

比如你给它一张手绘流程图，它不仅能识别节点逻辑，还能发现设计漏洞，甚至提出优化建议。

你拍一张财务图表，它能读出趋势、分析波动，还能生成简洁报告。

你传一张白板照片，它能看清公式、理解上下文，再接着写出代码或实验说明。

过去这些，需要靠人去“看图 → 理解 → 提炼 → 行动”，现在 o3 一步到位，全包了。

05｜创意写作

最后，来测试一下 o3 的中文写作能力。

提示词如下，要求 o3 写一篇古龙风的武侠小说。

请写一篇1000字左右的原创武侠小说，风格模仿著名武侠小说作家古龙。要求如下：

1. **语言风格**：运用古龙常见的简洁、富有节奏感的句式，语言干练，带有哲理意味；多用短句、留白、对话推动情节。
2. **人物设定**：塑造一位个性鲜明、身世神秘的主角，性格中应带有“亦正亦邪”、“孤独洒脱”的古龙式英雄特质。
3. **情节结构**：开篇应有悬念或冲突，引出一段江湖恩怨或谜题；中段可加入一场智斗或打斗；结尾应出人意料，留下回味或反转。
4. **场景与意境**：注意营造具有江湖气息和视觉画面的场景，如深夜雨巷、酒馆对峙、梅林伏杀等。
5. **对话风格**：人物对白需简练锋利，充满个性，富有哲理意味或情感张力。

请严格模仿古龙风格完成小说，控制在1000字左右。

之前以相同的提示词测过 Gemini 2.5 Pro，表现非常不错，详情看这里：当 Gemini 写古龙，结果惊艳了整个江湖：冷雨，残月，孤星。

附上 o3 写的武侠小说。

可能是我用了中文提示词，o3 简直没有任何思考，脱口而出。

但小说的质量竟然还不错。反正我是从头到尾读完了。

留白、对话、哲理、冷冽，古龙元素都有。

再来一个写作测试。

为 “华为 Mate XT 非凡大师” 手机写一篇约800字的公众号风格软文，面向都市中产、高效能人士和内容创作者。文章需突出3个创新亮点（如折叠屏设计、AI影像系统、多设备协同等），结合真实使用场景，分析目标用户在工作与生活中的痛点，并展示该手机如何提供解决方案。语言需专业不枯燥，有画面感与情绪共鸣，结构清晰，节奏紧凑，符合科技类公众号常见风格。结尾需有吸引力强的购买号召，引导读者行动或产生强烈兴趣。

似乎看上去还可以。

结构清晰，语言风格也比较符合公众号的调性。

但经常写文章的小可爱应该能读出来，这篇营销文还是带有一定的 AI 味的。不过可以通过修修改改来进一步优化。

结论：o3 的中文写作能力还可以，有没有达到之前 o1 的水平不好说，

结语

看到 o3 这水平，我脑子里只剩一句话：

Agent 的未来，可能已经被提前内置进模型本身了。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

01｜写作前面的话

02｜数学推理

03｜代码（前端）

04｜视觉推理

05｜创意写作

结语

发表评论 取消回复

发表评论取消回复