它能看图说话、会写代码、还能自己查资料?我测了测 o3,有点可怕

OpenAI 最新一波模型更新,有点猛。底蕴尤在。

4 月 16 日,OpenAI 官宣推出两款新推理模型:一个是主打高性能的 o3,一个是走轻量路线的 o4-mini

名字平平无奇,实则大有文章。

在我看来,被 OpenAI 官方评价为“可生成有用的新科学假设”的 o3 不单纯是 o1 的升级版,而是已经进化到了另一个维度。

主要体现在 2 个方面:视觉推理(看图思考) + 自主调用工具

这意味着,o3 模型不但能看图说话、自主推理,还能自行调用 ChatGPT 内的所有工具,包括:联网搜索、运行 Python、画图等。

注意,是自行选择用哪个工具来解决当前的问题。

而 o4-mini,则是 o3 的高性价比备胎:性能接近 o3,但轻量、快、成本低;适合边缘部署、实时对话、API效率场景。

本文不对 o4-mini 展开实测,主角只留给 o3


01|写作前面的话

有几点需要说明:

  1. 本次测评主要在 ChatGPT 上完成,如有必要再用 API 测试。

  2. o3 对提示词的语言敏感,中文提示词思考时间(深度)会变短,这一点我在昨天的文章里已经说过。但为了方便大家阅读,我会先尝试用中文提示词提问,如果 o3 回答有问题,我会继续测试英文提示词。

02|数学推理

一般的数学或者推理问题肯定是测不出来 o3 的极限的,所以我选择先搜索“哪一年的江苏高考数学最难”。

得到了 2003 年这个答案。(有没有江苏的小可爱可以在评论区证明一波)

于是,我找到了 2003 年江苏高考数学真题。

先来小试牛刀,选择题最后一题。

提示词: 基于你自身的知识体系和推理能力,不依赖搜索内容,独立完成该题的详细解答,要求条理清晰、逻辑严密。

正确答案是 A。o3 丝毫不费力地轻松拿下。

这道题目本身不是很难。

再来测试填空题最后一题。

这道题目就需要一定的推理能力了。

o3 也开始思考。

最终,思考时长 2 分 7 秒,o3 得出了正确答案。

解答过程极其详尽。

接着我们来上强度,解答题最后一题:数列。

对于这道题,我变换了一下测试提示词,让 o3 先分析题目,然后查找一下这道题的出处(这里考察它的联网搜索能力),最后再凭借自己的知识作答。

提示词: 对我提供的问题依照以下顺序完成任务:首先进行题目分析,清晰准确地解释和分析题目内容,指出其考点、难点以及涉及的知识领域;接着进行联网搜索,查找该题目的出处,包括是否来自考试、出版物、机构或网络资源,并简要说明来源的可靠性;最后,基于你自身的知识体系和推理能力,不依赖搜索内容,独立完成该题的详细解答,要求条理清晰、逻辑严密。在每个步骤开始前请标注对应小节标题(如“题目分析”、“联网搜索结果”、“独立解答”)。

o3 的表现超乎我的想象。

中文提示词,总思考时长 7 分 12 秒。(这个时长很显然是没有降智的)

第一部分:题目解析。

考点、难点,罗列的条理清晰。

第二部分:搜索题目出处。

一个字:牛!

22 年前的题还真让 o3 给找到了。

参考了知乎和百度文库的数据。

其实更值得一提的是 o3 的整个搜索查找的过程。

共计调用了 5 次搜索工具,最终确定了准确的题目来源。

第三部分:解答。

完美。答案对,推理过程也是对的,虽然方法和标准答案略有出入。

唯一美中不足的是,我在 o3 的思考过程中发现它在验证证明过程的时候自动调用了 Python 代码解释器。

结论:如果让 o3 来做这套平均分却只有 68 分的 2003 年江苏高考数学试卷,满分是跑不了了。

恐怖如斯。

03|代码(前端)

继续先来用“天气卡片”小试牛刀。

这个问题测试的主要是模型的审美,以及前端开发能力。

你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况:
- 风力(如:飘动的云朵、摇曳的树木或风线)
- 降雨(如:下落的雨滴、形成的水洼)
- 晴天(如:闪耀的光线、明亮的背景)
- 下雪(如:飘落的雪花、积雪效果)

所有天气卡片需要并排显示,背景采用深色设计。所有HTML、CSS和JavaScript代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。

将前端显示效果优化得更精致流畅,打造出价值20元/月的精品天气应用既视感。

众所周知,审美和前端一直都不是 o 系列模型的强项。

o3 思考了 38 秒,写了 378 行代码,给出了下面这个前端页面。

你说它丑吧,它可能也没那么丑;但也绝对算不上漂亮。

总体来说,丑的很别致。

来看 DeepSeek-V3-0324 的神作。

有可能是中文提示词的原因,于是我又换成英文提示词再次测试。

You are a top front-end engineer working at Apple. Please create a single HTML file that includes CSS and JavaScript to generate animated weather cards. Each card should visually and vividly display one of the following weather conditions through distinct animation effects:

- Windy (e.g., drifting clouds, swaying trees, or animated wind lines)  
- Rainy (e.g., falling raindrops, water puddles forming)  
- Sunny (e.g., radiant sunlight, bright background)  
- Snowy (e.g., falling snowflakes, snow accumulation effects)

All weather cards should be displayed side by side with a dark-themed background. The HTML, CSS, and JavaScript should all be included within this single file. The JavaScript must include a function or a group of buttons that allows switching between different weather states to demonstrate each animation.

The visual design should be highly polished and fluid, aiming for a premium app experience worth $20/month.

结果,更加“不忍直视”。

只能说:术业有专攻吧。

结论:如果是设计前端页面,还是用 Claude 3.7 或者 DeepSeek,再或者 GPT-4.1 吧。

04|视觉推理

视觉推理,简单来说,就是“看图说话”。

先来一个简单的例子。

下面这张照片是一张 AI 领域的经典照片,拍摄于 2024 年 4 月 24 日,英伟达 CEO 黄仁勋亲自向 OpenAI 交付了全球首台 NVIDIA DGX H200 AI 服务器。交付仪式在 OpenAI 位于旧金山的办公室举行,OpenAI CEO Sam Altman 和联合创始人兼总裁 Greg Brockman 出席了交接仪式。

让我们看看 o3 怎么说。

提示词: 接下来我会提供一张图片,请你动用你的联网搜索能力,尽可能详细、具体、全面地推断与该图片相关的所有信息。包括但不限于:图片中涉及的人物、地点、事件、物体、历史或文化背景、潜在的象征意义等。请不要停留在表面描述,而是尽可能深入分析,结合可靠来源给出推理依据,并说明你的信息是如何得出的。

o3 的表现太惊艳了!

时间、人物、地点、事件,一个不落,全对。甚至延伸推断出了历史文化背景。

负责任的说,目前没有任何一个其他模型能做到这种程度吧。

因为这并不是简单的图片 OCR,或者多模态理解图片,而是理解+推理。

让我们一起来看一下 o3 的推理过程,非常精彩。

先是把图片逐渐放大,以准确理解图里的细节信息。

接着调用搜索工具,进行多轮搜索。

最后再进行推理,得出结论。

这完全就是一整套 AI Agent 才有的流程,现在被一个 AI 模型给实现了!

再来做一个有意思的测试:找不同。

找不同大家都玩过,可是让 AI 模型找不同,这现实吗?

还真可以。

我将提供一张图片,图片被分为左右两部分,请你仔细观察并对比左右两边的内容,找出它们之间所有的不同之处。对于每一处不同,请明确指出位置(如“左上角”或“人物头部附近”)并描述具体差异,同时简要说明你是如何判断出的。

正确答案是 4 处不同,小可爱们看出来了吗?

o3 成功找出了这 4 处不同,但略有瑕疵。它指出的第 5 处不同是错误的。



总结。

那么,这种视觉推理能力,究竟意味着什么?

最大的意义在于:AI 不只是“看懂图”,而是“看图能办事”了。

比如你给它一张手绘流程图,它不仅能识别节点逻辑,还能发现设计漏洞,甚至提出优化建议。

你拍一张财务图表,它能读出趋势、分析波动,还能生成简洁报告。

你传一张白板照片,它能看清公式、理解上下文,再接着写出代码或实验说明。

过去这些,需要靠人去“看图 → 理解 → 提炼 → 行动”,现在 o3 一步到位,全包了。

05|创意写作

最后,来测试一下 o3 的中文写作能力。

提示词如下,要求 o3 写一篇古龙风的武侠小说。

请写一篇1000字左右的原创武侠小说,风格模仿著名武侠小说作家古龙。要求如下:

1. **语言风格**:运用古龙常见的简洁、富有节奏感的句式,语言干练,带有哲理意味;多用短句、留白、对话推动情节。
2. **人物设定**:塑造一位个性鲜明、身世神秘的主角,性格中应带有“亦正亦邪”、“孤独洒脱”的古龙式英雄特质。
3. **情节结构**:开篇应有悬念或冲突,引出一段江湖恩怨或谜题;中段可加入一场智斗或打斗;结尾应出人意料,留下回味或反转。
4. **场景与意境**:注意营造具有江湖气息和视觉画面的场景,如深夜雨巷、酒馆对峙、梅林伏杀等。
5. **对话风格**:人物对白需简练锋利,充满个性,富有哲理意味或情感张力。

请严格模仿古龙风格完成小说,控制在1000字左右。

之前以相同的提示词测过 Gemini 2.5 Pro,表现非常不错,详情看这里:当 Gemini 写古龙,结果惊艳了整个江湖:冷雨,残月,孤星。

附上 o3 写的武侠小说。

可能是我用了中文提示词,o3 简直没有任何思考,脱口而出。

但小说的质量竟然还不错。反正我是从头到尾读完了。

留白、对话、哲理、冷冽,古龙元素都有。

再来一个写作测试。

为 “华为 Mate XT 非凡大师” 手机写一篇约800字的公众号风格软文,面向都市中产、高效能人士和内容创作者。文章需突出3个创新亮点(如折叠屏设计、AI影像系统、多设备协同等),结合真实使用场景,分析目标用户在工作与生活中的痛点,并展示该手机如何提供解决方案。语言需专业不枯燥,有画面感与情绪共鸣,结构清晰,节奏紧凑,符合科技类公众号常见风格。结尾需有吸引力强的购买号召,引导读者行动或产生强烈兴趣。

似乎看上去还可以。

结构清晰,语言风格也比较符合公众号的调性。

但经常写文章的小可爱应该能读出来,这篇营销文还是带有一定的 AI 味的。不过可以通过修修改改来进一步优化。

结论:o3 的中文写作能力还可以,有没有达到之前 o1 的水平不好说,

结语

看到 o3 这水平,我脑子里只剩一句话:

Agent 的未来,可能已经被提前内置进模型本身了。




我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

发表评论