这几天,关于 OpenAI 下一代模型 GPT-5
的动向陆续浮出水面。
从一个匿名模型的突然现身,到一段泄露代码里的“高推理强度”字段,再到一款通用语言模型在 2025 年国际数学奥林匹克(IMO)上拿下金牌,一系列拼图拼起来,GPT-5
的轮廓正在显形。
更关键的是,OpenAI 官方已公开发文:
我们即将发布
GPT-5
。We’re releasing
GPT-5
soon.
一切迹象都说明:GPT-5
,真的快来了。
01|o3-alpha:一个“匿名模型”的实战表现
7 月 17 日,在 WebArena 竞技场平台,出现了一个名为“Anonymous‑Chatbot”的模型,根据最新曝光代码,该模型型号为 o3-alpha-responses-2025-07-17
。

科技媒体 BleepingComputer 第一时间指出,这是 OpenAI 的新一轮 o
系列测试模型。
该模型并未通过正式名称或 API 向公众开放,但根据用户反馈,它在编程任务中表现突出,尤其是网页构建、小游戏生成等领域,远超现阶段的正式版 o3
。
一些反馈提到:
-
简单的自然语言提示即可构建可交互的 HTML 页面; -
甚至能够生成 Minecraft 风格的游戏场景(包含地形、角色、交互逻辑); -
多轮上下文中,能保留页面逻辑与用户目标,具备一定“前端架构意识”。
参与测试的网友 Peter Gostev 晒出了自己的测评结果,并且给了这个新模型很高的评价:“它在前端编程方面确实达到了一个完全不同的水平 —— 远胜于 Sonnet
、o3
、Gemini 2.5 Pro
或 Grok 4
。”

它不是下一代的 o4
,也不像是会开源的模型。
更可能是一种“为 GPT-5
打基础”的实验:将 o
系列的推理与工具调用能力更进一步,专注于多步骤、多工具协作链条。
值得注意的是,该模型上线约 12 小时后即被移出测试平台,与过去 OpenAI 内测模型的“闪测”调性一致。
02|GPT-5 reasoning alpha:一次泄露代码里的推理提示
7 月 19 日,AI 领域知名爆料人 Tibor Blaho 在 X 平台贴出一段代码截图。
截图显示,OpenAI 一款代号为 gpt-5-reasoning-alpha-2025-07-13
的模型正在进行封测,内部字段标注 reasoning_effort: high
,表明该模型聚焦于复杂逻辑推理任务。

虽未得到官方确认,但其命名规范、时间点以及代码结构与 OpenAI 过往模型一致度极高。
此消息随后被 BleepingComputer 等媒体报道,并指出该模型可能已完成初步定型,是 GPT-5
的内部版本之一,或用于验证“高推理强度”的系统机制。
值得一提的是,目前还无法确定该模型是否与前面提到的 o3-alpha
属于同一系列,前者强化工具调用与协同,后者则更强调“逻辑推理能力”。
03|IMO 金牌:一次里程碑式的推理表现
7 月 19 日,OpenAI CEO Sam Altman 发文宣布:OpenAI 的一款通用推理模型(并非 GPT-5
)在 2025 年国际数学奥林匹克中,达到了金牌级别的解题能力。

更具体的,这个新模型在与真实人类选手相同的考试环境下(无外部工具、纸笔作答),解出了 6 道题中的 5 题,得分为 35 分(满分 42),达到约前 9% 的金牌标准。
更重要的是这个模型的特性:
-
并非为数学专门训练的专有模型;
-
推理过程为自主生成,非提示分解或预设脚本;
-
解题思路已在 GitHub 公布,完全可复现(https://github.com/aw31/openai-imo-2025-proofs);
-
OpenAI 表示短期内不会对外发布 IMO 金牌能力的模型。
这可能是 AI 首次在严肃、高复杂度、全流程逻辑验证任务中,通过“通用语言模型”拿到如此成绩。
作为对比,
Gemini 2.5 Pro
在 MathArena 模拟赛中仅得 13 分(满分 42 分,约 31%),远低于铜牌线(19 分)。而谷歌 DeepMind 的AlphaGeometry 2
曾在 2024 IMO 夺得银牌,但它是专为数学定制的模型。
OpenAI 研究科学家 Alexander Wei 在推文中提到,这项突破是“多年推理研究工作的成果”。具体而言,OpenAI 在训练该模型时使用了多阶段、分步的训练方法,目的是让模型学会如何自主拆解问题并多轮思考,而不是“一步到位式”生成答案。
他表示:“我们做的不是一个懂数学的 AI,而是一个会自行思考的 AI。”
此外,OpenAI 明确强调:该模型为实验版本,短期内不会公开。尽管 GPT-5
即将上线,但这次具备 IMO 金牌能力的模型,至少在未来几个月内不会正式发布。

在怎么吊用户胃口这方面,OpenAI 手法依然老练。
结语
匿名测试模型、泄露代码中的模型代号、数学奥赛金牌,拼在一起指向一个清晰的趋势:
AI 的推理能力,正在经历一次结构性的跃升。
这与大模型的发展方向相关。
过去,模型主要通过参数规模与数据堆积换取能力提升。但到了 GPT-4
之后,业界普遍面临“语义性能见顶”的瓶颈。
而下一阶段的关键,不是“更大”,而是“更会思考”。
模型需要不只能答题,而且能拆解、推理、验证,最终收束出清晰可复现的结果。
这正是通用人工智能(AGI)的核心挑战:不是知道答案,而是学会如何寻找答案。
GPT-5
,正走在这条路上。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。
(文:AI信息Gap)