智力触顶？GPT-5要拼体验了

文丨星天

OpenAI正式发布GPT-5，这次的看点不在智力提升，而是使用体验优化。

按照OpenAI的官方说法，GPT-5是公司推出的最智能、最快、最实用的模型，内置思考功能，能让每个人都用上专家级智能。

此次发布的模型是一个“统一系统”，由三大部分构成：一是智能高效的基础模型，可处理多数问题；二是深度推理模型，用于解决复杂难题；三是实时路由决策器。

尽管GPT-5的发布令人振奋，但据The Information消息，GPT-5在开发过程中一直面临巨大挑战。虽说AI热潮由OpenAI掀起，但它能否持续带来重大技术突破，能否吸引企业用户投入巨资，始终受到质疑。

经济学家Noah Smith认为：“到目前为止，企业在人工智能上的投入相当有限，消费者的支出倒是不少，毕竟人们喜欢和ChatGPT交流，但消费者支出远远填不上巨额投入的窟窿。”

因此，对OpenAI乃至整个行业而言，GPT-5既有技术层面的考验，也有市场层面的检验。

多版本同步发布免费策略延续

2023年3月，OpenAI推出GPT-4，时隔两年半，跨代的GPT-5终于亮相，自然引发业界高度期待。

GPT-5共有四个版本，分别是GPT-5、GPT-5 Mini、GPT-5 Nano和GPT-5 Pro，它们在成本、运行速度和计算效率上各有不同，侧重点也不一样。

其中，GPT-5功能齐全，主要用于ChatGPT和API，可执行高质量通用任务。GPT-5 Pro相当于“增强版”，采用扩展推理和并行计算技术，能应用于复杂的企业和研究场景，给出的答案更详细、更可靠。

很快，GPT-5将成为ChatGPT的独家驱动模型，替代其他模型。对ChatGPT Pro订阅用户而言（月费200美元），未来60天内仍能自主选择使用旧版本。

GPT-5、GPT-5 Mini和GPT-5 Nano主打推理功能，在API中对应的分别是gpt-5、gpt-5-mini和gpt-5-nano。需要注意的是，目前GPT-5 Pro暂未开放API访问权限，仅为ChatGPT Pro订阅用户提供服务。

一直以来，OpenAI都以开发AGI（通用人工智能）为目标，AGI智能可以超越人类智力。显然，GPT-5并非AGI，OpenAI离这个目标还有距离。

OpenAI在视频电话中表示：“多数人定义AGI时，总会缺少一些重要部分，而且很多都是相当关键的部分。模型部署后能持续学习就是很重要的一点，现在的GPT-5还做不到。”

OpenAI在回应媒体提问时澄清，GPT-5是迈向AGI的重要一步，在推理等方面有明显提升；由于定义不同，大家对AGI的理解也存在差异；尽管GPT-5达到了一些AGI的早期标准，但尚未完全迈过人类水平的AGI门槛，在持久记忆、自主性和任务适应性方面仍有局限。

基准测试出色性能不输对手

相比过往模型，GPT-5更智能、用途更广。

整体来看，GPT-5的表现优于o3，出现幻觉的概率也低于以往模型。OpenAI官方称，GPT-5的幻觉率只有o3的六分之一。

本次升级，OpenAI特别重视写作、编程、健康三大领域的改进：

——快速生成美观的响应式网站、应用和游戏，在间距排版、字体运用和留白处理等方面有突破。

——在写作方面，GPT-5可以兼顾文学深度与韵律美感，完成日常写作任务时效率更高。

——在健康方面，与之前的模型相比，GPT-5更像一位积极的思考伙伴，能够主动提示潜在健康风险，通过提问给出更有价值的回答。

多项基准测试结果显示，GPT-5刷新了纪录。

——数学能力：在AIME 2025（无工具）测试中，得分为94.6%。

——编程能力：SWE-bench Verified（With thinking）得分为74.9%，Aider Polyglot（With thinking）得分为88%。

——多模态理解：在MMMU测试中得分84.2%。

——健康领域：在HealthBench Hard测试中得分46.2%。

上面的测试来自官方。

第一时间，民间爱好者也对GPT-5进行了测试。例如在Text Arena测试中，无论是硬提示、编程、数学、创意写作还是长查询，GPT-5都是第一名。

Text Arena主要用来评估模型处理复杂文本的能力，它通过动态对话和策略博弈测试模型的表现。

除此之外，GPT-5对人类的“阿谀奉承”减少，更加人性化。

对于GPT-5的性能，OpenAI给出自己的论断：“运用推理能力时，GPT-5在大约一半的案例中表现极好，与专家相当、甚至更出色，其表现也优于OpenAI o3和ChatGPT Agent。”

AI并没有聪明很多以后拼的是体验

在GPT-5正式发布前，OpenAI创始人山姆・奥特曼通过X平台发布一张“死星”照片，未配任何文字。发布产品时，他在视频中宣称GPT-5是全领域专家，具备博士级水准，有了它，普通人能超越历史上任何个体。

尽管奥特曼的表述略带夸张，但OpenAI取得的成绩仍值得肯定。全球周活跃用户突破7亿，这无疑是一个里程碑式的数字。

面对竞争对手的步步紧逼，OpenAI承受着不小压力：既要吸引新用户，又要防止老用户流向竞品。据OpenAI内部测试，GPT-5在多项基准测试中保持领先，但这种领先并非全面碾压，在部分测试中，谷歌Gemini、Anthropic的Claude、xAI的Grok仍能与之抗衡。

在发布会材料中，OpenAI甚至犯下低级错误，出现标签错误、数据矛盾等疏漏，网友调侃“图表怕是GPT-5自己编的”。因此，面对五花八门的评测数据，我们更该关注实际体验：响应迅捷、操作直观、高度个性化，这些才是GPT-5真正的优势所在。

除最高级功能收费外，GPT-5延续了免费策略。为了对抗高速低价的Gemini，OpenAI推出同类版本竞争；当ClaudeCode席卷编程市场时，OpenAI迅速推出Codex应对。

放眼整个市场，头部大模型的能力已不相上下，基准测试成绩的重要性逐渐降低，竞争焦点正转向“体验”，尤其是整合数字生活的体验。

最终使用GPT-5时，我们或许不会因它的“智力”而惊叹，反而会被流畅的体验深深打动。ChatGPT负责人尼克・特利（Nick Turley）表示：“GPT-5模型用起来感觉特别好，我相信普通用户也会有同样感受，尤其是那些平时没花时间研究模型的人。”

行业专家：AI还有很大提升空间

最后让我们来听听几位行业专家们的观点。

Box是一家专为企业管理计算机文件的公司，近几周一直在测试GPT-5。公司CEO Aaron Levie表示，在多项高级测试中，以往模型表现欠佳，原因是它们难以理解长文档中的复杂数学内容或逻辑内容，而GPT-5在这些方面实现了彻底突破。

Aaron Levie认为：“GPT-5能够保留更多观察到的信息，并运用更高层次的推理和逻辑来做决策。”

康奈尔大学计算机科学助理教授John Thickstun从技术层面进行分析，他认为，依据GPT-5基准测试结果，它确有进步，但幅度适中；同时，GPT-5与GPT-4存在明显差异，GPT-5相当于重置了OpenAI的技术体系，为未来发展奠定了基础。

John Thickstun称：“相关工作尚未终结，人工智能无法自动解决人类所有问题，但我依然认为，AI技术还有很大提升空间，该领域的其他研究者也有望继续改进技术。”

在GPT-5中，OpenAI采取了诸多措施减少“幻觉”问题，内部评估显示，GPT-5的正确率高于GPT-4。

加州大学伯克利分校计算机科学教授Dawn Song认为：“‘幻觉’可能会引发真正的安全问题。”例如，智能体如果产生幻觉，可能会将恶意代码下载到设备中。

尽管GPT-5在多项基准测试中达到顶尖水平，但HuggingFace公司的AI研究员Clémentine Fourrier认为，基准测试已接近饱和，也就是说，当前模型的表现都很出色。

Clémentine Fourrier打比方说：“所谓基准测试，就像是让高中生解决中等难度的问题。如果失败，能说明一些问题；如果成功，其实说明不了太多。”她举例道，在SWE-Bench测试中，若得分能达到80%或85%，她会感到惊讶，而GPT-5的实际得分只有74.9%。

-END-

（文：头部科技）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

发表评论 取消回复

发表评论取消回复