作者|子川
来源|AI先锋官
时隔两年半,万众期待的GPT-5,终于来了!

根据OpenAI官方介绍:GPT-5是其迄今为止最强的模型,在编码、数学、写作、健康、视觉感知等多个维度都达到了顶尖水准。
值得关注的是,这次GPT-5最大的亮点之一是其“统一智能系统”。
你不再需要手动切换模型,它能根据你的问题,自动判断是该秒速响应,还是启动深度思考模式。
当然,你也可以在提示词里加上一句“think hard about this”来强制开启深度推理。
此外,OpenAI还推出了四种官方预设性格:愤世嫉俗者 (Cynic)、机器人 (Robot)、倾听者 (Listener) 和书呆子 (Nerd)。
你可以随时切换,让AI的沟通风格更合你心意。

更重要的是,和此前奥特曼透露的消息一致,GPT-5 将作为 ChatGPT 的默认模型,面向包括免费用户在内的所有人陆续开放!
-
Pro 用户:可以无限量使用GPT-5,并且能独家访问最强的 GPT-5 Pro 版本(专为解决最复杂问题设计,性能更强)。
-
Plus 用户:使用额度远高于免费用户,日常使用完全够用。
-
免费用户:同样能体验完整的GPT-5,在用量达到上限后,会自动切换到 GPT-5 mini 模型。
在性能数据方面,OpenAI也公布了一大堆跑分,我们挑几个最经典的来看看。
在著名的编程测试 SWE-bench 上,GPT-5的得分为 74.9%,以微弱优势超过了 Claude Opus 4.1 的 74.5%。(就多一点点)。

同时,它的“幻觉”问题也得到了大幅改善,“GPT-5 思考模式”的幻觉率比 o3 减少约六倍。

不仅是幻觉减少了,一本正经地胡说八道的概率也显著下降。
在一个测试中,研究人员删掉了所有图片再向模型提问,老模型有86.7%的概率会“脑补”出根本不存在的画面,而GPT-5的这一比例,骤降到了9%!

同时GPT-5 在人类最后一次考试中的得分再创新高,其中Pro模型得分更是达到了42%,低于Grok 4 Heavy的44.4%。

另外,之前有用户反馈GPT-4o的回答过度附和。
GPT-5专门治了这个毛病,大幅减少了“谄媚”(sycophancy)回复,官方数据显示,特定场景下的谄媚回复率从14.5%直接砍到了6%以下。
此次OpenAI一共放出4个版本,分别是:GPT-5、GPT-5 mini、GPT-5 nano 以及 Chat 专用版。
价格相比此前的模型更便宜,GPT-5的输入为1.25$/M,输出为10$/M。

最后,再看看OpenAI官方放出的几个实测案例,一起感受一下GPT-5的性能。
使用GPT-5制作的滚球闯关小游戏,可以控制小球跳跳跳进行闯关。
可以进行写作的像素格子游戏。
架子鼓小游戏,可以用鼠标或键盘敲击并发出不同的声音。
以及一个可视化工具,并且支持随意切换颜色。
用户@Ethan Mollick使用GPT-5搞一个程序化粗野主义建筑生成器,让我能拖拽、花式编辑楼体。
用户@黄赟用 GPT 4.1, kimi-k2, GPT 5, claude 4.1 opus, gemini 2.5 pro做了一组F1赛车动画进行对比。
并表示GPT-5 超领先第二名 Claude 1分钟左右,且对 f1 赛车理解最到位,有明显的被超车,加速,猛超车的动作。
用户@justin用GPT-5和Claude Opus 4.1同时制作了“3d 水豚宠物动物园”
GPT-5:
Claude Opus 4.1:

最后给大家分享一个直播小插曲,如果大家细看直播,会发现下面这张图,52.8>69.1(笑鼠)。
面对GPT-5的发布,马斯克表示:不服!!!
晒出了Grok 4在ARC-AGI上击败了GPT-5的榜单,同时表示今年年底将推出Grok 5。

写到最后,不禁想到GPT-5的诞生就是一部活脱脱的难产史。
从2023 年 12 月,OpenAI 内部代号为 Orion 的项目爆出,被定为 GPT-5。
再到今天的发布,整整20个月,它终于是诞生了,也庆幸它生出来了。
一个更智能、更强大、幻觉更少的模型。
也
(文:AI先锋官)