全网实测案例大全：GPT-5 上线，所有用户免费可用

作者｜子川

来源｜AI先锋官

时隔两年半，万众期待的GPT-5，终于来了！

根据OpenAI官方介绍：GPT-5是其迄今为止最强的模型，在编码、数学、写作、健康、视觉感知等多个维度都达到了顶尖水准。

值得关注的是，这次GPT-5最大的亮点之一是其“统一智能系统”。

你不再需要手动切换模型，它能根据你的问题，自动判断是该秒速响应，还是启动深度思考模式。

当然，你也可以在提示词里加上一句“think hard about this”来强制开启深度推理。

此外，OpenAI还推出了四种官方预设性格：愤世嫉俗者 (Cynic)、机器人 (Robot)、倾听者 (Listener) 和书呆子 (Nerd)。

你可以随时切换，让AI的沟通风格更合你心意。

更重要的是，和此前奥特曼透露的消息一致，GPT-5 将作为 ChatGPT 的默认模型，面向包括免费用户在内的所有人陆续开放！

在性能数据方面，OpenAI也公布了一大堆跑分，我们挑几个最经典的来看看。

在著名的编程测试 SWE-bench 上，GPT-5的得分为 74.9%，以微弱优势超过了 Claude Opus 4.1 的 74.5%。（就多一点点）。

同时，它的“幻觉”问题也得到了大幅改善，“GPT-5 思考模式”的幻觉率比 o3 减少约六倍。

不仅是幻觉减少了，一本正经地胡说八道的概率也显著下降。

在一个测试中，研究人员删掉了所有图片再向模型提问，老模型有86.7%的概率会“脑补”出根本不存在的画面，而GPT-5的这一比例，骤降到了9%！

同时GPT-5 在人类最后一次考试中的得分再创新高，其中Pro模型得分更是达到了42%，低于Grok 4 Heavy的44.4%。

另外，之前有用户反馈GPT-4o的回答过度附和。

GPT-5专门治了这个毛病，大幅减少了“谄媚”（sycophancy）回复，官方数据显示，特定场景下的谄媚回复率从14.5%直接砍到了6%以下。

此次OpenAI一共放出4个版本，分别是：GPT-5、GPT-5 mini、GPT-5 nano 以及 Chat 专用版。

价格相比此前的模型更便宜，GPT-5的输入为1.25$/M,输出为10$/M。

最后，再看看OpenAI官方放出的几个实测案例，一起感受一下GPT-5的性能。

使用GPT-5制作的滚球闯关小游戏，可以控制小球跳跳跳进行闯关。

可以进行写作的像素格子游戏。

架子鼓小游戏，可以用鼠标或键盘敲击并发出不同的声音。

以及一个可视化工具，并且支持随意切换颜色。

大家非常熟悉的行星运行模拟也有。

接水果小游戏。

精美的留言网站。

这是一个可以跳转的二维码生成器。

用户@Ethan Mollick使用GPT-5搞一个程序化粗野主义建筑生成器，让我能拖拽、花式编辑楼体。

用户@黄赟用 GPT 4.1, kimi-k2, GPT 5, claude 4.1 opus, gemini 2.5 pro做了一组F1赛车动画进行对比。

并表示GPT-5 超领先第二名 Claude 1分钟左右，且对 f1 赛车理解最到位，有明显的被超车，加速，猛超车的动作。

用户@justin用GPT-5和Claude Opus 4.1同时制作了“3d 水豚宠物动物园”

GPT-5：

Claude Opus 4.1：

最后给大家分享一个直播小插曲，如果大家细看直播，会发现下面这张图，52.8>69.1（笑鼠）。

面对GPT-5的发布，马斯克表示：不服！！！

晒出了Grok 4在ARC-AGI上击败了GPT-5的榜单，同时表示今年年底将推出Grok 5。

写到最后，不禁想到GPT-5的诞生就是一部活脱脱的难产史。

从2023 年 12 月，OpenAI 内部代号为 Orion 的项目爆出，被定为 GPT-5。

再到今天的发布，整整20个月，它终于是诞生了，也庆幸它生出来了。

一个更智能、更强大、幻觉更少的模型。

也

（文：AI先锋官）