GPT-5 最强大的，是编程

据 The Information 报道，OpenAI 的 GPT-5 即将到来，而且早期反馈相当积极。

至少有一位使用过这个未发布版本的人给出了极其正面的评价。

这对 OpenAI 来说是个好消息。

自从去年 11 月OpenAI 在「预训练」阶段使用更多计算资源和数据时遭遇收益递减后，这家 ChatGPT 的创造者就一直承受着压力，需要证明其下一个大型 AI 模型能带来重大突破。

OpenAI 尚未明确 GPT-5 何时会在 ChatGPT 和应用开发者客户中发布。但 CEO Sam Altman 已经开始公开谈论他有多享受使用这个未发布版本：

感到一阵眩晕，然后瘫坐在椅子上。

据一位使用过该模型的人士透露，这个模型旨在实现 Altman 的计划——

将传统的「GPT」品牌大型语言模型与公司的「o」系列推理模型整合到一个模型或聊天界面中。

与 Anthropic 的混合 Claude 模型类似，用户很可能能够控制 GPT-5 对某个问题的「思考」程度，而且模型会根据问题的难度自动开启或关闭推理能力。

所以如果你问它「strawberry」这个词里有多少个「r」，即使你已经指示它要深度思考，它也不会浪费大量计算资源去琢磨这个简单问题。

据这位使用者称，与前几代模型相比，GPT-5 在多个领域都表现出了改进，包括硬科学、在用户浏览器上完成任务以及创意写作。

但最显著的提升出现在软件工程领域，这是大型语言模型越来越有利可图的应用场景。

GPT-5 不仅在学术和竞赛编程问题上表现更好，在现实工程师可能处理的更实际的编程任务上也有提升，比如在充满旧代码的大型复杂代码库中进行修改。

这种细微差别一直是 OpenAI 模型过去的短板，也是竞争对手 Anthropic 能够在许多应用开发者客户中保持领先地位的原因之一。

但OpenAI 充分意识到了这个问题，近几个月一直在努力提升其模型的编码能力。

一位使用过 GPT-5 的人表示，在他们测试的直接对比中，GPT-5 的表现优于 Anthropic 的 Claude Sonnet 4。

不过，这只是一个人的看法——

别忘了Anthropic 还有Claude Opus 4，用过的都知道这两货的区别。

OpenAI 能否自动化更难的编码任务并赢得软件开发者客户的青睐，这对其业务及其竞争对手的业务都有重要影响。Cursor 和其他流行的编码助手每年向 Anthropic 支付数亿美元或更多费用，使用其 Claude 模型为编码应用提供支持。这些钱本可以流向 OpenAI。

此前还有道报道称，OpenAI 的领导层如何将自动化编码，特别是实际编程任务的自动化，视为开发通用人工智能的关键组成部分。

总的来说，GPT-5 的强劲表现对 OpenAI 的芯片供应商 Nvidia、建设数据中心的公司，以及那些对 AI 发展轨迹感到担忧的股权或债务投资者来说似乎都是好消息——

尤其是在关于 OpenAI、Google 和其他公司的 AI 模型开发工作时不时遇到困难的报道之后。

但还有几点需要注意。

我们仍不确定 GPT-5 到底是什么。

它可能是一种路由器，根据问题将查询导向语言模型或推理模型，而不是使用一个能够处理两种类型的新开发的单一模型。

在这种情况下，观察 GPT-5 的性能可能无法帮助我们回答这个问题：

通过在预训练过程中扩大计算和数据规模，我们是否会继续看到显著改进？

事实上，我们已经知道，OpenAI 早期想要最终命名为 GPT-5 的语言模型不够好，其中一个被降级为 GPT-4.5 并逐渐淡出。

可能大部分改进将来自推理模型的进步，而不是传统的语言模型，这意味着它们将发生在后训练阶段，即人类专家参与教导模型新技巧的时候。

即使这是真的，许多研究人员表示他们早就预料到预训练模型的改进会放缓。

他们认为改进 AI 模型的真正机会将来自后训练阶段的强化学习。

这涉及「合成数据」，这用来描述模型如何产生大量对困难问题的可能答案，以及引导它们解决这些问题的人类专家。

值得一提的是，据一位投资者透露，OpenAI 高管告诉投资者，他们相信公司可以通过使用目前驱动其模型的结构（或多或少）达到GPT-8。

[1]

TheInformation: https://www.theinformation.com/articles/openais-gpt-5-shines-coding-tasks

（文：AGI Hunt）