GPT-5 最强大的,是编程

据 The Information 报道,OpenAI 的 GPT-5 即将到来,而且早期反馈相当积极。

至少有一位使用过这个未发布版本的人给出了极其正面的评价。

这对 OpenAI 来说是个好消息。

自从去年 11 月OpenAI 在「预训练」阶段使用更多计算资源和数据时遭遇收益递减后,这家 ChatGPT 的创造者就一直承受着压力,需要证明其下一个大型 AI 模型能带来重大突破。

OpenAI 尚未明确 GPT-5 何时会在 ChatGPT 和应用开发者客户中发布。但 CEO Sam Altman 已经开始公开谈论他有多享受使用这个未发布版本:

感到一阵眩晕,然后瘫坐在椅子上。

据一位使用过该模型的人士透露,这个模型旨在实现 Altman 的计划——

将传统的「GPT」品牌大型语言模型与公司的「o」系列推理模型整合到一个模型或聊天界面中

与 Anthropic 的混合 Claude 模型类似,用户很可能能够控制 GPT-5 对某个问题的「思考」程度,而且模型会根据问题的难度自动开启或关闭推理能力。

所以如果你问它「strawberry」这个词里有多少个「r」,即使你已经指示它要深度思考,它也不会浪费大量计算资源去琢磨这个简单问题。

据这位使用者称,与前几代模型相比,GPT-5 在多个领域都表现出了改进,包括硬科学、在用户浏览器上完成任务以及创意写作

但最显著的提升出现在软件工程领域,这是大型语言模型越来越有利可图的应用场景。

GPT-5 不仅在学术和竞赛编程问题上表现更好,在现实工程师可能处理的更实际的编程任务上也有提升,比如在充满旧代码的大型复杂代码库中进行修改。

这种细微差别一直是 OpenAI 模型过去的短板,也是竞争对手 Anthropic 能够在许多应用开发者客户中保持领先地位的原因之一。

但OpenAI 充分意识到了这个问题,近几个月一直在努力提升其模型的编码能力。

一位使用过 GPT-5 的人表示,在他们测试的直接对比中,GPT-5 的表现优于 Anthropic 的 Claude Sonnet 4。

不过,这只是一个人的看法——

别忘了Anthropic 还有Claude Opus 4,用过的都知道这两货的区别。

OpenAI 能否自动化更难的编码任务并赢得软件开发者客户的青睐,这对其业务及其竞争对手的业务都有重要影响。Cursor 和其他流行的编码助手每年向 Anthropic 支付数亿美元或更多费用,使用其 Claude 模型为编码应用提供支持。这些钱本可以流向 OpenAI。

此前还有道报道称,OpenAI 的领导层如何将自动化编码,特别是实际编程任务的自动化,视为开发通用人工智能的关键组成部分

总的来说,GPT-5 的强劲表现对 OpenAI 的芯片供应商 Nvidia、建设数据中心的公司,以及那些对 AI 发展轨迹感到担忧的股权或债务投资者来说似乎都是好消息——

尤其是在关于 OpenAI、Google 和其他公司的 AI 模型开发工作时不时遇到困难的报道之后。

但还有几点需要注意。

我们仍不确定 GPT-5 到底是什么。

它可能是一种路由器,根据问题将查询导向语言模型或推理模型,而不是使用一个能够处理两种类型的新开发的单一模型。

在这种情况下,观察 GPT-5 的性能可能无法帮助我们回答这个问题:

通过在预训练过程中扩大计算和数据规模,我们是否会继续看到显著改进?

事实上,我们已经知道,OpenAI 早期想要最终命名为 GPT-5 的语言模型不够好,其中一个被降级为 GPT-4.5 并逐渐淡出。

可能大部分改进将来自推理模型的进步,而不是传统的语言模型,这意味着它们将发生在后训练阶段,即人类专家参与教导模型新技巧的时候。

即使这是真的,许多研究人员表示他们早就预料到预训练模型的改进会放缓。

他们认为改进 AI 模型的真正机会将来自后训练阶段的强化学习

这涉及「合成数据」,这用来描述模型如何产生大量对困难问题的可能答案,以及引导它们解决这些问题的人类专家。

值得一提的是,据一位投资者透露,OpenAI 高管告诉投资者,他们相信公司可以通过使用目前驱动其模型的结构(或多或少)达到GPT-8




[1]

TheInformation: https://www.theinformation.com/articles/openais-gpt-5-shines-coding-tasks


(文:AGI Hunt)

发表评论