作者|毕乐天
来源|AI先锋官
如果你没有时间看,没关系,我制作了播客,在听的过程你可以忙些自己的事情

你最近肯定被GPT-5的消息刷屏了吧?

各种泄露、各种爆料。
OpenAI的CEO山姆·奥特曼(Sam Altman)更是亲自下场,把气氛烘托到了极致。
最近的一个播客节目中,奥特曼说,测试GPT-5的时候,自己被“吓到了”。
甚至,这让他想起了“曼哈顿计划”。
他喃喃自语:“我们都干了些什么?”
他还说,感觉现在就像“屋里没有一个大人”,技术发展快到要失控了。
有一次,一个他自己都搞不懂的难题,GPT-5“唰”一下就解决了,让他感觉自己“毫无用处”。
听起来,这哪是发布新产品,简直是要放出什么吓人的怪物。
但一份来自外媒《The Information》的深度爆料,又给GPT-5泼来一盆冷水。
报道说,GPT-5会有实质性进步,但绝不是从GPT-3到GPT-4那种“量子飞跃”。
据两位参与开发的内部人士透露,当 OpenAI 的研究人员将这款新 AI 转化为一个名为 o3 的聊天版本,以便响应 ChatGPT 用户的指令时,公司此前公布的性能增益基本上烟消云散了。
这一事件恰恰是 OpenAI 今年以来所面临技术挑战的一个缩影,这些挑战不仅威胁着其 AI 技术的进步速度,甚至可能影响其轰动一时的 ChatGPT 业务。
不过,其研究人员已经找到了通过在全行业兴起的技术来保持 AI 进步的方法。
据使用过或熟悉该公司内部评估的人士透露,OpenAI 目前即将发布其下一代旗舰 AI 模型 GPT-5。该模型在完成实用的计算机编程和数学任务等方面,相较于现有模型有了显著提升。
例如,其中一位知情人士表示,当新模型编写应用程序代码时,它能更好地添加功能,使应用更易于使用、界面也更美观。
这位人士还说,GPT-5 在驱动 AI 智能体(AI agent)方面也比其前辈更胜一筹,这些 AI 智能体能在极少的人工监督下处理复杂任务。 例如,它能遵循复杂的指令,比如根据一系列规则来判断自动化客服 AI 智能体何时应该批准退款。
这位人士补充道,以前的模型需要通过学习多个棘手的客户案例(即所谓的“边缘案例”)才能处理这类退款请求。
其中一位知情人士表示,**这次的改进将无法与早期 GPT 系列模型之间的性能飞跃相提并论,比如 2020 年的 GPT-3 到 2023 年的 GPT-4 之间的巨大提升。**OpenAI 在过去 12 个月里经历的性能增益放缓表明,至少在 AI 能力方面,该公司可能难以大幅领先其最大的竞争对手。
然而,OpenAI 当前的模型通过驱动聊天机器人和其他应用程序已经创造了巨大的商业价值,因此任何改进,哪怕是渐进式的,都将增加客户需求。这些改进也可能给新投资者带来信心,支持该公司在未来三年半内烧掉 450 亿美元的计划,用于租赁昂贵的服务器来开发和运行其产品。

这真是个有趣的现象

为什么奥特曼觉得内部模型强到“吓人”,而我们平时用的ChatGPT却感觉时好时坏,甚至有点“人工智障”?
因为OpenAI内部的那个超级模型,我们可以称之为 “教师模型”。它是个不折不扣的天才,用自己独特的、非人类的方式思考,极其强大。
例如,o3的“教师模型”被投入了更多的英伟达芯片,并被赋予了上网查资料、翻代码库的能力,使其在理解科学等领域取得了非凡进步。
但当这个“教师模型”要变成我们能用的ChatGPT时,它就必须被“降维”改造成 “学生模型”。
这个过程,就像你让一个诺贝尔物理学奖得主(教师),用30秒的短视频(学生),给小学生解释什么是量子力学。
他能解释,但那些深邃的思想、复杂的逻辑,全都在这个过程中被压缩、被简化,甚至被扭曲了。
爆料指出,当研究人员将强大的o3教师模型转化为聊天版本时,其性能增益显著下降,表现并不比前代o1好多少。
原因就是模型独特的思考方式,很难用人类语言完美转述,而且OpenAI也没有足够重视训练它如何与人类顺畅沟通。
说了这么多问题,难道GPT-5就没啥盼头了?当然不是。正是因为遇到了瓶颈,才逼出了真正的创新。

它的进步,体现在从“更大”到“更巧”。

1. 更聪明的“管家”GPT-5学会了智能分配“脑力”。
2. 它能判断任务的复杂程度,简单问题快速回答,节省算力;复杂问题则投入更多资源深度思考。在不大幅增加计算消耗的情况下,输出更高质量的答案。
3. 程序员的超级外挂GPT-5把宝押在了自动化编程上。
4. 无论是主模型还是迷你版,代码能力都有巨大提升。它能生成更清晰、功能更丰富的代码,处理各种棘手的边缘案例,甚至让生成的应用界面更美观易用。这不仅对企业客户是刚需,还能解放OpenAI自己的研究员,让他们用AI来开发AI,形成加速循环。
5. 秘密武器:“通用验证器”。
6. 这可能是OpenAI真正的王牌。他们内部搞了一个叫 “通用验证器”(universal verifier) 的东西。
简单说,就是让一个AI去检查和批改另一个AI的作业。 比如,一个AI生成了答案,另一个AI就去网上查资料、翻代码库,验证这个答案对不对,然后打分。高质量的答案会被留下来,作为新的“合成数据”或“教材”,再去训练模型。 这就厉害了。这意味着OpenAI建起了一座 无限生成高质量数据的工厂,从根本上摆脱了对外部数据的依赖。更关键的是,这种验证不仅适用于编程、数学等有标准答案的领域,还能验证创意写作这类主观内容的质量。

有必要回头来看下 gpt-5的难产过程

去年下半年,OpenAI花了大半年时间,秘密研发一个代号为 “Orion”(猎户座) 的模型,这本该是原定的GPT-5。结果呢?性能拉胯,远没达到预期。
失败的核心原因很致命:高质量的训练数据被“榨干”了。同时,研究人员发现,很多在小模型上有效的调整,一旦放大到Orion的规模就失效了。
最终,Orion项目只能被灰溜溜地降级成 GPT-4.5,悄悄上线,没激起半点水花。
在Orion失败后,OpenAI并未停滞。2023年末一项名为 Q* (Q-Star) 的技术突破曾一度让内部研究员感到震惊,因为它能解决从未见过的数学问题。基于此,OpenAI开发了新的“推理模型”,即 o系列(o1, o3)。这些模型在投入更多算力思考时,表现会更出色。

瓜吃到这里,我们该怎么看?

* 放平心态,别被忽悠。AI圈的“泼冷水大王”加里·马库斯早就预言过:GPT-5依然会犯低级错误,依然会有“幻觉”问题,离真正的通用人工智能(AGI)还远着呢。
* GPT-5到底是什么?它不是神,也不是通往AGI的终极钥匙。它是一个在重重困难和内部混乱中诞生的、更成熟、更实用、更高效的工具。
它的诞生标志着AI发展的一个转折点:靠堆数据、堆算力的“莽荒时代”可能要结束了。
一个更注重效率、更注重实用、更注重内部挖潜的 “精耕细作时代” 正在到来。
所以,对我们普通人来说,与其天天盼着“天网”降临,不如关注一下,这个越来越聪明的工具,又能帮我们解决哪些实际问题了。
(文:AI先锋官)