GPT-5 的秘密武器:Universal Verifiers

OpenAI正在通过一种名为「Universal Verifier」的技术,让GPT-5在全领域实现稳步提升。

翻译过来就是:通用验证器。

这项技术的核心思想是:让一个AI 模型充当「验证者」,检查另一个模型的输出质量。

简单,而优雅。

据The Information的最新报道,OpenAI在开发GPT-5的过程中遭遇了前所未有的技术挑战。

去年下半年,代号为Orion的模型本应成为GPT-5,但其性能提升远低于预期,最终只能以GPT-4.5的身份发布。

原因在于三大技术瓶颈同时出现:高质量训练数据枯竭、强化学习过程不稳定、模型扩展时的性能退化。

更糟糕的是,当研究人员将表现出色的o3推理模型转换为普通聊天使用时,性能提升几乎消失不见。

一位参与开发的工程师透露,原因在于模型的内部「思考」方式与人类语言存在根本差异——

强制它用人类语言表达,就像让爱因斯坦用幼儿园词汇解释相对论一样困难。

为了突破这些限制,OpenAI开发了Universal Verifier系统。

这个系统的工作原理类似于生成对抗网络(GAN):一个模型负责生成答案,另一个模型负责评判质量。

OpenAI此前的论文「Prover-Verifier Games Improve Legibility of LLM Outputs」详细展示了这种方法的威力。

论文中,当时的超级对齐研究团队设计了一个巧妙的游戏:

证明者」模型被赋予两种角色:「helpful」(提供正确答案)和「sneaky」(故意制造错误)。

验证者」模型则需要学会识别哪些答案是正确的。

通过多轮对抗训练,两个模型都得到了不断进化:

最关键的发现是:经过训练的模型不仅答案更准确,解题过程也变得更加清晰易懂。

论文中的例子展示了惊人的效果提升

初始阶段,模型的解题过程充斥着晦涩的数学符号和跳跃性推理。经过5轮训练后,每个计算步骤都被清晰标注,比如<<3*3=9>>这样的中间结果都会明确列出。

这种改进对人类验证者同样有效。

实验显示,时间有限的人类评判者在检查经过训练的模型输出时,准确率从初始的约75%提升到超过85%,所需时间也大幅缩短。

而Universal Verifier不仅适用于数学问题,更重要的是它提供了一种通用方法来提升AI在各种「难以验证」任务上的表现。

上上周,值OpenAI 模型拿下IMO 金牌分数之际,OpenAI研究员Noam Brown在社交媒体上透露,这项技术是「通用目的」的,能让大语言模型在各种困难任务上表现更好。

这或也暗示OpenAI 在编程和数学领域看到的进步,很快就就会在新模型中扩展到商业决策、创意写作等更「主观」的领域。

包括马斯克一直想要的幽默,马斯克曾说:

「幽默感才是衡量智能的真正标准!数学是逻辑,而幽默感是魔法。」

这很好理解,你可以花钱买到任何数学问题的解答,但买不到真正的幽默感。

而原因在于数学有着绝对标准的答案,易于通过RL 的方式来模型错误中得到学习并不断提升。

而幽默与否,则看笑点高低,且见仁见智了。

Universal Verifier的意义也正是在于:

它不是简单地提高正确率,而是让AI 学会以人类能够理解和验证的方式展现其推理过程。

The Information报道称,使用Universal Verifier训练的GPT-5在编程任务上表现尤为出色。

它不仅能完成功能性代码,还能主动添加用户界面优化和美观设计,这些恰恰也是最难以量化评判的「主观」改进。

更为重要的是,GPT-5在执行复杂AI Agent任务时表现出色。

比如处理客服退款这样的边缘案例,以前的模型需要大量示例才能学会,现在只需要简单的规则说明就能正确执行。

从技术角度看,Universal Verifier解决了强化学习中的一个核心难题:如何在缺乏明确评判标准的情况下持续改进。

传统的强化学习依赖于清晰的奖励信号——

在围棋中,赢就是赢,输就是输。

但在创意写作或商业分析中,什么才是「」的答案?

Universal Verifier通过让AI模型相互评判,创造了一个自我改进的闭环系统。

但随着Meta挖走了十几位参与Universal Verifier开发的OpenAI研究员,这项技术很可能会在整个行业快速扩散。

而同一时刻,Google、xAI等竞争对手都在加倍投入强化学习研究,当然,还有虎视眈眈的一众开源模型们。

虽然Sam Altman在播客中宣称「GPT-5在几乎所有方面都比我们聪明」后,有内部评估显示,GPT-5的进步更多是渐进式的,而非GPT-3到GPT-4那样的飞跃。

但在内部Slack上的抱怨团队重组带来压力的OpenAI研究主管,Jerry Tworek,则仍然坚信:

强化学习系统本身就是AGI。




[1]

论文链接: https://arxiv.org/abs/2407.13692

[2]

The Information: https://www.theinformation.com/articles/universal-verifiers-openais-secret-weapon

[3]

The Information: https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5


(文:AGI Hunt)

发表评论