OpenAI正在通过一种名为「Universal Verifier」的技术,让GPT-5在全领域实现稳步提升。
翻译过来就是:通用验证器。

这项技术的核心思想是:让一个AI 模型充当「验证者」,检查另一个模型的输出质量。
简单,而优雅。
据The Information的最新报道,OpenAI在开发GPT-5的过程中遭遇了前所未有的技术挑战。

去年下半年,代号为Orion的模型本应成为GPT-5,但其性能提升远低于预期,最终只能以GPT-4.5的身份发布。
原因在于三大技术瓶颈同时出现:高质量训练数据枯竭、强化学习过程不稳定、模型扩展时的性能退化。
更糟糕的是,当研究人员将表现出色的o3推理模型转换为普通聊天使用时,性能提升几乎消失不见。
一位参与开发的工程师透露,原因在于模型的内部「思考」方式与人类语言存在根本差异——
强制它用人类语言表达,就像让爱因斯坦用幼儿园词汇解释相对论一样困难。
为了突破这些限制,OpenAI开发了Universal Verifier系统。
这个系统的工作原理类似于生成对抗网络(GAN):一个模型负责生成答案,另一个模型负责评判质量。

OpenAI此前的论文「Prover-Verifier Games Improve Legibility of LLM Outputs」详细展示了这种方法的威力。
论文中,当时的超级对齐研究团队设计了一个巧妙的游戏:
「证明者」模型被赋予两种角色:「helpful」(提供正确答案)和「sneaky」(故意制造错误)。
「验证者」模型则需要学会识别哪些答案是正确的。

通过多轮对抗训练,两个模型都得到了不断进化:

最关键的发现是:经过训练的模型不仅答案更准确,解题过程也变得更加清晰易懂。
论文中的例子展示了惊人的效果提升:
初始阶段,模型的解题过程充斥着晦涩的数学符号和跳跃性推理。经过5轮训练后,每个计算步骤都被清晰标注,比如<<3*3=9>>这样的中间结果都会明确列出。
这种改进对人类验证者同样有效。
实验显示,时间有限的人类评判者在检查经过训练的模型输出时,准确率从初始的约75%提升到超过85%,所需时间也大幅缩短。

而Universal Verifier不仅适用于数学问题,更重要的是它提供了一种通用方法来提升AI在各种「难以验证」任务上的表现。
上上周,值OpenAI 模型拿下IMO 金牌分数之际,OpenAI研究员Noam Brown在社交媒体上透露,这项技术是「通用目的」的,能让大语言模型在各种困难任务上表现更好。

这或也暗示OpenAI 在编程和数学领域看到的进步,很快就就会在新模型中扩展到商业决策、创意写作等更「主观」的领域。
包括马斯克一直想要的幽默,马斯克曾说:
「幽默感才是衡量智能的真正标准!数学是逻辑,而幽默感是魔法。」
这很好理解,你可以花钱买到任何数学问题的解答,但买不到真正的幽默感。
而原因在于数学有着绝对标准的答案,易于通过RL 的方式来模型错误中得到学习并不断提升。
而幽默与否,则看笑点高低,且见仁见智了。
Universal Verifier的意义也正是在于:
它不是简单地提高正确率,而是让AI 学会以人类能够理解和验证的方式展现其推理过程。
The Information报道称,使用Universal Verifier训练的GPT-5在编程任务上表现尤为出色。
它不仅能完成功能性代码,还能主动添加用户界面优化和美观设计,这些恰恰也是最难以量化评判的「主观」改进。

更为重要的是,GPT-5在执行复杂AI Agent任务时表现出色。
比如处理客服退款这样的边缘案例,以前的模型需要大量示例才能学会,现在只需要简单的规则说明就能正确执行。
从技术角度看,Universal Verifier解决了强化学习中的一个核心难题:如何在缺乏明确评判标准的情况下持续改进。
传统的强化学习依赖于清晰的奖励信号——
在围棋中,赢就是赢,输就是输。
但在创意写作或商业分析中,什么才是「好」的答案?

Universal Verifier通过让AI模型相互评判,创造了一个自我改进的闭环系统。
但随着Meta挖走了十几位参与Universal Verifier开发的OpenAI研究员,这项技术很可能会在整个行业快速扩散。
而同一时刻,Google、xAI等竞争对手都在加倍投入强化学习研究,当然,还有虎视眈眈的一众开源模型们。
虽然Sam Altman在播客中宣称「GPT-5在几乎所有方面都比我们聪明」后,有内部评估显示,GPT-5的进步更多是渐进式的,而非GPT-3到GPT-4那样的飞跃。

但在内部Slack上的抱怨团队重组带来压力的OpenAI研究主管,Jerry Tworek,则仍然坚信:
强化学习系统本身就是AGI。
论文链接: https://arxiv.org/abs/2407.13692
[2]The Information: https://www.theinformation.com/articles/universal-verifiers-openais-secret-weapon
[3]The Information: https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5
(文:AGI Hunt)