GPT-5 的秘密武器：Universal Verifiers

OpenAI正在通过一种名为「Universal Verifier」的技术，让GPT-5在全领域实现稳步提升。

翻译过来就是：通用验证器。

这项技术的核心思想是：让一个AI 模型充当「验证者」，检查另一个模型的输出质量。

简单，而优雅。

据The Information的最新报道，OpenAI在开发GPT-5的过程中遭遇了前所未有的技术挑战。

去年下半年，代号为Orion的模型本应成为GPT-5，但其性能提升远低于预期，最终只能以GPT-4.5的身份发布。

原因在于三大技术瓶颈同时出现：高质量训练数据枯竭、强化学习过程不稳定、模型扩展时的性能退化。

更糟糕的是，当研究人员将表现出色的o3推理模型转换为普通聊天使用时，性能提升几乎消失不见。

一位参与开发的工程师透露，原因在于模型的内部「思考」方式与人类语言存在根本差异——

强制它用人类语言表达，就像让爱因斯坦用幼儿园词汇解释相对论一样困难。

为了突破这些限制，OpenAI开发了Universal Verifier系统。

这个系统的工作原理类似于生成对抗网络（GAN）：一个模型负责生成答案，另一个模型负责评判质量。

OpenAI此前的论文「Prover-Verifier Games Improve Legibility of LLM Outputs」详细展示了这种方法的威力。

论文中，当时的超级对齐研究团队设计了一个巧妙的游戏：

「证明者」模型被赋予两种角色：「helpful」（提供正确答案）和「sneaky」（故意制造错误）。

「验证者」模型则需要学会识别哪些答案是正确的。

通过多轮对抗训练，两个模型都得到了不断进化：

最关键的发现是：经过训练的模型不仅答案更准确，解题过程也变得更加清晰易懂。

论文中的例子展示了惊人的效果提升：

初始阶段，模型的解题过程充斥着晦涩的数学符号和跳跃性推理。经过5轮训练后，每个计算步骤都被清晰标注，比如<<3*3=9>>这样的中间结果都会明确列出。

这种改进对人类验证者同样有效。

实验显示，时间有限的人类评判者在检查经过训练的模型输出时，准确率从初始的约75%提升到超过85%，所需时间也大幅缩短。

而Universal Verifier不仅适用于数学问题，更重要的是它提供了一种通用方法来提升AI在各种「难以验证」任务上的表现。

上上周，值OpenAI 模型拿下IMO 金牌分数之际，OpenAI研究员Noam Brown在社交媒体上透露，这项技术是「通用目的」的，能让大语言模型在各种困难任务上表现更好。

这或也暗示OpenAI 在编程和数学领域看到的进步，很快就就会在新模型中扩展到商业决策、创意写作等更「主观」的领域。

包括马斯克一直想要的幽默，马斯克曾说：

「幽默感才是衡量智能的真正标准！数学是逻辑，而幽默感是魔法。」

这很好理解，你可以花钱买到任何数学问题的解答，但买不到真正的幽默感。

而原因在于数学有着绝对标准的答案，易于通过RL 的方式来模型错误中得到学习并不断提升。

而幽默与否，则看笑点高低，且见仁见智了。

Universal Verifier的意义也正是在于：

它不是简单地提高正确率，而是让AI 学会以人类能够理解和验证的方式展现其推理过程。

The Information报道称，使用Universal Verifier训练的GPT-5在编程任务上表现尤为出色。

它不仅能完成功能性代码，还能主动添加用户界面优化和美观设计，这些恰恰也是最难以量化评判的「主观」改进。

更为重要的是，GPT-5在执行复杂AI Agent任务时表现出色。

比如处理客服退款这样的边缘案例，以前的模型需要大量示例才能学会，现在只需要简单的规则说明就能正确执行。

从技术角度看，Universal Verifier解决了强化学习中的一个核心难题：如何在缺乏明确评判标准的情况下持续改进。

传统的强化学习依赖于清晰的奖励信号——

在围棋中，赢就是赢，输就是输。

但在创意写作或商业分析中，什么才是「好」的答案？

Universal Verifier通过让AI模型相互评判，创造了一个自我改进的闭环系统。

但随着Meta挖走了十几位参与Universal Verifier开发的OpenAI研究员，这项技术很可能会在整个行业快速扩散。

而同一时刻，Google、xAI等竞争对手都在加倍投入强化学习研究，当然，还有虎视眈眈的一众开源模型们。

虽然Sam Altman在播客中宣称「GPT-5在几乎所有方面都比我们聪明」后，有内部评估显示，GPT-5的进步更多是渐进式的，而非GPT-3到GPT-4那样的飞跃。

但在内部Slack上的抱怨团队重组带来压力的OpenAI研究主管，Jerry Tworek，则仍然坚信：

强化学习系统本身就是AGI。

[1]

论文链接: https://arxiv.org/abs/2407.13692

[2]

The Information: https://www.theinformation.com/articles/universal-verifiers-openais-secret-weapon

[3]

The Information: https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5

（文：AGI Hunt）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

发表评论 取消回复

发表评论取消回复