
图片来源:Latent Space
Noam Brown 是 OpenAI 的多智能体研究负责人,也是 AI 战略谈判系统 Cicero 的开发者,通过 AI 反哺自身训练,成为《Diplomacy》世界冠军,并推动“测试时计算”成为下一代 AI 能力的核心范式。本次访谈中,Alessio和SWYX与Noam深入讨论了很多有关多智能体、强化学习和游戏AI 的话题。
Z Highlights
-
我认为辅助工具最终会被超越,理想的辅助工具就是没有辅助工具。我们应该不断提高模型的能力,使它能够在所有领域都表现良好,并且能够在这个评估中取得进展。
-
我认为很多研究人员都在研究推理和强化学习,这并不是关于扩展计算能力,而是关于数据效率,因为感觉我们有大量计算资源,但实际上数据才是限制因素。我们会先遇到数据瓶颈,而不是计算瓶颈。
-
我们不仅仅研究多智能体。多智能体只是我们研究的方向之一。我们还在研究如何大幅扩展模型的推理时间计算能力。现在我们能让模型思考15分钟,那么如何让它们思考数小时甚至数天,解决极其复杂的问题?这是我们正在探索的一个方向。
-
许多现有的方法都非常依赖启发式规则,并没有真正遵循“苦涩教训”中提到的扩展法则和研究方法。
揭秘Cicero:Diplomacy游戏中的AI突破与图灵测试挑战
Alessio:大家好,欢迎来到《Living in Space》播客。我是CIO Decibel的合伙人Alessio,今天我的搭档是小型AI公司SPX的创始人。
SWYX:大家好,大家好!今天我们在假期周一录制节目,有幸邀请到Noam Brown。欢迎你,Noam!很高兴你终于来了。很多人听说过你,你在Lex Friedman播客上分享过你的思考范式,还做过TED演讲。但我想你最近最有趣的成就可能是赢得了世界Diplomacy冠军赛。
Noam:是的。
SWYX:2022年,你开发了Cicero,它达到了人类玩家前10%的水平。我想问的是,自从研究Cicero并亲自玩Diplomacy后,你的游戏方式有何变化?
Noam:当你研究这些游戏时,你需要深入理解游戏,才能调试你的AI。如果AI做出一些极端的事情,比如一些人类玩家不会做的事情,你不确定那是系统的错误还是机器人非常聪明的表现。研究Diplomacy时,我进行了深度钻研,参加比赛,观看大量教程和游戏解说视频。在这个过程中,我提高了自己的水平同时,看着机器人在游戏中的表现,偶尔它会做出一些人类通常不会做的举动,这也让我更好地理解了游戏。2022年底我们发布了Cicero,我仍然觉得这个游戏很吸引人,因此我继续玩它,并在2025年的世界锦标赛中夺冠。
SWYX:人们常问,在类似围棋的“半人马系统”中,人和机器是否一起工作。你在比赛中用了Cicero作为灵感来源吗?
Noam:你是问我在比赛中是否使用了Cicero?答案是没有,但看到AI的玩法并从中获得灵感,确实对我在比赛中的表现有所帮助。
SWYX:现在人们玩Diplomacy时,会不会总是问图灵测试的问题,担心对手是AI?这也是你开始时最担心的事情吗?
Noam:我们在开发Cicero时,情况非常有趣。因为当时我们的语言模型并不够先进,受限于语言模型的质量,有时候机器人会说出一些奇怪的话。99%的时候它的表现是没问题的,但偶尔会说出一些奇怪的事情,比如它会胡说八道。有时候有人会提到之前和机器人说过的内容,机器人却会说:“我不知道你在说什么,我从来没有说过那个。”然后对方可能会说:“你可以翻聊天记录,明明就在上面。”而机器人却回答:“没有。”当发生这些事时,人们就会以为那个人可能是累了,或者喝醉了,或者在开玩笑。大家并没有意识到这可能是机器人在作怪,因为他们并不指望游戏中会有机器人。
我们曾经非常担心,人们一旦发现游戏中有机器人,就会开始时刻留意,试图发现它。如果你在寻找它,当然就容易发现了。所以我认为现在,大家已经知道有机器人在游戏中,应该更容易发现它了。尽管如此,自从2022年以来,语言模型已经有了很大的提升。
SWYX:这确实是对抗性的。
Noam:是的,现在的情况是,像GPT-4和GPT-3这类语言模型已经能够通过图灵测试,所以我认为现在几乎不可能通过提出图灵测试问题来识别出它们。
Alessio:Cicero的语言模型很小,只有27亿参数,对吧?
Noam:是的,它是一个非常小的语言模型。我们在项目的过程中意识到,拥有更大的语言模型确实能带来很大的优势。
Alessio:那么你如何看待今天公众对AI的认知,尤其是在AI安全方面的讨论?你开发的机器人在说服人们方面非常有一套,帮助它赢得了比赛,而现在很多实验室可能不愿意从事这种类型的工作。你如何看待这一点?
Noam:说实话,发布Cicero后,AI安全社区对这项研究非常满意,因为它是一个高度可控的系统。我们通过对Cicero进行特定的动作条件限制,使其具有了很强的可引导性。这样,我们就能够明确地定义和解读它的行为,它并不是像一个语言模型一样不受控制地随意行动,而是有着明确的推理系统,能够引导它与人类的互动。许多研究人员向我表示,他们认为这可能是实现AI安全的一个非常好的途径。
SWYX:关于Diplomacy的最后一个问题,你们是否用O系列模型测试过Diplomacy,是否期望看到更多差异?
Noam:我没有做过。我曾在Twitter上提到过,我认为这会是一个很好的基准测试。我很愿意看到所有领先的AI机器人互相对弈一局Diplomacy,看看谁表现得最好。我了解到,确实有一些人受此启发,正在建立这些基准,并评估模型的表现。据我了解,目前它们的表现还不是很好,但我认为这真的是一个很有趣的基准测试,未来非常值得尝试。
o系列模型深度解析:推理范式如何重塑AI能力边界
SWYX:我们接下来聊聊o系列。我记得刚刚发布了o1的时候,您做了很多宣传,并且做了TED演讲。那么这种氛围和感觉有变化吗?您曾经提到非常期待向化学领域的专家学习,了解他们如何评估o系列模型。从去年年底到现在,您在这方面有什么更新吗?
Noam:我觉得从一开始,发展方向就已经非常明确。自那时起,所有的进展都非常符合我最初的预期。所以说我的看法并没有发生很大的变化。我认为我们会继续看到这个范式迅速发展,这一点即使是今天依然成立。我们看到从o1的预览版到o1正式版,再到o3,持续的进步就是最好的证明。接下来,我们会看到这些模型的能力不断拓展。我们已经开始看到Agentic behavior,而且o3在日常生活中对我来说非常有用,尤其是它能够浏览网页并为我进行有效的研究,这几乎就像是一个迷你版的深度研究助手。总之,我认为这些模型将会变得越来越强大,越来越有用。
Alessio:关于预搜索,您曾在Twitter上提到过,如果需要证明我们可以在无法验证的领域做得很好,深度研究就是一个很好的例子。您能否谈谈是否有些人对这一点理解不足?很多人提到的是,做编程和数学问题相对容易,但在其他领域就不行了。
Noam:我经常被这个问题困扰,包括一些知名的AI研究人员也会问,我们在数学和编程等容易验证的领域看到了这些推理模型的卓越表现,但在成功不那么容易定义的领域,它们能否成功?我对此感到惊讶,因为我们已经发布了深度研究,大家可以亲自试一试,实际上这在没有容易验证的成功标准的领域中表现得相当不错。就像,什么才算是最好的研究报告呢?虽然标准不一,但这些模型在这个领域取得了非常好的成绩。所以,我认为这已经是一个存在的证明,表明这些模型也能在那些没有明确验证奖励的任务中取得成功。
Alessio:但实际上并没有一个绝对错误的答案,而是有一个深度研究质量的谱系对吗?你可以有一个看起来不错的报告,但信息可能比较平淡,也可以有一个非常好的报告。你认为人们在得到结果时是否难以区分其中的差异?
Noam:我的印象是,人们能够分辨出不同报告的质量,尤其是在好报告和差报告之间的区别。虽然这并不是100%完美的,仍然有改进的空间,但我认为,用户能清楚地看到好报告和普通报告之间的差异。
Alessio:这足以支撑后续的迭代,帮助改进模型表现吧?
Noam:我的意思是,如果人们无法分辨输出之间的差异,那么无论你在进步的路上如何攀登,这些模型在有明确成功衡量标准的领域都会变得更好。我认为,成功很难定义的想法并不正确,我认为这些模型甚至可以在成功定义非常困难、有时甚至是主观的领域中表现出色。
SWYX:人们常用“快思考与慢思考”来比喻模型思考方式,作为下一个扩展范式。所有比喻都不完美,但“快思考与慢思考”或“系统一与系统二”在扩展这些模型时,有哪些方面不适用?
Noam:我认为有一点被低估了,就是预训练模型需要具备一定的能力,才能真正受益于额外的思维。这也是为什么推理范式在某个时点开始出现。我认为它本可以更早开始,但如果你试图在GPT-2这样的模型上应用推理范式,几乎不会得到什么好结果。
SWYX:这是否意味着某种行为的涌现?
Noam:很难说是否真的是涌现,但我认为这是很明显的。人们曾尝试用推理链条的方式在小型模型上做实验,结果发现几乎没有效果。然后,随着模型变大,推理性能开始显著提升。我认为,关于这种行为是否涌现,仍然存在很多讨论,但显然,模型的表现存在显著差异。所以,它们并不是两个独立的范式,我认为它们是有关联的,系统一能力的提升能让系统二的推理得以更好地发挥。
SWYX:是的,我也曾尝试过从进化神经学的角度来理解这个问题,类似于在大脑的进化过程中,必须先进化皮层,才能进化其他脑区。也许我们现在正经历这样的过程?
Noam:是的,你可以说,这其实并不完全不同于“快思慢想”范式。如果你让一只鸽子思考如何下棋,它显然做不到,不管它思考多少年,它都无法在下棋方面取得突破。所以,也许在人类和动物的大脑中,确实需要先有一定的系统一能力,才能让系统二发挥作用。
SWYX:这同样适用于视觉推理吗?比如,我们现在有了o4mini这样的原生模型,那么o3在地理猜谜方面也非常出色吗?这适用于其他模态吗?
Noam:我认为,证据表明,确实是这样的,但具体问题可能有所不同。有些问题可能不太依赖于系统二的推理。比如地理猜测,我认为这就是一个确实能够从系统二推理中受益的例子。至于图像识别,我猜测可能就不会有太多的系统二推理的收益。
SWYX:因为没有办法直接推理。
Noam:对,正是这样。而我通常举的一个例子是信息检索。比如有人问你某个名人的出生日期,而你无法联网查找,那么你要么知道这个日期,要么就不知道。你可以花时间去思考,或许可以通过推测给出一个大致的年份,但除非你确实知道,否则你是无法得出准确的日期的。
SWYX:但像井字游戏这样的空间推理可能会更好,因为你在游戏中已经拥有所有信息。
Noam:是的,我们看到GPT-4.5在井字棋上表现不错,不能说完美,它能控制棋盘并做出合法移动,但有时也会犯错。如果你需要系统二来使其达到完美,那么可能未来GPT-6仅凭系统一也能做到。我想我们总会知道的。但我认为现在你需要系统二来避免犯错。
Alessio:你认为系统一需要具备哪些要素?显然,它需要对游戏规则有基本理解,但它是否还需要理解游戏的“元规则”,即如何在不同游戏中评估棋子的价值?如何将系统一的泛化能力构建出来,以便系统二能够更好地进行游戏?
Noam:我认为,系统一中包含的信息越多,就越好。就像人类一样,当他们第一次玩象棋这样的游戏时,可能会依赖系统二进行思考。如果你给一个非常聪明的人一个全新的游戏,让他思考如何玩,并给他三周时间,他可能能玩得不错。但确实,通过建立系统一的直觉思维对游戏的理解,会使你变得更加迅速。因此,构建直觉理解对提高效率非常有帮助。
Alessio:我觉得宝可梦的例子很好地说明了系统一如何包含游戏的所有信息,而当你把它放到实际的游戏中时,它仍然需要大量的调整。我在思考我们可以把多少调整融入到系统一中,以便系统二尽可能减少这种调整。这个问题可能就涉及到如何将游戏进行概括。
Noam:是的,我认为这是一个不同的问题。我认为辅助工具最终会被超越。理想的辅助工具就是没有辅助工具。当宝可梦这样的测试出现时,我实际上相当反对用我们的基础模型来评估,因为我觉得如果我们要评估o3在没有辅助工具的情况下能走多远,那就直接评估o3。看看o3在没有任何调整的情况下,能够进行多少游戏。答案是,它做得并不好,但这没关系。我认为,评估中模型表现差也是可以接受的,而不是说:我们需要建立一个很好的调整工具,这样模型就能在这个评估中表现得很好。我的看法是:我们应该不断提高模型的能力,使它能够在所有领域都表现良好,并且能够在这个评估中取得进展。
Alessio:你会把检查移动是否合法这样的功能视为辅助工具,还是将其融入模型中?比如在国际象棋中,模型是直接学习系统一中哪些移动是合法的,还是通过系统二来判断?
Noam:我认为这更多是设计上的选择。对我来说,你应该给模型提供检查移动是否合法的功能,这可以是一个环境中的工具调用选项。如果模型使用了这个工具并发现移动不合法,那么它就会输掉游戏。我不清楚在象棋中如果人类做了非法动作会怎么处理,可能就是不能做这个动作?如果是这种情况,那么我们完全可以设定一个评估标准,把这一点作为模型评估的标准。
SWYX:我认为,也许在研究人员的角度来看,可以将这一点解释为:是否允许进行搜索?DeepMind的一个著名发现是,蒙特卡罗树搜索对他们的帮助并不大。但我认为很多工程师正在尝试搜索,并花费很多计算资源去做,可能这样做并不值得。
Noam:我在这里做了一个区分,像工具调用检查动作是否合法,与实际进行该动作并检查是否合法是不同的。如果工具调用可用,我认为让模型使用这个工具是完全可以接受的。但如果模型做出一个动作,并通过反馈得知这个动作是非法的,然后它再“撤回”这个动作,这是不行的。
SWYX:有些人尝试将第二种类型的行为归类为“测试时计算”。你不会将其归类为测试时计算吧?
Noam:有很多原因说明为什么你不希望依赖这种范式。想象一下,如果有一个机器人,它在现实世界中采取了一些行动,结果破坏了某个东西,你不能说:“算了,我不打算这么做了。”因为它已经被破坏了。所以如果你在模拟环境中看到某个动作会导致破坏,你可以决定不执行这个动作,这是可以接受的,但你不能在现实中做完某个动作后再撤回它。
SWYX:在“快思考与慢思考”这个话题上,我其实有一个答案,就是很多人正在尝试在快速响应模型和长时间思考模型之间添加一个模型路由层,比如Anthropic就明确在这么做。我想问的是,路由器到底是需要像智能模型一样聪明,还是可以像傻瓜模型一样简单,因为它要处理的速度更快呢?
Noam:我认为一个不够聪明的模型也有可能识别出一个问题非常难,它无法解决,然后将这个问题路由给一个更有能力的模型。
SWYX:但它也可能会被欺骗或过于自信。
Noam:确实,这里存在一个权衡。但我想说的是,我认为现在很多人正在构建的东西,最终都会被扩展所取代。所以,我认为像辅助工具就是一个很好的例子,随着推理模型的出现,以前那些为非推理模型设计的大量调用GPT-4或类似模型的Agent系统,就不再需要了。现在,你只需要给推理模型同样的问题,而不需要任何辅助结构,它就能直接给出答案。
当然,人们现在仍在推理模型上构建辅助结构,但在很多情况下,这些辅助结构最终也会被推理模型所取代,模型本身会变得更加有能力。同样,我认为像模型路由这样的东西,我们已经公开表示过,我们希望未来能有一个统一的模型。在那个世界里,你就不需要在模型之上再添加一个路由层了。所以,我认为路由问题最终也会得到解决。
Alessio:就像你把路由器的功能直接融入到模型的权重中一样。
Noam:我不认为会有必要专门为路由器建模,尽管我可能错了。也许有些原因需要根据不同的模型提供者进行路由。但我认为路由器最终会消失。我可以理解目前短期内使用路由器的理由,因为它的确能带来提升。如果你在构建产品,且通过使用路由器得到了好处,那现在就做是值得的。
现在,很多开发人员面临的一个棘手问题是:你得为未来六个月、甚至十二个月的模型发展做规划,而这非常困难,因为这个领域的发展太快了。你不想花六个月的时间构建某个东西,结果在几个月后它就被规模化淘汰了。所以我会鼓励开发人员在构建这些结构时,记住这个领域发展迅速。几个月后就可能发生巨大的变化,这可能需要你彻底修改或放弃这些东西。所以,别花六个月去做一个可能在六个月后就不再需要的东西。
SWYX:这确实很难。每个人都说应该这样做,但没有人给出具体的建议。
模型的数据效率低于人类,算法改进可以提高数据效率
Alessio:说到强化学习微调,你们一个月前刚发布了相关成果。开发者现在应该投入时间在这个上面吗?还是应该等待下一个技术跳跃?
Noam:我认为强化学习微调非常酷,值得探索,因为它能让你根据拥有的数据对模型进行专业化训练。而且,我认为对于开发者来说,这不是一个会突然被扩展所取代的东西。即使未来出现了更强大的模型,你仍然可以用你的数据对它们进行微调。所以,我认为这是一种值得探索的、能够补充模型扩展和增强的方法。
Alessio:那么,现在创建环境和奖励模型是最佳选择吗?人们的问题在于,是应该急于使用强化学习微调(RFT)来优化模型,还是应该先搭建好框架,以便未来更好地进行强化学习微调?
Noam:我认为区别在于,对于强化学习微调,你正在收集的数据对于模型未来的改进也是有用的。所以,即使我们发布了更强大的未来模型,你仍然可以用你的数据对它们进行微调。我认为,这实际上是一个很好的例子,说明你正在构建的东西能够补充模型的扩展和增强,而不是必然会被扩展所取代。
SWYX:最后一个问题,关于Ilya。我记得你在《Sarah and a La》播客中提到过,你几年前和Ilya谈到过关于强化学习、推理和语言模型的话题。你能否推测一下,为什么他当时尝试时没有成功,或者时机不对,而现在时机却成熟了?
Noam:我不认为应该这样表述。他的尝试在很多方面是成功的。对我而言,我在扑克、花火(Hanabi)和Diplomacy等所有这些领域的工作中都发现,让模型在行动之前进行思考,会对性能产生巨大的影响,甚至可以达到数量级的提升。
SWYX:比如提升一万倍?
Noam:是的,比如提升一千到十万倍,相当于一个比原来大一千到十万倍的模型。但在语言模型中,我们并没有看到这种情况,这些模型通常会立即做出回应。然而,有些从事LLM研究的人坚信,只要我们继续扩大预训练规模,我们就能实现超级智能。对此,我持怀疑态度。2021年底,我和Ilya交流时,他问我对AGI的时间线有何看法,这是一个很常见的问题。我告诉他,我认为这其实还很遥远,因为我们需要以一种非常通用的方式解决推理范式的问题。虽然大语言模型非常通用,但它们并没有一个非常通用的推理范式。在解决这个问题之前,它们的能力将受到限制。我们可以将这些模型再扩大几个数量级,它们会变得更强大,但我们不会仅仅通过这种方式实现超级智能。
当然,如果我们有几万亿美元用于训练这些模型,也许可以,但在经济可行的范围内,我们会在达到超级智能之前就遇到瓶颈,除非我们找到一种推理范式。我当时错误地认为,这种推理范式需要很长时间才能被发现,因为这是一个很大的未解决的研究问题。而Ilya同意我的观点,他认为我们需要这种额外的范式,但他觉得也许并不难。我当时并不知道,他和其他人在OpenAI也在思考这个问题,他们一直在研究强化学习,并取得了一些成功。但就像大多数研究一样,你需要不断迭代,尝试不同的想法。随着模型变得更强大、速度更快,实验迭代也变得更容易。我认为他们所做的工作,尽管没有直接导致推理范式的出现,但都是在之前工作的基础上逐步积累的。所以,他们建立了很多东西,最终促成了这种推理范式的出现。
SWYX:对于听众来说,Noam可以谈论这个话题,但有传言说那个项目被命名为GPT-0。如果你有兴趣,可以搜索一下。我认为曾经有一段时间,大家几乎都全身心投入到这个项目中,但后来什么成果也没有,就放弃了。现在似乎又进入了黄金时代。所以,我试图弄清楚原因,也许只是因为我们有了更智能的基础模型和更好的数据。
Noam:我认为不仅仅是有了更智能的基础模型。我认为我们最终在推理方面取得了很大的成功,但这是一个逐步的过程。在某种程度上,这是一个渐进的过程。一开始有一些迹象表明有希望,然后我们继续尝试,看到了更好的迹象。我认为是在2023年10月或11月,我确信我们看到了非常有力的迹象,这将成为一种范式,而且这将是一件大事。我认为OpenAI做得很好,当他们看到这些迹象时,他们意识到这是什么,并大力投入资源进行扩展。我认为这最终导致了推理模型的出现。
Alessio:在内部有没有争议,尤其是因为OpenAI一直是预训练和扩展的先锋,而你却说也许这并不是唯一的途径。当时是否所有人都认为这会成功,还是存在争议?
Noam:对于这类问题,总是有不同的观点。我认为有些人觉得预训练就是一切,只要我们无限扩展,就能达到目标。但我觉得OpenAI的很多领导层都认识到,我们需要另一种范式,这就是为什么他们投入了大量研究资源来研究强化学习等方向。我认为这也体现了OpenAI的优点:他们发现了预训练范式,并且非常专注于扩展它。事实上,大部分资源都用于扩展预训练,但他们也认识到,还需要另一种范式,并且值得投入研究资源去探索这种额外的范式是什么。关于这种额外的范式是什么,有很多争论。
我认为很多研究人员都在研究推理和强化学习,这并不是关于扩展计算能力,而是关于数据效率,因为感觉我们有大量计算资源,但实际上数据才是限制因素。我们会先遇到数据瓶颈,而不是计算瓶颈。所以,我们如何让这些算法更高效地利用数据?它们确实提高了数据效率。但我也认为,这就像扩展计算能力一样,也能带来巨大的提升。关于这一点,有很多争论。即使在我们看到推理的迹象后,也有很多争论关于其重要性,比如我们应该投入多少资源来扩展这种范式。特别是在像2023年那样的小公司,OpenAI当时还没有像今天这么大,计算资源也比现在更有限。如果你要投入资源去研究一个方向,那就会以牺牲其他方向为代价。所以,当你看到这些关于推理的积极迹象时,如果你决定投入大量资源去扩展它,这些资源从哪里来?这是一个艰难的决定,会让人不高兴。我认为当时有很多争论,关于是否过于关注这种范式,它是否真的很重要,是否能够广泛应用于各种场景。
我记得有一个有趣的事情,我曾和一个在我们发现推理范式后离开OpenAI的人交谈,那是在我们宣布o1之前。他后来去了一个竞争实验室,我在我们宣布o1之后又见到了他。他告诉我,当时他真的不认为这个推理范式,也就是o系列模型,有那么重要。他认为我们夸大了它的价值。但当他看到我们宣布o1后,他所在实验室的同事们反应强烈,意识到这是一个大事,于是他们改变了整个研究方向。
SWYX:天哪!
Noam:很多事情在事后看来似乎显而易见,但在当时并不那么明显,很难准确判断某件事的价值。
Alessio:OpenAI似乎总是能做出正确的选择。我觉得GPT模型有点类似,最初是从游戏强化学习开始的,然后他们意识到也许可以扩展这些语言模型。我对OpenAI的领导力以及他们不断提出这些深刻见解的研究主题印象深刻。
Noam:回顾过去,现在看起来似乎很明显,这些模型通过扩展就能变得更好,所以应该大力扩展它们。但最好的研究往往在事后看起来很明显,而在当时却并非如此。
SWYX:关于数据效率,这是我非常感兴趣的话题。我们的当前学习方法仍然非常低效,不是吗?与人类存在的证明相比,人类只需要五个样本就能学会某件事,而机器可能需要尝试200个数据点。有没有人在数据效率方面做出有趣的尝试?或者你认为机器学习中存在一种根本的低效,将永远无法与人类相比?
Noam:我认为这是一个很好的观点。如果我们将这些模型的训练数据量与人类获取相同性能所需的数据量进行比较,虽然很难准确比较,因为我不知道婴儿在成长过程中到底吸收了多少语言单位,但可以肯定地说,这些模型的数据效率低于人类。我认为这是一个尚未解决的研究问题,而且可能是最重要的未解决研究问题之一。
SWYX:也许这比算法改进更重要,因为我们可以从现有的数据集中增加数据的供应,而人类……
Noam:我认为有几个观点。首先,答案可能在于算法改进,也许算法改进确实可以提高数据效率。其次,人类的学习不仅仅来自于阅读互联网上的内容。我认为从互联网上的数据学习是最简单的,但我不认为这就是数据收集的极限。
SWYX:在我们转换话题之前,关于Ilya,你有没有其他有趣的轶事或见解,因为和他一起工作过的人并不多,我们很难找到这样的人来交流。
Noam:我认为他给我留下最深刻印象的是他的远见。尤其是当我加入时,看到OpenAI内部的文件,了解到他在2021年、2022年甚至更早的时候就已经对这些事情有了清晰的的思考,我非常佩服他的远见。
SWYX:他2016年和2017年的一些电子邮件被公开了,当时他们正在创办OpenAI。甚至在那时,他就提到一个大的实验比100个小实验更有价值。这是他们与谷歌大脑的核心区别之一。他似乎比其他人看得更清楚,我很好奇他的思维方式是什么样的。我们如何培养出像他这样的人,又如何提升自己的思维方式以更好地模仿他?
Noam:我认为这是真的,OpenAI的一个巨大成功是押注于扩展范式。这有点奇怪,因为当时他们并不是最大的实验室,扩展对他们来说并不容易。当时更常见的做法是进行许多小型实验,更偏向学术风格。人们试图找出各种算法改进,而OpenAI很早就押注于大规模实验。
SWYX:我们曾经采访过David Wan,他在GPT-1和GPT-2时期是OpenAI的副总裁。他谈到谷歌和OpenAI的区别,基本上就是谷歌无法推出一个大规模模型的原因。谷歌的结构使得他们无法集中资源进行大规模实验,而OpenAI的结构则更适合这种模式。
Noam:我认为这是真的,OpenAI的运作方式与传统大学或研究实验室不同,它更像是一个初创公司。这种以构建AGI和超级智能为目标的使命,帮助他们组织起来,协作,集中资源,并做出艰难的资源分配决策。许多其他实验室现在也在尝试采用类似的方式。
从Codex编程到虚拟助手,尝试过推理模型的人都会爱上它
Alessio:让我们来谈谈这些模型的一个杀手级应用场景,至少在我看来是这样,那就是编程。你们最近发布了Codex,但我很想知道关于Codex编程栈的细节,你们使用了哪些模型,以及如何与它们交互。
SWYX:WindSurf。
Noam:最近我一直在使用WindSurf和Codex,尤其是Codex,我用得很多。这真的很有意思,你只需要给它一个任务,它就会去执行,五分钟后回来给你一个Pull Request。
SWYX:这是你的核心研究任务,还是只是你不太关心的次要任务?
Noam:我不会说这是次要任务。我认为基本上任何我原本会自己编写代码的任务,我都会先尝试用Codex来完成。
SWYX:对你来说,这当然是免费的。但如果对每个人都是免费的,情况就不一样了。
Noam:我认为部分原因是这是我完成任务的最有效方式,同时,使用这些技术也让我能够体验并了解它们的局限性。这有助于我更好地理解这些模型的边界,以及我们接下来需要努力的方向。
SWYX:你有没有感受到AGI的存在?
Noam:我已经多次感受到AGI的存在了。
SWYX:人们应该如何像你一样推动Codex的发展?我认为你比其他人更早看到这些,因为你离它更近。
Noam:我认为任何人都可以使用Codex并感受到AGI的存在。这有点搞笑,因为当你真正体验到AGI时,你会很快习惯它。所以,你会很快对它的不足之处感到不满。比如,我曾经回看Sora刚发布时的视频,当时它刚出来的时候,就像最大的新闻一样,非常神奇,就像AGI真的出现了。但如果你现在再看,你会觉得它有点不自然,人物的动作不够流畅,还有一些不一致的地方。这些缺点在它刚出来时你并没有注意到,但现在你会看到。不过,我认为很酷的是,因为技术发展得很快,每隔几个月你就会再次感受到那种AGI的神奇时刻。总会有新的东西出现,让你再次感到惊叹,然后又很快习惯。
SWYX:你有没有一些关于WindSurf的专业建议,因为你已经深入使用它了?
Noam:我认为让我惊讶的是,还有很多人不知道o3的存在。我每天都使用它,它基本上取代了谷歌搜索。我一直在用它,甚至在编程时,我也倾向于使用推理模型。我的建议是,如果人们还没有尝试过推理模型,那么真的值得一试,因为那些使用过的人,都非常喜欢它。当然,更多的人使用的是GPT-4的默认版本,比如在ChatGPT上。我认为推理模型值得尝试,人们可能会对其能力感到惊讶。
SWYX:我每天都在使用WindSurf,但他们还没有将其作为默认选项,我总是需要手动输入o3。然后它才会提示说“是的,这个功能存在”。我觉得我的问题是,推理过程需要很长时间,而且很难真正进入流程。
Noam:我认为这是事实。Codex的一个优势在于,你可以给它一个相对独立的任务,它会去执行,然后在10分钟后返回结果。如果你将它用作类似辅助编程的工具,那么使用GPT-4.1这样的模型可能更合适。
Alessio:你觉得在开发周期中,哪些部分是最需要改进的?在我看来,是代码审查环节。比如,我经常使用Codex,然后收到一堆拉取请求,但很难一一审查。你认为人们还可以开发什么工具,以使这一过程更具可扩展性?
Noam:我认为我们确实需要构建更多的工具。这些模型在某些方面仍然非常有限。让我感到沮丧的是,你让它们做一件事,它们花了10分钟,然后你让它们做一件类似的事情,它们又花了10分钟。我曾形容它们像是天才,但这是它们第一天上班。即使是世界上最聪明的人,第一天上班时也不会像你期望的那样有用。所以,如果能让它们积累更多经验,表现得像已经工作了六个月而不是一天,我认为这将使它们更有用。这确实需要我们去构建这种能力。
Alessio:你觉得这主要是因为GPU资源受限吗?以Codex为例,为什么它需要我手动设置环境?如果我让模型为一个仓库创建一个环境设置脚本,我相信它能够做到。但在目前的产品中,我必须自己动手。所以,你觉得如果给这些模型更多的计算资源,它们的表现会更好,还是说目前模型的能力本身就存在根本性限制,仍然需要大量人工干预?
Noam:我认为我们现在处于一个尴尬的阶段。进展非常快,有些事情我们明明可以做到,模型也会变得更好。只是受限于一天只有24小时,进展只能按部就班地推进。我们正在尽可能快地推进一切。我认为o3并不是六个月后技术的终点。
SWYX:我觉得这个问题很有意思。软件开发不仅仅是代码生成,从问题到拉取请求的整个流程,才是典型的开发流程。然后还有WindSurf这种在IDE内部的工具。代码审查是一个很多人还没有解决的问题,甚至有一些初创公司围绕它展开业务。这并不是Codex目前能做的事情,但它可以做到。那么,还有哪些环节是目前限制我们快速迭代软件开发的瓶颈呢?这是一个开放性问题,我不知道是否有答案。关于工具的其他方面,你认为未来会如何发展?明年这个时候,我们会看到哪些模型能够做到目前做不到的事情?
Noam:我认为这不会局限于软件工程。这些模型将能够完成许多远程工作的任务。
SWYX:比如像Upwork这样的自由职业平台。
Noam:对,甚至不仅仅是软件工程。我的想法是,任何从事远程工作的人,都应该熟悉这些技术,了解它们能做什么、不能做什么、擅长什么、不擅长什么,因为我认为这些模型能够完成的任务范围将随着时间推移而不断扩大。
SWYX:我觉得虚拟助手可能是继软件开发之后的下一个应用领域,因为它们最容易被替代。比如,你在菲律宾雇佣一个虚拟助手,让他们帮你查看邮件等。因为这些任务完全可以通过输入和输出来实现。也许OpenAI可以收购一家虚拟助手公司。
Noam:是的,我期待的是,对于虚拟助手这类任务,如果模型能够很好地对齐用户需求,它们可能会比人类更适合这类工作。因为总是存在委托代理问题,当你把任务分配给别人时,他们是否真的按照你希望的方式去完成,并且以最便宜、最快的速度完成。如果有一个AI模型能够真正对齐你的偏好,那么它可能会比人类做得更好。当然,这并不是说它比人类做得更好,而是它更符合你的需求。
SWYX:顺便说一句,我觉得安全、对齐和指令遵循之间存在一种有趣的重叠或同态关系,我很想知道它们在哪些地方会有所不同。
Noam:我认为它们的分歧在于,你想让模型对齐到什么目标。这是一个很难回答的问题。比如,你可以说你想让模型对齐到用户的需求,但如果用户想制造一种病毒来消灭人类的一半呢?
SWYX:这就是安全对齐的问题。
Noam:是的。我认为对齐和安全是相关的,但关键问题是,你到底想让模型对齐到什么目标。
SWYX:是的,有全人类的目标,也有个人目标,以及两者之间的各种目标。
Alessio:那么,这可能涉及到个体智能体。你宣布你将领导OpenAI的多智能体团队。我没有看到太多关于你们工作的公告,也许是我错过了。你能分享一些关于你们正在研究的方向吗?
Noam:目前还没有太多公告。我认为我们正在做一些很酷的事情,未来我们会适时公布一些成果。不过,团队的名字其实有些误导性,因为我们不仅仅研究多智能体。多智能体只是我们研究的方向之一。我们还在研究如何大幅扩展模型的推理时间计算能力。现在我们能让模型思考15分钟,那么如何让它们思考数小时甚至数天,解决极其复杂的问题?这是我们正在探索的一个方向。
多智能体是另一个方向。我认为这里有几个不同的动机。人们常说,在人工智能领域,人类的智能范围非常狭窄,而人工智能将很快赶上并超越人类智能。但我不认为人类智能的范围真的那么狭窄,我认为它非常广泛。如果你比较解剖学上相同的人类,比如史前时代的人类,他们在我们今天认为的智能方面并没有取得太多进展。他们没有把人送上月球,也没有制造半导体或核反应堆。而我们今天做到了,尽管人类在解剖学上并没有变化。那么,区别在哪里?我认为区别在于,数千年来,数十亿人类通过合作和竞争,逐渐建立起文明。我们今天所看到的技术,正是这种文明的产物。类似地,我们今天的人工智能就像是人工智能领域的“原始人”。如果我们能让它们像人类一样,通过数十亿个体在长时间内进行合作和竞争,建立起一种“文明”,那么它们能够创造和回答的问题将远远超出我们今天的人工智能所能达到的范围。
Alessio:你觉得这会类似于Jim Fan的“航海者技能库”理念,即保存这些知识,还是说模型会通过重新训练来获取这些新知识,因为人类已经将它们存储在大脑中了?
Noam:我认为我在这里需要保持一定的模糊性,因为我们还没有准备好宣布具体内容,但我相信在不久的将来我们会有所公布。我会对我们的具体做法保持一定的含糊,但我可以告诉你,我们在多智能体研究的细节和实际操作方式上,与历史上其他地方的做法有很大不同。我在多智能体领域已经很久了,总觉得这个领域在某些方面有些误入歧途,尤其是在研究方法和研究方向上。因此,我们试图以一种非常系统化的方式来研究多智能体。
SWYX:抱歉,我必须问一下,虽然你不能谈论你们正在做的事情,但你能说说什么是误入歧途的?
Noam:我认为许多现有的方法都非常依赖启发式规则,并没有真正遵循“苦涩教训”中提到的扩展和研究方法。
Alessio:好的,这可能是一个不错的切入点。显然,你在扑克领域做了很多出色的工作。随着模型的改进,我曾和一位曾经是扑克高手的朋友聊起过,他说在牌桌上,你可以从小样本中获取很多关于一个人打法的信息。但如今GTO(博弈论最优策略)如此普遍,以至于有时人们忘记了你可以采取利用性打法。你觉得在多智能体和竞争方面,是始终试图找到最优解,还是更多地考虑如何即时利用对手?
Noam:我想你的听众可能不太熟悉扑克术语,所以我先解释一下。很多人认为扑克只是一种靠运气的游戏,但实际上,扑克中有大量的策略。如果你采用正确的策略,你可以在扑克中持续获胜。扑克有两种不同的打法。一种是博弈论最优(GTO)。这意味着你采用一种不可战胜的策略,从期望值来看,你是不可被利用的。这有点像在“石头剪刀布”游戏中,如果你随机且等概率地选择石头、剪刀或布,那么无论对手怎么做,他们都无法利用你,你也不会输。然而,很多人听到这里会认为,这意味着你也不会赢。但在扑克中,如果你采用均衡策略,对手很难找到方法来击败你,他们最终会犯错误,从而让你在长期内获胜。这种胜利可能不会很大,但从长远来看,你确实会获胜。
另一种是利用性扑克打法。其核心在于发现对手打法中的弱点,比如他们可能不够频繁地虚张声势,或者他们太容易对虚张声势弃牌。于是,你开始从博弈论最优的平衡策略(比如有时虚张声势,有时不虚张声势)转变为一种非常不平衡的策略,比如“我将频繁虚张声势,因为这个人每次我虚张声势时都会弃牌”。关键在于,如果你采用这种利用性打法,你也会让自己变得容易被利用。因此,你需要在这两者之间做出平衡:是选择一种防御性的博弈论最优策略,确保你不会输,但可能无法获得最大的收益;还是选择一种更具盈利性的利用性策略,但同时也会暴露出弱点,让对手可以利用并欺骗你。这种平衡无法完美实现。比如在“石头剪刀布”游戏中,如果你注意到对方连续五次出纸,你可能会觉得他们策略上有弱点,于是决定出剪刀来利用他们。但在第六次你出剪刀时,对方却出了石头,你就会输。所以,这种平衡总是存在。
在扑克AI领域,我们曾经开发出非常成功的AI,我在研究生期间研究过扑克AI,并开发出首个超人类的无限注扑克AI。我们的方法是采用博弈论最优策略,这些AI采用这种不可战胜的策略,能够击败世界上最优秀的扑克玩家。但这也意味着它们可以击败世界上最差的玩家。如果它们面对一个弱手,它们可能不会像人类专家那样狠狠地击败他们,因为人类专家知道如何从博弈论最优策略中调整,以利用这些弱手。因此,如何开发出能够利用对手弱点的扑克AI一直是一个未解决的问题,许多人也一直在研究这个方向。我在研究生期间也稍微涉足过这个领域。
从根本上说,AI的样本效率不如人类。我们之前提到,如果人类打扑克,他们能够在十几手牌内就很好地了解对手的强项和弱点,这真的令人印象深刻。而在2010年代中期我们研究扑克AI时,这些AI需要打10000手牌才能很好地分析出对手的打法和弱点。现在,随着技术的进步,这个数字已经有所下降,但样本效率仍然是一个很大的挑战。
有趣的是,在研究完扑克之后,我开始研究Diplomacy游戏,我们之前也提到过。Diplomacy是一个七人谈判游戏。当我们开始研究它时,我采用了非常博弈论的方法,觉得它有点像扑克,需要计算博弈论最优策略,然后按照这个策略去玩,这样你就不会在期望值上输,最终会赢。但实际上,在Diplomacy中,这种方法并不奏效。Diplomacy需要合作与竞争,博弈论最优策略在这种情况下并不适用。你需要更好地理解其他玩家并适应他们。这与扑克中的问题非常相似:如何适应对手。在扑克中,这是为了利用对手的弱点;而在Diplomacy中,这是为了适应其他玩家的风格。比如,如果你坐在一张桌子旁,所有人都在说法语,你不会一直说英语,而是会适应他们,也说法语。这就是我在Diplomacy中意识到的,我们需要从博弈论最优范式转向建模其他玩家、理解他们是谁,然后相应地做出反应。因此,我们在Diplomacy中开发的许多技术实际上是利用性的,但并不是为了利用对手,而是为了适应其他玩家。我认为这些技术也可以用于开发能够利用对手的扑克AI。
Alessio:在我看来,核心问题在于,当你在线玩扑克时,你会有一个抬头显示器,它会告诉你其他玩家的各种统计数据,例如他们在翻牌前的参与度等。但从我的理解来看,许多模型并没有真正利用到牌桌上其他玩家的行为模式。它们只是关注当前的牌局状态,并据此进行决策。
Noam:你说得对。目前的扑克AI模型主要依赖于预先计算好的博弈论最优策略,它们并没有根据牌桌上的其他玩家进行适应性调整。虽然你可以通过一些“小技巧”让它们做出调整,但这些方法并不系统,效果也不够理想。
SWYX:好的,各位研究生听众注意了!如果你对这个方向感兴趣,我认为这是一个非常合理且值得研究的方向,至少可以让你在学术圈崭露头角并发表成果。这场对话还让我想起了一些关于“下一步”的假设,例如在计算能力之外,下一个重要的研究方向可能是“世界模型”。Yan LeCun一直在强调这一点,但目前的LLM虽然有内部的世界模型,但并不是明确地以世界模型的形式存在。
Noam:我认为随着模型规模的扩大,它们确实会形成一个世界模型,并且随着规模的扩大,这个模型会变得更好。所以它们是在隐式地发展一个世界模型。我并不认为需要显式地去构建它,但我也可能错了。
多智能体系统前瞻:自对弈能否解锁超级智能?
SWYX:在处理人或多个智能体时,可能是因为存在非环境的实体,你需要解决关于这些实体的假设,即你可能面对的众多实体类型中的哪一种。
Noam:在多智能体AI社区中,长期以来一直存在一个争论,至今仍未平息:是否需要显式地建模其他智能体,例如其他人?还是可以将它们隐式地建模为环境的一部分?长期以来,我一直认为当然需要显式地建模这些其他智能体,因为它们的行为方式与环境不同。它们会采取行动,具有不可预测性,并且拥有自主性。但随着时间的推移,我的观点发生了变化。我认为如果这些模型足够智能,它们会自然发展出诸如“心理理论”(Theory of Mind)这样的能力,理解其他智能体可以采取行动并拥有动机等。这些模型会随着规模的扩大和行为能力的提升而隐式地发展出这些能力。这就是我目前的观点。
SWYX:所以,我刚才提到的是一种不符合“苦涩教训”(Bitter Lesson)原则的启发式方法,而这种方法最终会被淘汰。
Noam:是的,最终还是要回归到“苦涩教训”上。
SWYX:每次人工智能相关的播客都必须引用它。那么,一个有趣且一致的发现是,关于开放性的研究表明,AI自对弈(self-play)并以竞争性的方式提升自己,比人类训练和指导它们要有效得多。例如AlphaGo和AlphaZero以及其他的例子。你认为这种模式会适用于多智能体系统吗?也就是说,自对弈是否比人类指导更能提升智能体的能力?
Noam:这是一个很好的问题,值得深入探讨。如今,许多人认为自对弈是实现超级智能的下一步,甚至可能是最后一步。如果你观察AlphaGo和AlphaZero的发展轨迹,我们会发现一个类似的模式。首先,AlphaGo的第一步是进行大规模预训练,当时是基于人类的围棋对局数据,对于LLM来说,则是基于大量的互联网数据进行预训练。这可以得到一个强大的模型,但还不足以达到超级人类水平。接下来,在AlphaGo的框架中,第二步是进行大规模推理计算,例如通过蒙特卡洛树搜索MCTS。如今,我们的推理模型也进行了类似的大规模推理计算,这极大地提升了模型的能力。最后,在AlphaGo和AlphaZero中,自对弈让模型通过自我对弈不断学习并逐步提升,从接近人类水平的性能提升到远超人类能力的水平。如今,这些围棋策略已经强大到人类难以理解的程度。同样的情况也出现在国际象棋上。
然而,目前我们还没有在语言模型中实现这一点。因此,很容易让人联想到,只要让这些AI模型相互对弈并从彼此身上学习,它们就会达到超级智能。但挑战在于,围棋是一种两人零和游戏,这种游戏有一个很好的特性:当你进行自对弈时,你会收敛到一个极小极大均衡(minimax equilibrium)。让我先解释一下,在两人零和游戏中,例如国际象棋、围棋,甚至是两人扑克,通常我们追求的是极小极大均衡。这是一种GTO策略,即你所采取的策略可以保证你不会在期望值上输给任何对手。在国际象棋和围棋中,这一点非常明确。有趣的是,当你观察扑克时,情况并不那么明显。在两人零和版本的扑克中,你可以采用GTO极小极大策略,这可以保证你不会输给地球上的任何对手。但正如我之前提到的,你也不会从弱手那里获得最大的收益。如果你采用一种利用性策略,你可能会从弱手那里获得更多的收益。
因此,这里就出现了一个问题:你想要什么?是尽可能多地赚钱,还是保证自己不会输给任何人类对手?所有这些游戏中的AI开发者都选择了极小极大策略,而自对弈恰好会收敛到这种策略。如果这些AI模型相互对弈并从错误中学习,它们最终会收敛到极小极大策略。但一旦你走出两人零和游戏的范畴,比如在Diplomacy中,这种策略就不再有用。如果你在类似数学这样的领域进行自对弈,情况会变得更加复杂。例如,你可能会陷入一个陷阱,即让一个模型提出非常困难的问题,而另一个模型去解决这些问题。这听起来像是一个两人零和游戏,但问题是,你可能会提出一些并不有趣的困难问题,比如让模型进行30位数的乘法运算。虽然这对AI模型来说是一个难题,但这是否真的代表了我们想要的进步呢?其实并不是。因此,当走出两人零和游戏的范畴时,自对弈变成一个更加复杂且微妙的问题。我认为Tim在他的演讲中也提到了类似的观点,即在两人零和游戏之外进行自对弈时,决定你真正优化的目标是什么,存在很多挑战。我的观点是,这就是AlphaGo类比失效的地方。并不是说它完全失效,而是自对弈不会像在AlphaGo中那样简单。
SWYX:那么,新的目标函数是什么呢?
Noam:这是一个很好的问题。我认为这是很多人正在思考的问题。
SWYX:在你最近参加的播客中,你提到你对Sora印象深刻。虽然你并不直接参与Sora的工作,但它毕竟是OpenAI的一部分。对于最近在生成式媒体领域的更新,比如自回归图像生成,你有什么想评论的吗?
Noam:我不参与图像生成的工作,因此我的评论能力有限,但我必须说,我很喜欢它,我认为这非常令人印象深刻。这就像我们在研究推理模型时,会想这些模型将能够完成各种疯狂的任务,比如先进的科学研究、解决复杂的任务和软件工程问题。然后,突然之间,我们又看到了一个全新的维度的进步——现在我们能够生成图像和视频了。这非常有趣,而且也吸引了更多公众的关注,这可能也在推动ChatGPT的订阅计划,这当然是好事。但我认为这有点搞笑,因为我们也在努力研究超级智能。
SWYX:但你可以用它生成一切内容。对我来说,最大的转变是我曾经认为扩散模型已经过时了,因为有自回归生成(autoregressive generation)的存在。去年年底有传言说扩散模型会消失,但显然现在情况并非如此。现在Gemini推出了文本扩散和扩散模型,这又是一个方向。这与自回归和扩散模型的推理有关。我们是否两者都要?还是其中一个会胜出?
Noam:研究的魅力在于,你需要探索不同的方向,而最终哪条路径最有希望,总是不明确的。我认为人们探索不同方向并尝试各种方法是非常有价值的,我们都能从看到哪些方法有效中受益。
Alessio:你曾经攻读过机器人技术硕士学位,我很想听听你对以下问题的看法:OpenAI最近展示的用钢笔旋转技巧的机械臂,这种人形机器人是否是AI的错误发展方向?你认为我们离拥有机器人还有多远?还有,你认为目前有没有什么真正没有被探索但人们应该去做的机器人技术方向?
Noam:多年前我攻读过机器人技术硕士学位。从我的经历来看,首先,我并没有真正接触过太多机器人。虽然我名义上是在一个机器人项目中,但我只是在项目的第一周摆弄了一些乐高机器人,然后很快我就转而研究扑克AI,并且名义上还在机器人硕士项目中。但从与这些机器人学家的互动以及观察他们的研究中,我的收获是,我不愿意从事机器人研究,因为当涉及到物理硬件时,研究周期要慢得多,也痛苦得多。软件的迭代速度要快得多。这就是为什么我们在语言模型和虚拟助手任务上看到了如此多的进展,但在机器人技术上却没有看到太多进展。物理硬件的迭代过程实在是痛苦得多。至于人形机器人,我没有特别强烈的看法,因为这并不是我研究的领域,但我认为非人形机器人也有很大的价值。例如,无人机就是一个很好的例子,它显然很有价值,但它并不是人形的。在很多方面,这其实是好事,因为你并不需要人形机器人来完成这类任务。我认为非人形机器人也能提供很多价值。
Alessio:我最近读了Richard Hamming关于科学和工程的著作,他提到,当出现新的技术变革时,人们往往会试图将旧的工作负载简单地复制到新技术中,而不是真正改变工作方式。当你看到人形机器人在家庭中的视频时,你会觉得人形机器人其实有很多局限性,这些局限性是可以改进的。但我认为人们总是倾向于熟悉的事物。比如,你会在家中放置一个有10只手臂和5条腿的机器人吗?当你早上起床看到它在房间里走动时,你会觉得它很奇怪。所以,我认为人形机器人可能只是一个局部最优解,因为我们觉得它看起来像人类。但我认为,真正适合家庭的最佳形态可能并不是人形。
Noam:如果让我从事产品设计,我肯定做不好,所以我并不是回答这个问题的合适人选。我认为这里有一个问题:是让人形机器人更好,因为它们对我们来说更熟悉,还是让人形机器人更糟,因为它们与我们相似但又不完全相同?我不知道哪一个会让我觉得更奇怪。
SWYX:让我对人形机器人产生一点兴趣的是这样一个观点:既然世界上大部分环境都是为人类设计的,那么如果你想取代人类劳动,你就需要制造人形机器人。我不知道这个观点是否令人信服。
Noam:同样,由于我不在这个领域工作,我没有特别强烈的看法。我倾向于支持非人形机器人。而真正让我倾向于支持非人形机器人的原因是,我听了Physical Intelligence CEO的一些演讲,他解释了为什么他们不追求人形机器人。如果你感兴趣的话,可以去听听。
AI研究者的实战指南:如何跟踪前沿与突破思维局限
SWYX:他们将在我要举办的会议上发言,我非常期待。好的,我们已经问了一些你没有参与的工作。接下来是一些快速问题,用来探索你的观点边界,快速获取一些答案。你是如何保持对研究的跟踪的?顶级行业实验室是如何做到的?你们有什么工具和实践方法?
Noam:这真的很难。我认为很多人有一种误解,认为学术研究是无关紧要的,但事实并非如此。我们确实会关注学术研究。我认为其中一个挑战是,许多学术研究在论文中看起来很有希望,但实际上在大规模应用时并不奏效,甚至无法复制。如果我们发现有趣的论文,我们会尝试在内部复现它们,看看它们是否仍然有效,以及是否能够扩展。但学术研究对我们来说仍然是一个重要的灵感来源。
SWYX:你们会阅读arXiv上的所有内容吗?你们是否有一个特别的流程,还是和我们其他人一样?
Noam:尤其是当有人推荐时,我们有一个内部频道,人们会在那里分享有趣的论文。我认为这是一个很好的来源,因为如果某个更熟悉该领域的人认为某篇论文很有趣,那么我应该去读一读。同样,我也会关注我所在领域中我认为有趣的事情,如果我觉得特别有趣,也许我会分享出来。
SWYX:对我来说,就是通过WhatsApp和Signal群组与研究人员交流,仅此而已。
Noam:是的,因为现在很多人都依赖于像Twitter这样的平台,我认为我们已经到了一个很糟糕的地步,即某项研究需要在社交媒体上引起广泛关注才会受到关注。
SWYX:研究生们也被训练这样做。他们甚至要上相关的课程。
Noam:我确实建议过,因为我曾经指导过研究生,现在我指导的少了,因为我们发表的论文少了。但当我还在FAIR发表论文时,我会告诉和我合作的研究生,你需要在Twitter上发布你的研究成果,并且我们需要讨论一下如何在Twitter上展示这项工作。这是一门真正的艺术,它确实很重要,这有点令人遗憾,但这就是现实。
Alessio:我知道当你参加人工智能扑克竞赛(ACPC)时,你提到人们没有进行搜索,因为他们受到推理时只能使用两颗CPU的限制。你认为今天是否存在类似的情况,阻碍了有趣的研究开展?可能这些研究并不那么受欢迎,无法进入顶级会议,是否存在一些环境上的限制因素?
Noam:绝对存在。我认为一个例子是基准测试。例如,HumanEval这样的基准测试提出了极其困难的问题,但这些问题仍然很容易评分。如果你坚持这种范式,它实际上限制了你可以用来评估模型的任务范围。这种范式非常方便,因为你可以很容易地对模型进行评分,但实际上,我们想要评估模型的许多任务是模糊不清的,不是多项选择题。为这些任务创建基准测试要困难得多,可能也更昂贵。但我认为这些是真正值得研究的方向。
Alessio:这与GPT-4.5这样的高阶模型有关。在某种程度上,模型有一些无法衡量但非常优秀的特质,也许人们并没有关注到。
Noam:我认为有些特质是可以衡量的,但衡量起来要困难得多。我认为许多基准测试都坚持提出那些很容易衡量的难题。
SWYX:假设预训练和扩展范式从发现GPT到扩展到GPT-4大约花了五年时间,我们也给推理计算(test-time compute)五年时间。那么如果推理计算在2030年遇到瓶颈,可能的原因是什么?你可以将预训练推得更远,只是每次迭代都会变得更昂贵。
Noam:我认为我们会看到类似的情况,推理计算会逐渐增加。例如,模型的思考时间从三分钟增加到三小时,再到三天,甚至三周。
SWYX:这会耗尽人类的寿命。
Noam:这里有两点。首先,随着推理计算的增加,成本也会增加。推理计算的规模越大,成本越高,这意味着有一个成本上限。当然,我们也在变得越来越高效。这些模型在思考方式上变得更加高效,它们可以用相同的推理计算量完成更多的任务。我认为这是一个被低估的点:我们不仅仅是在让模型思考更长时间,事实上,如果你看看o3,它在某些问题上比o1预览版本思考时间更长,但这并不是一个巨大的差异,因为它在思考方面本身就变得更好了。当然,你可以扩展推理计算,但只能扩展到一定程度。这就像预训练一样,训练更大、更好的预训练模型变得越来越昂贵。
其次,随着模型思考时间的增加,你会受到实际时间的限制。如果你想要快速迭代实验,当模型能够即时响应时,实验迭代是非常容易的。但如果它们需要三小时才能响应,那就难多了。如果需要三周呢?这意味着你至少需要三周时间来进行评估,然后才能决定下一步实验。尽管在一定程度上可以并行化实验,但很多时候,你需要完成实验并看到结果,才能决定下一步实验。我认为这实际上是支持长周期模型的最强有力的理由,因为模型需要在串行时间上完成这么多任务,我们只能以这样的速度进行迭代。
SWYX:你会如何克服这个瓶颈?
Noam:这是一个挑战,我认为这取决于领域。例如,在药物发现领域,这可能是一个真正的瓶颈。如果你想知道某种东西是否能延长人类寿命,你需要花费很长时间来确定你开发的新药是否真的能延长人类寿命,以及是否会有可怕的副作用。
SWYX:顺便说一下,难道我们到现在还没有完美的人类化学和生物学模型吗?
Noam:我认为这就是问题所在。当然,我要谨慎地说,因为我不是生物学家或化学家,我对这些领域的了解非常有限。我上次上生物课还是在高中十年级。我不认为目前存在完美的人类生物学模拟器,我认为这可能是解决这个问题的一个潜在途径。
SWYX:这应该是我们所有人都应该去研究的头等大事。
Noam:是的,这是我们希望这些推理模型能够帮助我们解决的问题之一。
SWYX:那么,你如何定义预训练、中训练和后训练呢?这些定义都非常模糊,我没有一个很好的答案。这是一个很多人都有的问题,而你所在的OpenAI现在明确招聘中训练方面的人员,每个人都在问,中训练到底是什么?
Noam:我认为中训练介于预训练和后训练之间。它不是后训练,也不是预训练。它是在预训练之后以有趣的方式为模型增加更多内容。
Alessio:现在的预训练模型是否基本上只是一个衍生出其他模型的工具?几乎就像核心的预训练模型不再被直接暴露出来,而是通过中训练成为新的预训练,然后在模型分支出来后进行后训练。
Noam:你永远不会直接与一个纯粹的预训练模型交互。如果你要与模型交互,它会经过中训练和后训练。所以你看到的是最终产品。
SWYX:好吧,你们不允许我们这样做,但我们以前是可以的。
Noam:是的,如果你使用开源模型,你可以直接与原始预训练模型交互。但对于OpenAI的模型来说,它们会经过中训练步骤,然后经过后训练步骤,然后才会发布。它们会变得更加有用。坦率地说,如果你只与预训练模型交互,它将非常难以使用,并且会显得有点“愚蠢”。
SWYX:是的,但它会在奇怪的方式下变得有用,因为当你为聊天进行后训练时,会出现模型坍塌。
Noam:是的,在某些方面,你会希望出现模型坍塌。
SWYX:让它变得有用。我明白了。我们接下来要采访Greg Brockman,你和他交流很多。如果你来问他,你会问他什么?
Noam:我会问Greg什么?我经常有机会问Greg各种问题。所以,你要问Greg什么,才能引发一个有趣的回答,而不是他经常被问到的问题?这是一个他充满热情的话题,或者你只是想听听他的看法。我认为总体来说,值得问一问未来的发展方向。你知道,五年后世界会是什么样子?十年后呢?那些可能的结果分布是什么样的?世界或个人可以做些什么,以帮助推动事情朝着好的结果发展,而不是负面的结果?
SWYX:好吧,这是一个关于对齐的问题。
Noam:我认为人们往往过于关注未来一两年会发生什么,而我认为也值得花些时间思考五年或十年后会发生什么,以及那个世界会是什么样子。
SWYX:他的水晶球可不是万能的。
Noam:当然,他有自己的想法。我认为这值得一探究竟。
SWYX:好的,那么你推荐人们玩什么游戏,尤其是社交游戏?
Noam:我最近一直在玩一款叫《血染钟楼》(Blood on the Clocktower)的游戏。它有点像《黑手党》或《狼人杀》,在旧金山变得非常流行。
SWYX:这是在你家里玩的吗?
Noam:是的。
SWYX:好的,明白了。
Alessio:这有点搞笑,因为我最近和一些人聊天,他们告诉我,以前扑克是风险投资家和科技创始人用来社交的方式,但现在这种趋势正在向《血染钟楼》转移。这就是湾区人们用来建立联系的方式。我听说有一家初创公司甚至举办了一场以《血染钟楼》为主题的招聘活动。
Noam:我想它确实很受欢迎,而且它是一个有趣的游戏。我想,玩这个游戏比玩扑克输掉的钱要少,所以对于那些不擅长这类游戏的人来说,这是一个更好的选择。我认为这是一个有点奇怪的招聘活动,但确实是一个有趣的游戏。
SWYX:什么样的品质会让一个人在游戏中获胜,这是否是一个值得招聘的特质?
Noam:我想你可能会从游戏中看出欺骗和识破欺骗的能力,但这是最好的员工特质吗?我不知道。
复杂游戏的AI挑战:万智牌背后的未解难题与未来突破
Alessio:我最后还有一个话题,那就是《万智牌》(Magic the Gathering)。我们之前谈到了一些游戏,比如国际象棋,它有完美信息;然后是扑克,它有不完美信息,但可能性的范围相对有限,你只有52张牌;然后还有像《万智牌》这样的游戏,它有不完美信息,但可能的选项范围非常大。你有没有想过这种游戏的难度有多大?这些游戏的难度是如何随着信息的复杂性而变化的?
Noam:我很高兴你问到这个问题,因为我对AI在不完美信息游戏方面的研究有很多知识,这是我长期的研究领域,我知道很多相关的内容,但我不太有机会谈论它。我们已经开发出了超人类的无限制德州扑克AI。关于这一点,有趣的是,隐藏信息的数量实际上相当有限,因为在德州扑克中,你只有两张隐藏的牌。所以你可能处于的状态数量是1326种。当然,这会乘以桌上的其他玩家数量。但无论如何,这并不是一个巨大的数字。
这些AI模型的工作方式是,它们会枚举所有可能的状态。如果你玩六人扑克,有五个其他玩家,那么就是5×1326,这就是你可能处于的状态数量。然后,你会为每一种状态分配一个概率,然后将这些概率输入神经网络,从而为每种状态获得相应的行动方案。问题是,当你扩展隐藏可能性的数量,也就是可能的状态数量时,这种方法就会失效。当隐藏状态的数量变得极其庞大时,仍然有一个非常有趣且尚未解决的问题:你该怎么办?例如,如果你转向奥马哈扑克(Omaha Poker),你有四张隐藏的牌,你可以采用一些类似启发式的技巧来减少状态数量,但实际上,这仍然是一个非常困难的问题。如果你转向像《战舰棋》(Battleship)这样的游戏,其中有40个棋子,可能的状态数量接近40的阶乘,那么我们在扑克中使用的现有方法就会完全失效。你需要采用不同的方法来应对。目前,关于如何处理这种复杂情况,有很多活跃的研究正在进行。
对于像《万智牌》这样的游戏,我们在扑克中使用的技术无法直接应用。这是一个非常有趣的研究问题,目前还没有明确的解决方案。我应该指出,当使用像Model 3这样的强化学习方法时,这种问题并不会出现。我的猜测是,如果有人投入足够的精力,他们可能能够开发出一个超人类水平的《万智牌》AI。然而,目前在这个领域仍然有一些未解决的研究问题。但它们是否是最重要的研究问题?我倾向于认为不是。我认为,我们在扑克中使用的搜索技术本身存在局限性。如果你扩展这些技术,也许能让它们在《战舰棋》或《万智牌》中发挥作用,但它们仍然会受到限制。它们无法让你像使用语言模型解决复杂问题那样达到超人类水平。因此,我认为更重要且更令人印象深刻的研究方向是专注于通用推理技术。总有一天,随着我们不断改进这些技术,我们会开发出一个模型,它能够直接在《万智牌》等游戏中达到超人类水平。我认为这才是更具价值和更令人兴奋的研究方向。
Alessio:太棒了,非常感谢你来参加我们的节目。
Noam:不客气,我也很高兴来到这里。
原视频:Scaling Test Time Compute to Multi-Agent Civilizations — Noam Brown, OpenAI
https://www.youtube.com/watch?v=ddd4xjuJTyg
编译:Doris Zhang
请注意,本文编译自文未载明的原始链接,不代表ZPotentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们減邀对未来充满憧慢的您加入我们的社群,与我们共同分享、学习、成长。
(文:Z Potentials)