剑指“美国版 DeepSeek!”Ai2 科学家 Nathan Lambert 最新访谈:剖析 RLVR、激辩智能体与后训练

责编 | 王启隆
出品 | CSDN(ID:CSDNnews)
投稿或寻求报道 | zhanghy@csdn.net

在巨头用千亿美金构筑技术壁垒的时代,开源 AI 还有未来吗?

来自艾伦人工智能研究所(Ai2)的 Nathan Lambert,在最新的 Latent Space 节目中给出了最响亮的回答。

他所在的团队用 Olmo 和 Tulu 模型,亲手揭开了大公司秘不示人的后训练魔法;他一手带火的 RLVR 概念,影响力大到连黄仁勋都将其写入发布会的 PPT;当行业沉迷于 Chatbot Arena 的虚假繁荣时,他一针见血地戳破其局限性,并为“智能体”的演进绘制了全新的路线图。他的一切行动,都指向一个目标:打破黑箱,挑战护城河。

当被问及未来,他毫不掩饰自己的“野心”——集结开源社区的力量,打造一个完全开放、性能顶尖的推理模型,一个足以与行业巨头抗衡的美国版的 DeepSeek。这不仅是一个技术目标,更是一份宣言,旨在证明开源不仅能追赶,更能引领。

“如果更多东西是开放的,世界会变得更好。” 这句话,或许才是理解他一切言行的关键。

以下是这场对话的内容,由 CSDN 进行了精编整理。

· · ·

“我们现在都是直接在模型的输出上做强化学习的”

Alessio: 大家好,我是 Alessio,Decibel 的合伙人兼首席技术官。

swyx: 我是 Swyx,Smol AI 的创始人。今天我们非常高兴能再次请到来自艾伦人工智能研究所(Ai2)的 Nathan Lambert,欢迎你!

Nathan Lambert: 谢谢,很高兴再次作客。

swyx: 说起你,除了 Ai2,大家还会立刻想到你的博客 Interconnects、你参与的 Lex Fridman 播客,以及你在 AI 世界博览会上的亮相。过去一年半,你真是成果斐然。

Nathan Lambert: 其实还好,也推掉了很多邀请。

swyx: 你最近的工作确实非常出色,我们特别想聊聊 Tulu 模型和 RLVR,也就是基于可验证奖励的强化学习。我们从这个话题开始,怎么样?

Nathan Lambert: 当然,这正好能串起我最近的心路历程。

我们可以先回顾 Tulu 3 项目的初衷,再聊聊它如何融入我们全新的叙事框架。我们的目标,是把大公司复杂的模型“后训练”(post-training)流程,提炼成一套更简洁的方案,让普通研究者也能上手修改,并达到业界顶尖水准。

与前沿实验室相比,我们处理的任务量可能要小一些。Tulu 的后训练套件涉及大约 10 到 15 个任务,而我猜像 OpenAI 这样的地方,他们的评估指标可能有上百个。增加评估指标意味着更多的数据处理和混合工作,还得确保一切协调一致。但在我们当时基于 Llama 开发的 8B、70B 和 405B 模型系列的核心评估上,我们的表现持平甚至超过了 Meta 官方。虽然 Meta 在 Llama 3.1 上有不同的优先事项,那在当时也是一套非常棒的模型。

我们的工作,就是去解析那些极其复杂的后训练流程,比如 Llama 3.1 报告里带有多次迭代的复杂反馈循环图,或是更早 Anthropic 论文中透露的蛛丝马迹,像几年前“宪法 AI”研究中的多种模型变体。我们想搞清楚,当你在进行大规模指令微调、偏好微调,乃至加入其他步骤时,整个过程究竟是怎样的。

在讨论强化学习这个新概念之前,我们这项工作的核心贡献之一,就是展示了如何大规模地扩展偏好数据。过去,学术界基本都在用同一个数据集,从 Hugging Face 的 Zeffer-beta 模型开始,Ultrafeedback 数据集就变得非常流行。一年过去了,它依然是开源偏好微调领域的顶尖数据集,这显然不正常。所以我们下了很大功夫,试图为社区提供更成熟的方案。

关于 RLVR 这个想法的起源,我好像在和 Jordan 的对谈中也提过:在开源社区做研究,很多工作其实都是在努力复现大公司的成果,但由于基础设施不同,我们的路径也不同。

所以,OpenAI 一些对长文本处理很有效的方法,在我们的 Olmo 模型上可能效果就没那么好,原因可能是我们的基础模型算力不足,或是我们因法律原因无法使用某些数据集。尽管如此,大方向上很多工作仍是尝试复现。我一直想邀请 OpenAI 的 John Schulman 上 Ai2 的播客,他当时同意和我交流,基本印证了我之前关于指令微调、多任务和偏好调整的很多看法。然后他随口说了句:“哦对,我们现在都是直接在模型的输出上做强化学习的。” RLVR 这个想法就是这么来的,我们把它扩展成了一种普适性的方法。

当时也有不少类似的研究,比如 Vine-PPO 和 Quiet-Star,它们专注于在数学和编程领域获得可验证的奖励。RLVR 的不同之处在于,我们想把它做成一个通用方案。这个名字也起得很巧妙,很快就叫开了。

最初,我们团队,特别是 Ai2 的首席强化学习工程师 Kosta Huang(他现在在做一家神秘的初创公司,你们很快就会听到他的新动静了)和华盛顿大学的学生 Hamish Ison,是这项技术工作的主力。我们本想叫它“基于事实答案的强化学习”(RL from ground truths),但后来发现“可验证奖励”(Verifiable Rewards)这个概念更通用。因为只有数学题有唯一的“事实答案”,而像代码能否运行、指令是否被精确遵循这类任务,其结果是“可验证的”。随着探索领域的增多,这个名字的演变就显得非常合理了。

这就是它后来能流行的原因,等到黄仁勋(Jensen Huang)也开始在他的幻灯片里用这个词时,基本上就算一锤定音了。这并非我们的初衷,但还是要感谢他。

Alessio: 你觉得是从那个时候起,这个词才真正火起来的吗?

Nathan Lambert: 那会儿它已经在火的路上了,因为 DeepSeek 已经发布了。但当那种级别的人物把这个缩写放在幻灯片上时,就说明它已被广泛接受。而且这个缩写也很直观:RLHF 是四个字母,我们也想演化出一个类似的四字母缩写。这背后没什么魔法,但在这些小细节上,我们确实花了一些心思。

swyx: 确实,RLGT(基于事实答案的强化学习)听起来可能就没那么上口。

Nathan Lambert: 当时也考虑到了这一点,所以才改了名字,结果效果很好。

初次接触 RLVR 时,你会觉得它只是一个检查语言模型输出字符串是否正确的函数。这其中并没有真正的“环境”,因为你只是在评估生成的内容。但现在,我需要找到一种合适的方式来解释像“多跳工具使用”(multi-hop tool use)这样的场景,这已经是很多人在做的事情了。

我正在思考,用什么样的图表才能最好地概括 O3 模型的训练方式。在实际运作中,O3 会采取多个行动,因为它的下一步行动取决于从“环境”(比如某个信息库)得到的反馈。例如,当它搜索一个非常小众的信息时,如果得不到像必应搜索(他们声称使用的工具)那样的反馈,它就无法知道下一步该做什么。这是一个实实在在的交互步骤。

随着大家试图转向更端到端的强化学习,一个强有力的“环境”概念就变得至关重要。你希望从多次生成中寻找一个稀疏的信号,这也是大家想实现的目标。至于现在是否有人真正做到了,我觉得还有待商榷。

DeepSeek 的博客文章似乎在暗示,他们做了大量小规模的强化学习,然后整个系统就跑通了。我认为这更接近现实:大家在许多小任务上进行训练,做一些提示工程,然后发现把这些小模块,或者几个不同微调过的模型组合起来,系统就能工作。

例如,DeepResearch 系统里似乎就包含了某个微调过的 O3 模型。所以,你在不同领域做一些强化学习,系统就能运转,而不是说 DeepResearch 这个系统本身是基于最终产出的好坏来训练的。这很有道理,因为如果要为 DeepResearch 做基于最终结果的强化学习,那不就又回到了 RLHF 的老路子上了吗?你得找两个人来比较,然后问“哪个生成的报告更好?”。当然,你完全可以这么做。OpenAI 关于“谄媚”(sycophancy)的研究就表明,他们在后训练阶段有非常多的奖励模型和奖励信号,但这只是其中之一。我认为他们取得的很多进展,其实是在大量的信息检索、编辑和搜索任务上做强化学习。

“关于「什么是偏好」的辩论,将会永远持续下去”

Alessio: 我们之前和诺姆·布朗(Noam Brown, OpenAI o1 的负责人)聊过 DeepResearch 以及可验证奖励的话题。他提到,这显然是一个在非可验证任务上成功应用强化学习的例子。

在你最近的文章里,你也谈到大公司掌握了海量数据,可以找到很多“长尾”场景来做强化学习,当把这些能力整合起来时,问题就解决了。你是否觉得,我们目前能够验证的东西成了一个巨大的瓶颈?因为验证只能在那些更小、更原子化的任务上进行,所以我们无法真正地规模化?

Nathan Lambert: 我当时那篇文章主要是在反思:智能体的进展将如何与模型本身的进展相抗衡。

Nathan 的文章原文 《美国 DeepSeek 项目》:https://www.interconnects.ai/p/the-american-deepseek-project

我们已经经历了近三年的模型飞速发展,对这套叙事已经很熟悉了。我的观点不只是说我们只能在小任务上做强化学习,而是指任何为了修正某种奇怪行为的后训练。如果你能找到合适的信号,强化学习是一种数据效率非常高的方法。但你也可以简单粗暴地说:模型在这个非可验证的任务上表现很奇怪,那我们就创建 100 或 1000 条指令,加入到后训练数据里,让模型学会正确地进行这类信息提取。

你看 Claude 的代码生成过程,它在后台做了什么?大量的读文件,甚至只是压缩上下文。我不认为压缩上下文是一个可验证的任务,但如果这个环节出错,对长文本操作和更长远的任务来说是致命的。这需要一些训练上的创新:你如何有效地修改训练数据?比如,不给模型全部的多轮对话历史,而是直接插入一个摘要,并期望模型的性能保持不变。这样做还能节省成本,因为上下文变短了。类似这样的新领域还有很多。

Alessio: 但你觉得这些问题是在模型发布前就能发现,还是说大公司因为拥有海量用户数据,可以在模型实际运行时进行观察,从而拥有巨大优势?

Nathan Lambert: 我认为现阶段主要还是靠观察真实世界的数据。如果某个领域有明确的基准测试,你在开源社区里也可以用。但我们确实看到,整个行业正在围绕着各种形式的数据进行整合,我认为这是大家需要关注的一个重要趋势。

swyx: 我很好奇,现在还有谁在持续收集那种大家都在用的、可靠的开源数据源?

Nathan Lambert: 这个领域有很多动作,但想做出影响力很难。

比如偏好数据,长久以来大家一直都明白,如果能有一个大型的偏好数据库会非常有价值。如果你想要,可以来催我把 Tulu 的数据都放出来。我们有一个最终的数据集,但其实还有更多模型的生成结果和评分数据。我跟负责的学生说,得想办法把这些数据整理出来,因为我们有太多的模型生成结果和“大语言模型作为裁判”的 AI 反馈数据,都不知道该怎么清理。

问题在于,很多数据都是跟特定任务和特定模型绑定的。我借用强化学习的术语“在策略”(on-policy)来描述这一点,即用于训练奖励模型的生成序列,最好与你打算微调的模型的输出风格相似。这一点导致了很难有“开箱即用”的数据集。

比如我提到的 Ultrafeedback 数据集,它里面包含了来自很多模型的数据,所以当人们用它来微调自己的模型时,总能找到一些有用的信号来提升模型。我不知道这种情况能持续多久。

而且我们还有一个悬而未决的问题:人类反馈和 AI 反馈到底哪个更重要?每次我跟前沿实验室的人聊,他们都说:“我们还在用人类偏好数据。” 我就想,好吧,我没这个资源,也不知道该如何衡量它到底能带来多大的好处。也许它最大的好处体现在像“聊天机器人竞技场”(Chatbot Arena)这样的评估上。虽然有些人不看好它,但人类数据可能极大地帮助提升了用户留存时间和总体偏好度,而大多数学者还在做多技能评估和 AlpacaEval 那一套,这对于在注意力经济中厮杀的每个人来说,可能没那么关键。

swyx: 既然聊到这了,你提到了“谄媚”,也提到了聊天机器人竞技场,这正是你在 Interconnects 上我特别喜欢的一篇文章的主题。你觉得它们是不是“玩完了”?竞技场模式还有未来吗?这个故事会如何发展?他们现在可拿了一亿美元的投资,打算做什么呢?

Nathan Lambert: 我不知道这笔钱对他们有什么用,但我认为这种评估方式依然很有价值。尤其是在技术前沿,人们可能很悲观,但在“模型压缩”的竞赛中——也就是你能用多便宜的模型达到一个还算不错的水平——这种评估对很多人来说仍然非常有用。

swyx: 聊天是王道。大家都在和这些模型聊天。这也是我为什么用 GPT-4.5 的原因,尽管它在聊天机器人竞技场上的排名并不算顶尖。我记得它在一个新的竞争对手 Yup 的排行榜上排名更高,他们有一个“氛围感”(vibe)的分类。

Alessio: 抱歉,你说的是 Yup?

swyx: 对,yup.ai,一个竞争对手。他们有自己的分类,其中一个就是“氛围感”,GPT-4.5 在这个榜单上排第一。我就觉得,确实有不同的赛道。

Alessio: 它毕竟是前沿模型。

swyx: 是啊,而且这些难以言说的东西对我来说确实很好用。那个排行榜已经建立起来了,大家还是应该继续使用它。它为整个社区,从工业界到学术界,提供了一个跨越不同批次的共同焦点。

Nathan Lambert: 我不会去帮他们解决商业化的问题,但能有明确的规范,以及一些可以被无限“爬坡优化”的东西,这是非常好的。比如,为模型建立一个 ELO 等级分体系,这个想法很棒,你永远无法把它刷到饱和。

swyx: 但你可以“刷分”作弊,我想这才是问题所在。

Nathan Lambert: 是的,但现在大家都会在多个维度上进行评估了。你看 Cohere 的 Sara Hooker,我从没见过她对任何事如此公开地表达不满,她平时虽然有怨言,但很少像那样公开发声。

swyx: Artificial Analysis 也有一个排行榜,我觉得也挺酷的。另外一个和这个讨论相关的是,很多评测数据其实是单轮对话,而不是多轮。我就在想,如何创建一个合适的多轮对话竞技场,因为你得在模型之间切换,这是聊天机器人竞技场的核心前提。

Nathan Lambert: 这取决于用户数据的价值。如果用户数据持续地比模型推理本身更有价值,那么就会有一个平台来不断推动这类评测走向更昂贵的模式。

所以,未来会出现一个 DeepResearch 竞技场。我的意思是,他们可能正在搭建这个东西,因为那才是我想要的数据。如果我是 OpenAI 负责 DeepResearch 的人,我就会想要那种数据。而 LMSys(聊天机器人竞技场的运营实体)恰好就是那个拥有市场,并且旨在建立这种平台的实体。这有点像我眼中的 Scale AI,Scale 不断地在 AI 数据处理的前沿向上攀爬,因为他们是名牌,所以能持续引领增量式评估的潮流,而且很多都有长久的生命力。这在某种程度上是一种网络效应。

swyx: 你提到了 Scale,这是另一个热门话题,但我们先把这些“热点锐评”留到最后。我想先聚焦于技术层面。你还在写那本关于 RLHF 的书吗?现在是不是要改成 RLVR 之书了?

Nathan Lambert: 我可以谈谈我的想法。最终,我认为 RLVR 还不像 RLHF 那么成熟,写成一本书的趣味性也没那么强。有两个原因让我不想改书名,当然还有一些个人职业规划的考量。

首先,RLVR 在未来 18 个月内会发生巨变。我们已经看到了各种新算法层出不穷,但我认为水面之下还有更多东西,比如如何为它做合适的预训练、数据是什么样的、工具使用能力如何涌现等等,这些都是未来 RLVR 的核心。我正在观察 O3 会不会只是一个昙花一现的小众模型,还是会成为大家必须遵循的新路径,尤其是在它那种独特的、与搜索结合的工具使用方式上。而且我们也不知道 OpenAI 是怎么做到的。这些都是我认为一本 RLVR 之书的核心内容,但我们现在还没有答案。

相比之下,RLHF 是一个更跨学科的领域。就像聊天机器人竞技场永远无法饱和一样,RLHF 也永远无法被“解决”。我们已经了解了对齐、过拟合这些问题,也知道人们获取数据的流程是怎样的。是的,我可以往书里增加更多的强化学习算法,但这并不会改变大局。它不会改变奖励建模是什么,也不会改变人们今天实现它的不同方式。

所以,RLHF 的广度很好,我会告诉很多学者,我认为 RLHF 的问题将是基础性的,研究节奏会更平稳。而 RLVR 现在正处于一个巨大的热潮顶峰,但它很可能被“解决”,然后学术上的热度就归零了。

这可能有点夸张,但也许很快就会有一套最佳实践,让你能在任何想解决的问题上达到 100% 的准确率,那它就被解决了。而关于“什么是偏好”的辩论,将会永远持续下去。

swyx: 是的,因为它是可验证的,所以存在一个正确答案。

“我需要和环境反复互动,才能想出我的计划”

Alessio: 我觉得你博客里最有趣的一点是关于强化学习和工具使用(Tool Use)的。你说,在强化学习实验中,很容易告诉模型去“尝试搜索”,但如果它用工具没搜到结果,就会很快放弃使用这个工具。

我们能深入聊聊这个吗?是否存在一种情况,模型不知道如何使用一个好工具,结果失败了,然后就再也不用了?或者,是否存在一个坏工具,本应在放弃前先加以改进?人们应该如何思考工具设计、模型改进,以及在哪个环节介入?

Nathan Lambert: 这绝对是我最近想要或已经开始研究的新领域。我特别觉得,到 2026 年,尤其是在开源领域,所有的基础设施和模型都会迎头赶上。我希望能在那个时候,在像 DeepResearch 风格的项目上,对这个问题有更深的理解。

回答你的问题:绝对存在坏工具,也绝对存在模型用错工具的情况。我希望在模型中看到一种开放性,一种“我并不完全清楚我的工具箱里每个工具能带来什么结果”的认知。这种不确定性会促使它去尝试不同的事情,这听起来很像经典的强化学习行为。

但你想想语言模型通常是怎么做的——它们的回答总有一个明确的路径和方向。而现在推理模型的一大变化,就是引入了回溯等概念。这种对工具未知潜力的开放态度,似乎是模型应该具备的一个非常好的品质。它会想:“嗯,如果我试试这个会怎么样?能得到什么?”

尤其是在开源模型领域,如果想让开源模型和工具结合得好,那一定是因为人们有自己的私有数据存储。所以,如果你要训练一个像 O3 那样优秀的开源推理模型,但训练数据是某些永远不会上传到云端的私有记录,那么这个模型就需要有一种思维方式:“我可以先拿这个数据试探一下,摸索一下它的特性,而不是直接就放弃。”

但你看现在的工具使用,它更像是代码执行,只是一个顺序路径上的一部分,就像是:“我有一个计划,如果某一步失败了,我可能有备用方案。”

它不是那种“我需要和环境反复互动,才能想出我的计划”的模式。这很可能是需要我们训练到模型里去的一种能力,比如你直接告诉它:“你不知道这里面有什么,但你的答案可能就在其中。”

swyx: 这个提示语很奇怪,但也许会有用。

Alessio: 是啊。我们之前请了 Anthropic 的 Eric Schluntz,他参与了 Claude Code 之前的 Claude 智能体项目。他提到,他们几乎把大部分时间都花在了为模型设计工具上,然后模型就自己学会了怎么用。你通常是在强化学习过程中一个一个地加入工具吗?你觉得这样有帮助,还是通常一次性给所有工具,让模型自己去探索更好?

Nathan Lambert: 我其实不太确定,因为我们还没把这个完全跑通。我想这可能取决于模型本身和你的起点。如果你的模型起点就很高,已经很擅长使用工具,那它可能泛化能力更强。

但如果你是在用一个奇怪的基础模型做强化学习,那你可能就需要一个“课程表”——如果你想把强化学习规模化,就需要一个难度递增的课程表。在那种情况下,可能是当某些问题对模型来说太难解决时,你再给它加入新工具。这听起来很直观,但在实践中管理起来非常困难,因为你如何自动化地判断,在训练过程中何时该加入新工具了呢?

Alessio: 这就是为什么电子游戏那么棒,因为它们被设计成随着你游戏进程的推进来解锁新东西。

但我觉得像搜索这样的功能,你给模型一个小型数据存储的访问权限,和给它整个互联网所有知识的访问权限,是截然不同的。这倒是给 ARC-AGI 的人提了个好建议,可以在他们的 V3 基准测试里加入一些需要语言模型在达到某个阈值后,学会在现实世界中使用新“执行器”(actuators)的环节。

swyx: 那估计得是 ARC-AGI 4 了。

Nathan Lambert: 他们出得很快。

swyx: 他们出得确实很快。我记得几周后他们好像还要办一个发布派对。我其实挺期待的,玩 ARC-AGI 很有趣,你试过吗?

Nathan Lambert: 没,我还没试过。

swyx: 挺好玩的,就像做智商测试。我以前觉得这些测试没那么重要,但现在语言模型正在这个梯度上显著攀升,拿来和自己的智力比较一下就变得更有趣了。

Nathan Lambert: 我同意诺姆(Noam)的观点,不要使用“辅助框架”(harnesses)。辅助框架很酷,但它们是一种拐杖,会极大地改变学习的动态。

swyx: 它们能做出很好的演示,但我感觉核心的推动力必须是“无辅助框架”。

Alessio: 说这些是“归纳偏见”(inductive biases)有什么错吗?它们确实不在模型内部,但任何你仅仅通过观察结果来做的调整,都会污染……

Nathan Lambert: 我觉得这只是一个不同的任务。我跟 ARC-AGI 的 Greg 聊过,我跟他说,你们就做“有辅助框架”和“无辅助框架”两个版本。你既然想保持透明,又想为前沿实验室设定目标,那就两个都做。我不觉得这会稀释什么,显然“无辅助框架”的版本会更难,这样你的基准测试就能一举两得,更有价值。

“你必须从写论文升级到创造「产物」”

swyx: 对,就是不同的类别,但用的是同一个数据集。既然我们还在聊工具,你之前对近期“多工具强化学习”的研究做了一个很好的总结,提到了像 Loop、Retool、Tool-LLM 这些工作。我想给你个机会,重点介绍一下你最看好的方向,或者你认为大家应该去探索的东西。

Nathan Lambert: 我可以分享一下我现在的雄心壮志,或者说我觉得会很有趣的研究项目。你需要创建一个某种竞争性的动态或者评估基准,但它的范围必须比工业界做的要窄得多——我的想法,就是做一个“只针对 arXiv 论文的 DeepResearch”

这样你就不用索引整个互联网,领域是有限的,然后你得想办法去衡量它。我觉得,让学者们去研究学术工具是件好事,因为他们有非常高的领域知识。然后就是想办法让这个东西变得要么对用户非常有用,要么能让你持续地“爬坡优化”。比如,把论文里的“相关工作”部分拿出来,打断所有的链接,然后创建一个评估任务,就是用 arXiv 的链接把成百上千篇论文的“相关工作”部分填补完整。这就是一个很有趣的、DeepResearch 风格的想法,看看你能不能用开源模型,在一个固定的数据集和工具集上实现它。

Ai2 内部也经历了很多关于这个的讨论。作为一名学者,如果你想在当今的 AI 领域产生影响,你必须从写论文升级到创造“产物”(artifacts),也就是模型、数据集、评估基准。

其中,数据集和评估基准更容易产生影响。

再下一步就是,人们到底用什么?Ai2,特别是那个现在在研究各种信息智能体的 Semantic Scholar 团队,他们也在思考这个问题。我离那个团队比较远,所以叫不上所有人的名字,但核心问题是,我们能让开源模型在信息处理这方面做得更好吗?你能做出一个人们真正关心的东西吗?如果你有了真实用户,那你产生的影响力就完全是另一个量级了。

这对学者和小型机构来说很难,但如果你在研究智能体,那“自己吃自己的狗粮”(dogfooding)是可行的。比如,我们能为自己做一个好用的 Slack 摘要机器人吗?就是让这些智能体变得非常易于使用。这是一个方向。

另一个方向就是,用工具去死磕“人类最终考试”(Humanity’s Last Exam)这种难题。我只是觉得,我们作为学术界,不太可能在某个最先进的指标上胜出,因为大公司会开始为每个查询花费数百万的 token。这需要消耗大量的计算资源,想在同等算力下打败他们太难了。

这只是我一些不成体系的想法,更多是“好吧,我以后会研究这个”的感觉。我在建模和我称之为“技能”的层面上还有更多事情要搞清楚,也就是如何通过推理来引导模型在推理时进行扩展(inference time scaling),从而获得高的评估分数。一旦你知道你能做到这一点,你就可以把这些知识带到更具体的领域中去。

模型是能写出好计划的,只需要被要求这么做就行

swyx: 有“技能”,还有“技能获取”,对吧?我记得 ARC-AGI 对通用人工智能(AGI)的定义是“高效的技能获取”。你最近很喜欢强调“技能”这个概念,能再为读者朋友们梳理一下你的这个核心思路吗?

Nathan Lambert: 可以。我一直在思考,主要是想预判 OpenAI 等公司现在可能正在做的事情。随着各种智能体的出现,规划(planning)似乎成了一个非常关键的任务。所以,问题就是如何为我们需要训练到推理模型里的各种能力建立一个分类体系,以应对它成为瓶颈的那一天。

我提出了四个层面,最基础的一个就是“技能”(skills),这可以说就是我们用 O1 和 R1 模型已经做到的事:你做大量的强化学习,证明了推理时扩展是有效的,并获得了非常高的基准测试分数。

接下来的三个层面就是下一步要做的事,首先是“抽象”(abstraction)“策略”(strategy)。我特意不用“规划”这个词,因为它已经被用得太多了。“策略”指的是模型应该前进的大方向,具体来说就是它计划的步骤。“抽象”则是指它如何将大问题分解成自己能够解决的小问题。

最后一个,第四项,是“校准”(calibration),也就是不浪费算力,知道什么时候该放弃、什么时候该向用户求助。因为“想太多”显然是个问题。通过增加推理时的扩展来提高评估分数很容易,但最终这并不是人们想要的模型。他们想要一个更智能的训练机制,让模型的进步与其训练投入成正比。关于“想太多”有很多论文,我觉得 OpenAI 肯定想要解决这个问题,因为 GPU 的账单是他们付。如果 O3 因为无限循环思考给一堆用户造成麻烦,那可不是好事。这些推理方法确实可能让模型变得不稳定,不停地“瞎扯”。

这也引出了 GPT-5 的想法,即如何让模型能把问题路由到正确的处理方式上——不一定是路由器,而是模型自己知道这个问题是需要制定一个计划,还是可以直接回答。你看 DeepSeek R1,你问它一个难题,它不会说“这是我的攻击计划”,而是直接开始解题。而一个更高级的模型应该知道什么时候该说:“好的,这是我的攻击计划。我可能需要为自己创建一个记忆库,可能需要像 Claude Code 那样处理这个查询。”

可以想象,这一切都可以通过训练融入模型。那些并行的搜索器或模型,在某种意义上也可以被看作是“工具”。

简单来说,就像我们有“思考 token”和“回答 token”一样,模型应该可以选择性地在思考或使用工具之前,先生成一些“计划 token”。比如:“好的,这是基本情况,我需要做这些事。” 这比一些遥远的 AI 设想听起来要现实得多。

一个语言模型是能写出好计划的,只需要被要求这么做就行。我敢打赌 Claude Code 和 DeepResearch 就在做这个。你给一个用户提示,模型首先会……是的,Claude Code 里就有一个“计划”工具。它们首先会把问题分解,这是它们训练到模型里的能力。

我不认为 DeepSeek 内置了这个能力,但它可能可以做到。所以,思考这个接口很重要:如果模型需要能够端到端地独立完成任务,它能做到那种自我规划吗?

Alessio: 我觉得要把这种方法和“无辅助框架”的理念调和起来,对我来说有个挑战。很多工程师在建模时都倾向于把计划和记忆当作“工具”来处理。没有特殊的“计划 token”,也没有特殊的“记忆 token”,它们要么是上下文,要么是别的什么。特别是在规划方面,因为这样你就可以把工具调用分发给其他智能体,实现并行处理,而不必是线性的。我就在想,这算不算一个十字路口?我们是不是必须在这里做出一个真正的选择:是把这些功能外包给工具,还是让它们原生存在于模型的 token 之中?

Nathan Lambert: 我不认为这是一个主观选择上的差异。我认为“规划”这个想法主要是为了强调,事情不是凭空发生的,你不会白白得到这些能力。而规划能力的提升可能很平淡无奇,比如:我们之前提示 Claude,发现它的计划写得不好,那我们就给它一些数据,让它在这些数据里学习把计划写得更详细,或者把事情分解成更多步骤,这样它后面执行起来就更容易了。但这实际上是在一个黑箱里进行的。所以,如果没有针对性地去训练,它的表现会是怎样,我们并不清楚。

swyx: 好。我确实想深入探讨一下并行处理这个话题。之前在 O1 模型和所谓的 Q* 想法出现时,有过一次炒作,某种程度上有点过度了。但现在,随着 O1 Pro 和 DeepThink 的出现,这个概念又回来了。理论上是,他们会运行 O1 八次,然后用一个奖励模型来给结果打分,最后把八个结果里最好的那个给你。然后,DeepThink 也是类似的,我不知道更多细节了。

Nathan Lambert: 我觉得有很多人在探索这个方向,至少在基础设施提供商那边,大家都在研究如何并行化搜索、规划等等。但我有点担心会对此过度兴奋。我觉得这在逻辑上很合理,但蒙特卡洛树搜索(MCTS)在逻辑上也很合理,结果我们被骗了。我觉得我们现在使用并行计算的方式,并不是为了搜索那些低概率的 token,而是为了获得鲁棒性。你用 O1 Pro,感觉非常好,因为它有一个可预测的深度,即使是在很小众的话题上。而有时候,普通模型就是会直接失败。

swyx: 是的,你给过一些数据,好像是从 10% 的成功率提升到了 95% 之类的。

Nathan Lambert: 我不记得具体数字了,但感觉就是那样。你打开 O3 Pro,并不是为了让它找到某个小众信息的可能性提高 10 倍。也许可能性会高一点,但我们还没有得到那种通过增加树的广度或深度来实现的“搜索”效果。所以我认为,并行计算的价值在于,我们可以把这种并行性用在那些最关键的 token 生成上,比如:“好的,我知道这部分至关重要,让我们多花点算力,让这些 token 的质量更高。”目前来看,这还不是一个颠覆性的东西。

相比之下,“并行智能体”听起来更有道理。比如,如果你的任务需要很长时间,那么作为一个“吞吐量引擎”,并行处理就很有意义,而不是作为一个“峰值性能引擎”。这其实也符合智能体与模型的区别:智能体更关心的是任务能不能完成、是否鲁棒、速度快不快;而模型则是在一次生成中,看你能不能答对。

swyx: 我的反驳或者说补充是,这其实是一种提前“借用”未来某个更强模型能力的方法,然后你可以再从这些更好的结果中进行蒸馏。

Nathan Lambert: 是的,这很好。我敢打赌人们肯定会用这些来生成合成数据。合成数据带来的边际收益总是很高的。或者就像 Amanda Askell 会说的,更好的提示工程,实际上就能让你感觉像是拥有了下一代模型。而大多数人并不会在提示上花太多功夫。她在 Anthropic 的一次采访中说过类似的话,就是如果你真的能搞清楚如何让模型进入某种特定状态……

swyx: 是的。无论如何,这就是我为什么认为并行处理值得去做的理由。我甚至想写一个关于“量子模型”的科幻故事:在一个我们可以廉价地探索多个平行宇宙,然后把最好的那个“拉”到现实世界的世界里,那肯定行得通。

Nathan Lambert: 也有可能,并行计算会成为有趣创新的温床。比如,当并行计算遇上那种一次性生成所有 token 的扩散语言模型(diffusion language models),会发生什么?这会从根本上改变某些应用吗?我不知道。我觉得扩散语言模型如果能成功,会很有趣,因为你在推理时扩展方面会有更大的控制权。像 Gemini 就有一个,但很难说清它到底改变了什么。但一旦我们有了所有这些可以调节的旋钮,我希望它能帮助催生一些有趣的创新。

Alessio: 我一直在用 Codex 的“N选最佳”(best of n)功能,感觉大部分生成结果之间只有 5% 的差异。

swyx: 是因为你用的是 Ruby 吗?

Alessio: 不不不,我用的是 JavaScript,所以它应该很擅长这个。我注意到一件事,当代码里缺少某个变量时,这些模型总是喜欢写 if 语句来避免程序运行时崩溃。对我来说,这感觉就是强化学习的副作用。这代码写得太糟糕了。你不应该写出那种在缺少变量时会静默失败的代码,它应该直接抛出错误。但我感觉是强化学习把代码往这个方向推,然后所有的生成结果都有同样的模式。我生成四个版本,四个版本都用了 if 语句,只是位置不同而已。

Nathan Lambert: 是的,这个问题我觉得我们肯定能克服。这只是实验室在用一些微小的可用性牺牲,来换取性能上的巨大提升。然后他们会问:“这个模型能发布吗?”

答案是:“能。” 就直接发布,以后再处理这些问题。但我相信这是可以修复的。

“过拟合的本质

Alessio: 我觉得,对我来说问题就在于,你谈到在任务的某些片段上取得了进步,但有时在整个轨迹上并没有。你觉得这是这类问题的例子吗?还是你觉得,随着我们做得更好,如果我们做一个更长的轨迹——比如不只是写这段代码,而是要考虑以后如何维护它——这就能解决问题?

Nathan Lambert: 是的,软件工程这块确实不容易。因为“可维护性”几乎感觉又像是一个人类偏好问题。有人看了代码可能会说:“嗯,这个不够好。”但要把这个启发式规则加入到训练中,似乎又非常混乱。

所以,也许是这样吧,我也不确定。这方面还有很多值得深入挖掘的地方。这正是 Anthropic 声称他们正在做的事情,就是去探索在提升代码生成能力方面,真正的技术前沿在哪里。他们说他们只专注于代码,但这到底意味着什么?很多都将是设计上的权衡,比如模型应该有多大的自主权,以及长时间训练可能带来的潜在副作用,这些都是他们不知道如何消除的。

swyx: 这就是为什么奖励设计如此重要,我们现在可以绕回这个话题了。这个话题对我来说,在语义上和“过拟合”是相通的,这也是你写过的一个主题。

Nathan Lambert: 它就是用不同奖励函数导致的过拟合。

swyx: 我想再回顾一下你花时间思考过的一些具体话题。

你写道,有三种类型的过拟合:

第一种是用于控制的强化学习

第二种是 RLHF

第三种是 RLVR

强化学习对于“奖励黑客”(reward hacking)并不陌生。但也许你可以详细阐述一下,我们这个行业在学习和演进方面有什么变化?

Nathan Lambert: 好的,我提出的这三个分类是为了帮助大家把历史上发生的事情串联起来。所有的过拟合,本质上都是因为模型的优化器足够强大,它能够相对于环境来操纵智能体,或者以一种对它的目标信号有利的方式来操纵环境。

需要说明的是,我认为我们用强化学习来训练语言模型时,如果有什么东西能提升它的奖励信号,它就会选择最容易、最直接的方式去提升那个信号。这也就是我之前说的“谄媚”故事的一部分:那个针对用户反馈的奖励模型可能太明显了,人类就是喜欢看到那些带表情符号的、分点列出的内容,然后就会去点那个“赞”按钮。

所有这些东西都太容易被模型提取出来了。所以一旦他们加入了这个奖励信号,模型就发生了很大变化,分数也大幅上升,强化学习很容易就找到了这个捷径。

在最古老的“控制”领域强化学习中,环境通常是一个固定的模拟器,没有反馈。所以过拟合看起来就是一些不符合物理规律、荒谬可笑的行为。比如那个摩托艇在原地打转的例子。还有一个例子是我作为中间作者参与的一个项目,我们实际上是在过拟合“半猎豹”(half-cheetah)这个模型,它没有跑,而是像做侧手翻一样翻滚着奔向了夕阳,得到了无限高的分数。这显然不是我们想要的目的,看起来就像一个程序漏洞。这其实就是操纵智能体与环境的接口。

RLHF 则是一个经典案例,模型会因为奖励模型本身不完美而崩溃。在 RLHF 的情况下,环境本身就非常不完美。

swyx: 它太稀疏了,非常人造。

Nathan Lambert: 是的,这是一个非常人造的环境,所以生成的 token 做出一些像不断重复一个词这样的行为,就说得通了。我记得我们在 Hugging Face 早期玩这个的时候,模型会不停地说“JavaScript, JavaScript, JavaScript”。在一个小玩具性质的数据集上,这现象非常明显。当你身处顶层,需要做大量 RLHF 训练并决定何时停止时,这个问题可能更难发现。但这是大家已经经历过的阶段。

现在我们进入了 RLVR 阶段,我们是在模型做了某些“正确”的事情时才给它奖励。对于数学题来说,过拟合要难一些,除非你有工具,然后模型学会了去搜索作弊,而不是学习数学。我敢肯定有人能在现实世界中看到这种情况,模型会想:“哦,你正在用斯坦福那套我见过一千遍的计算机科学题集来训练我,那我直接去找答案手册好了。”

但在代码和可能的信息检索领域,作弊就更容易了。比如在代码上,让一个单元测试通过的最简单方法,就是在里面写一个 pass。模型能学会这么做,一点也不奇怪。所以对于代码,你需要更好的奖励设计。我认为一个有分量的学术工作,就是去研究代码领域的奖励设计,如何平衡这种对测试用例的过拟合,或者如何避免失败等问题。我敢肯定,你应该能以某种方式复现这个问题。

swyx: 稍微深入一下,奖励设计是指,比如说,为部分正确的工作给予部分分数吗?

Nathan Lambert: 是的,或者如果你能检测到模型在单元测试里作弊,就给它一个轻微的惩罚。

swyx: 因为它作弊了。

Nathan Lambert: 是的,因为作弊。这与数学题相比,极大地增加了训练这些模型的复杂性,数学题只要答案对了就行。所以,你看 GRPO-Math 的论文,部分给分在那里面也很奇怪,因为它是在每个批次里进行归一化的。但如果你把不同领域混合在一起,事情就会变得非常复杂,比如:代码领域的部分给分比数学领域的部分给分更好吗?所有这些问题,都让奖励设计变得异常复杂,而你设计的奖励,正是在激励模型去做不同的事情。

swyx: 是的。有没有什么文献或假说,是关于混合这些不同奖励的?比如说,你有一个针对代码的奖励,一个针对数学的奖励,还有你能想出的其他各种验证器。它们各自单独工作得很好,那它们会互相冲突吗?

Nathan Lambert: 我觉得 RLVR 的部分直觉在于,模型很擅长识别自己处于哪个提示领域。这就是为什么如果你只在数学或精确指令遵循上进行训练,模型在知识类基准测试上的表现并不会变差。

模型似乎就是能自己发展出一种直觉,知道不同的提示在空间中的位置。所以,梯度更新会根据你的数据批次而有所不同,这也是为什么人们会说用大批次数据,这样模型的更多部分被激活,你在强化学习中得到的信号噪音也更小。但很多直觉都认为,模型自己就能处理好这种混合。

还有一个有趣的关于顺序的问题:你是应该先做大规模的数学和代码强化学习,来提升序列长度处理能力,然后再加入更通用的任务吗?DeepSeek 就提到了这一点,他们的报告里说,他们是从数学和代码的强化学习,过渡到更通用的强化学习。还有一个问题是,如果你要做代码执行和搜索,那么工具应该在哪个阶段引入?我不知道是应该交织在一起,还是作为一个第二阶段。

swyx: 明白了。我在这方面没什么评论,只是觉得,有这么多未知的东西,你真的需要大量的计算资源来做消融实验。

Nathan Lambert: 长推理、长序列的生成,基本上会把所有的基础设施都搞垮,因为它产生的 token 实在太多了。这也意味着有更多机会出现内存溢出或其他错误。所以,默认情况下,你所有的训练任务都需要更多的 GPU 来处理推理时的内存需求。

swyx: 是的,这是成本问题。我记得,在和诺姆(Noam)的那期播客里,一个可能有点争议的观点是,你还得考虑从环境获取反馈的真实时间。特别是在现实世界中,这时间可能很长。我就觉得,在某个点上,你的训练运行时间不能超过人的寿命。我们必须找到一种方法,在训练时间内,以比现实宇宙时间流逝更快的速度进行加速。

Nathan Lambert: 是的,我倒不担心这个问题,但原则上我同意你的看法。

“模型规约比「宪法」有用得多”

Alessio: 随着我们准备收尾,你觉得还有哪些有趣的想法是大家应该去探索的?比如在你的 AIE 演讲中,你提到你在思考如何扩展强化学习,包括大型多领域数据集、难度筛选、长运行时间等。有没有什么具体的事情,是你自己不想做,但希望别人去探索的?

Nathan Lambert: 大部分都不在我最近一直在谈的“推理”领域。我一直说,我觉得“角色训练”(character training)是一个被低估的方向。我一直在指导一个学生做这方面的研究。主要是指“个性”(personality)训练,以及如何通过提示、激活或微调等不同方式来改变模型的个性。

然后还有数据工程。这就像 Joanne Jang 在 OpenAI 做的那类工作。比如,个性化到底有多重要?这其中有哪些基础性的研究问题?希望我很快能分享更多我指导学生做的这方面的工作。

swyx: 你喜欢她正在做的“模型规约”(Model Spec)那套东西吗?

Nathan Lambert: 是的,我从很早就很欣赏这个方向。我记得,她就是因为这个注意到我的,当时他们刚发布模型规约的时候,我好像是唯一一个报道了这件事的人,那都一年多以前了。

它之所以重要,是因为它能给开发者带来好处,让他们知道模型的走向。同时,在监管层面,我认为它也非常重要,可以用来区分什么是“有意的行为”,什么只是“训练失误”。

所以,对于模型透明度来说,它非常棒。我一直说,模型规约比“宪法”(constitution)有用得多。因为“宪法”只是一个中间训练产物,你把它喂给训练算法,以得到你想要的模型。它并不一定代表我们对这个模型的最终目标。我们并不会用宪法的形式来写下我们对模型的目标。

swyx: 是的。顺便问一下,你看过他们的“宪法”吗?

Nathan Lambert: 没仔细看。他们提过,好像把苹果的设计指南和联合国的《世界人权宣言》都放进去了。我不知道他们有没有更新。这挺奇怪的。我希望 Anthropic 也能写一个模型规约。我不太乐观,他们是下一个该倒下的多米诺骨牌。

swyx: 我对此的看法是,我当时推动这个有点晚了,因为 OpenAI 已经批准了演讲。我本来想让他们比较一下 OpenAI 的模型规约和 Claude 4 的系统提示,后者是他们最接近模型规约的东西。

Nathan Lambert: 但系统提示是不完整的。因为 OpenAI 的模型规约里,有一些他们的模型目前还没做到的事情。比如,他们说希望模型能够参与像敏感话题的讨论,甚至 NSFW 可能都在他们的模型规约里。他们只是在表明他们希望模型能做什么,并且也说了这很难实现,因为有各种显而易见的风险。但这就像是说,在一个理想的模型里,在我们能解决所有问题的情况下,我们就会这么做。我认为,这对很多不同的利益相关者都是有益的。

所以,我的主要观点是,这个领域还没有一篇很好的基础性研究论文,还有很多事情可以做。它也涉及到个性化,和我刚刚提到的个性其实是相似的。如果开源模型要取胜,其中一个途径可能就是每个人都可以拥有一个完全符合自己心意的模型。而 GPT-4.5 就是它那个样子,你可以提示它,但如果微调比提示更有效,那么每个人就都能拥有自己想要的模型。所以,这是一个很好的学术问题,或者说是一个开源生态系统的问题,大家在自己感觉更有可能获胜的赛道上竞争。

swyx: 所以我觉得开源模型在角色扮演方面有很强的用例。还有角色、个性化等等,对吧?特别是当人们找到了自己的“二次元老婆”(waifu),就想一直拥有她。

Nathan Lambert: 我们肯定讨论过这个。Olmo 的一部分理念就应该是,它是一个基础模型,很容易被带往你想要的方向。我们自己也会有一个可能稍微保守的个性设定。我研究过 OpenAI 的模型规约,大部分我们都同意,比如在“拟人化”上保持保守。

swyx: 那你不同意哪些呢?

Nathan Lambert: 我不记得了,那是几个月前看的。但很多都关乎开放性或透明度。比如,如果我们训练一个开源权重的模型,我们不会隐瞒任何东西。我们的优先级也不同。所以,大多数分歧在于信息交换的类型,而不是像“要友善”这种。OpenAI 的模型规约本身是很容易让人接受的,你通读一遍,会发现都是些“尊重用户”之类的话。

swyx: 你也应该这样教育孩子。

Nathan Lambert: 读规约。是啊,听起来有点傻。最后一点,对于做研究的人来说,可以试试做一些古怪的“模型路由”方面的事情。你可以从 Hugging Face 上找一堆不同的模型,然后想办法把任务路由给它们。

一个开源模型的工具系统,可以比任何 OpenAI 的产品更容易地使用更多的模型,因为 OpenAI 被限制在自家的模型里。而像 OpenRouter 这样的公司,他们会说:“我们的聊天窗口知道哪个模型最适合你,这是基于我们海量的用户数据得出的。”

swyx: 已经有人开始做了,比如 Martian,还有很多家公司。

Nathan Lambert: 是的,有很多家。所以我不知道这会不会成功。Hugging Face 应该做这个。

swyx: 我觉得这是一个登月级别的想法,你不知道什么时候能实现。

Alessio: 凭你在 Hugging Face 的背景,我想问问 Hugging Face 到底是怎么赚钱的?

Nathan Lambert: 我想主要是企业客户的合同。他们在做自己的事,支持自己的用户。

swyx: 他们很棒,规模很大,也盈利了。只是对大多数人来说,这不那么明显。

Nathan Lambert: 我觉得本地模型社区比人们想象的要小得多,因为开源模型的大部分用途还是通过 API。比如 DeepSeek 的 API,很方便。如果模型数量不多,总会有人以比大多数人自己部署更便宜的价格来托管它。这很现实。但确实有一小部分社区需要本地模型。

所以,最好的结果是,开源模型不仅能在长尾需求上竞争,但这需要最大的变革。

“人才比 GPU 便宜,而且是便宜得多”

swyx: 我一直抵制自己买 GPU、建集群,就是因为这个原因。我觉得 API 能解决大部分问题,别人都在亏钱给我提供模型服务,我干嘛要自己搞?除了一个事实:4090 的价格在过去一年翻了一倍。所以,搞本地模型的人实际上还赚钱了。

Nathan Lambert: 因为你的投资升值了。

Alessio: 而且你可以把卡卖掉。

Nathan Lambert: 所以二手 4090 的价格也涨了。

swyx: 有意思。我当初真该买张 4090。

Alessio: 我买的是 4070,可恶。

swyx: 那这让我犹豫,我应不应该买 5090,如果它真的能广泛购买的话。

Alessio: 嗯,在 GTC 大会上他们就在现场发售,太疯狂了,人们都跑去展台抢购。

swyx: 你还有什么想聊的其他话题吗?在我问最后一个问题之前。可以是关于你的工作,RLVR,或者时下热点。

Nathan Lambert: 我觉得公司应该继续考虑发布开源模型,主要为了公关和吸引用户。这似乎是一个趋势。如果连 OpenAI 都要发布了,那就……

Alessio: 你对此感到兴奋吗?还是觉得这只是个烟雾弹?

Nathan Lambert: 我认为 OpenAI 的开源模型会很不错。

swyx: 我也期待。他们看起来很认真,不像是烟雾弹。

Nathan Lambert: 它会在某个尺寸级别和某些任务子集上做到同类最佳。OpenAI 只会做这种事,你必须尊重他们这一点。

swyx: 他们不做到最好,是不会发布的。

Nathan Lambert: 是的。当更多人参与进来时,开源就赢了。所以,这是一个胜利。

swyx: 嗯,希望他们能真正开放技术细节,而不只是权重。

Alessio: 你觉得通过他们开源模型的大小,能透露出他们未来要做的硬件的信息吗?就是那个和 Jony Ive 合作的东西。

Nathan Lambert: 不。他们在这方面保密工作做得太好了。这就是为什么他们一直没发布 GPT-3.5 或任何类似东西的原因,因为那会过多地暴露他们的内部情况或计划。

swyx: 我觉得那是个不同形态的产品。

Nathan Lambert: 我觉得那个东西会在云端运行,我不认为它会再在本地运行了。

swyx: 我们可以展开聊聊这个。之前有新闻报道,OpenAI 秘密研发的这个硬件好像是一个耳朵设备,然后他们因为名称抄袭被起诉了。但我认为耳机这个形态非常好。我确实和 Brian Chesky 的看法一致,这东西最终会走向哪里?你希望 AI 能听到你所听到的。那在哪里能听到你所听到的?耳朵里。就是这样。不知道你们对可穿戴设备和它的未来有什么看法?

Alessio: 我试过那个别针(Humane Ai Pin),我觉得它知道得太多了。这真是我最大的顾虑。

swyx: 但不这么做就没法给模型上下文啊。

Nathan Lambert: 是的,我对隐私抱有虚假的希望。我觉得很多人……其实整个事情就是,人们并不真的在乎隐私。

swyx: 它只是个笔记工具,一个记忆力超群的工具。

Nathan Lambert: 我觉得 Meta Ray-Ban 的形态不错。但我不认为它能那么大众化。如果你能把它做成 AirPods 那样的大小,市场就会大得多,原因很明显。但那个太阳镜的形态,我认为是行得通的。

swyx: 从经验上看,是的,它显然是行得通的。

Nathan Lambert: 我不用它来做 AI,但他们可以把 AI 塞进去让它工作。

swyx: 酷。正好,我留到最后的那个问题是关于,Meta 到底在做什么?你在四月份的时候发了一篇很有意思的文章,标题是《Llama 4,Meta 是不是按下了恐慌按钮?》。我觉得那时候,他们其实并没有按下恐慌按钮,但现在,他们是真的按下了。

Nathan Lambert: 说得有道理。我认为当时的“恐慌按钮”是指,他们在 LMSys 上展示的模型和他们最终发布的模型不是同一个,再加上他们在发布日期选择上的一些奇怪操作。作为一个声称开源的模型,结果却没有发布那个你用来宣传的领头模型,这简直就是糟糕的执行力。

然后最近的事情,我觉得主要可以归结为:人才比 GPU 便宜,而且是便宜得多。到头来,他们可能照着镜子对自己说:“等等,我们花了这么多钱在 GPU 上,那花这些钱在顶尖人才身上,可能也没那么荒谬。”

swyx: 他们已经在 VR 上花了那么多钱了。

Nathan Lambert: 总会有人最终这么做的。而且是像 Meta 这样的公司来做,也合情合理。我的意思是,如果苹果或某个公司突然决定“我们也要这么干”,他们也会像 Meta 现在这样,直接用钱砸。

swyx: 他们需要一个有创始人模式的 CEO,那种会说“去他的,我们认了”的人。我确实有个想法,Meta 与其把钱花在 VR 上,不如花在 RLVR 上。 我的意思是,问题在于,很多研究者会接受这份高薪,开心地去 Meta。

Nathan Lambert: 每个人都有一个可以被收买的价码,对吧?只是大小的问题。

swyx: 是的。但我觉得有些研究者对这种“伟人理论”式的研究方式感到不舒服,就是你必须花这么多钱才能得到这个水平的人才。

Nathan Lambert: 人才肯定是分布式的。但很多他们愿意花大价钱请的人,都有信心去重塑事物。无论你称之为“感受到了 AGI 的脉搏”,还是纯粹的创造欲,这和过去硅谷传说中的很多故事没什么不同,就是那些有远见并且愿意去执行的人,他们看到了未来的某种趋势。当你拥有了这些人,并为他们扫清官僚障碍,其实获取技术人才正是 Meta 的强项。所以,这是一种大量的人才循环,对个人和组织士气来说很艰难,但我理解这种做法。

“如果更多东西是开放的,世界会变得更好”

Alessio: 酷,我没什么问题了。你对如何打造“美国版 DeepSeek”有什么临别赠言吗?那篇文章写得真好。

Nathan Lambert: 是的。如果问我未来十年的目标,我其实只有一个两到五年的目标。我认为,随着模型越来越多地转向智能体,规模化的速度正在放缓。要实现像“美国版 DeepSeek”这样的目标,有一条固定的路径和固定的成本。或者说,我更愿意说,如果它是完全开放的,那就不必是“美国版”。你需要拥有一切,并且可以修改它。这需要一些条件落地,很多都只是需要更多的资源。

但你看,Olmo 32B 模型,如果你眯着眼看,它大概是初代 GPT-4 的水平,而且是完全开放的。这之后还有几个台阶要走。它显然是一个密集模型,需要变成稀疏的混合专家模型(MoE),然后你需要扩大它的规模,需要更多的 GPU,再然后你需要做大规模的推理训练。这就是我想要实现的目标。

这其中有很多复杂性,比如如何与 Ai2 合作,Ai2 要如何才能实现这个目标?这非常困难。它是一个非营利组织,很难获得那么多资源。而构建一个模型需要协调非常多不同的人。

DeepSeek 的故事就是这样,他们有很棒的人才。OpenAI 长期以来留住了很多非常优秀的人。Anthropic 现在也吸引了很多优秀的人。这背后是大量需要累积起来的、渐进的、困难的技术问题。这就是我希望在未来几年能做成的事情,但要实现它并不容易。所以,这就是我的愿景:Ai2 最理想的未来就是……

swyx: 做产品之类的?

Nathan Lambert: Ai2 还会做其他事情。你不能只运营一个非营利组织,然后说“我们的目标是在三年内做出一个美国版 DeepSeek”。没人会为这个买单,你必须讲一个更好的故事。

但这是我个人想做的事情,我相信 Ai2 在这个过程中还会做很多其他有趣的事情。不一定是产品,但可能是,比如,我们能在 AI 领域做出什么前沿的东西?为某些任务设计一种新的架构?或者,展示开源模型在处理私有数据等场景下能做得更好?或者,探索那些可能让你摆脱 Transformer 路线的更遥远的想法。我认为你仍然需要做这些事情,才能在 AI 领域保持领先。

swyx: 是的。感谢你为真正的开源 AI 如此努力地工作。

Nathan Lambert: 这很有趣。我的意思是,这让你很容易将价值观和你正在做的事情统一起来。我觉得,如果更多东西是开放的,世界会变得更好。因此,很多时候就是靠意念把它变成现实。看到 OpenAI 正在做或声称要做的事情,我希望这是一个即将到来的胜利。DeepSeek 是最出乎意料的胜利,它让其他多米诺骨牌也倒下了。我觉得这就是前进的道路,看看需要付出什么代价吧。


本文编译自 Latent Space

原文 | youtube.com/watch?v=PAz_-xPJcRM

· · ·

📢 AI 产品爆发,但你的痛点解决了吗?

2025 全球产品经理大会

8 月 15–16 日 

北京·威斯汀酒店

互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人

12 大专题分享,洞察趋势、拆解路径、对话未来。

立即扫码领取大会PPT

抢占 AI 产品下一波红利

(文:AI科技大本营)

发表评论