万字对谈 Physical Intelligence（π）：具身智能的卡点和下一步突破，到底在哪？

具身智能今天的卡点到底在哪里？

这个问题，追求具身智能通用智能的 Physical Intelligence（π）可能最适合回答。

OpenAI、红杉资本领投，估值达到 20 亿美元，去年开源了旗下的 π0 VLM 模型，展示了机器人自动叠衣服的案例。某种意义上说，有点类似于 GPT-2 开源模型的发布。

今年 4 月份，发布新一代模型 π0.5，主打「开放世界泛化能力」。能让机器人在完全陌生的家庭环境中完成如整理房间、清洁厨房等复杂任务，显著提升了机器人在现实世界中的适应性和泛化能力。

今天的具身智能到底是什么状态，大语言模型领域的认知能不能复用到具身智能，机器人训练数据问题到底如何解决？

在接受 Redpoint Ventures 的采访时，Physical Intelligence 的联创兼 CEO Karol Hausman 和核心研究科学家 Danny Driess 对这些问题进行了深入的讨论。

从他们的对谈中，我们能了解到当前具身智能领域最前沿的技术进展、卡点与思考。

TLDR:

当前具身机器人领域的主要瓶颈不在于硬件，硬件早在十多年前就已经「准备就绪」，限制发展的是赋予机器人自主决策能力的「智能」软件。
实现具身智能有三大难关，分别为：完成复杂任务的「能力」、适应未知环境的「泛化」以及高可靠性的「性能」。目前，前两者已取得突破性进展，高可靠性的「性能」是当前从「演示阶段」走向「部署阶段」的最大障碍。
机器人操控的本质，是与物体发生物理接触，而「接触」这个行为，会让问题的难度呈指数级上升。这跟自动驾驶是完全不同的。
我们目前并没有受制于底层大语言模型的性能。如果那些 VLM 更好，我认为整个系统会工作得更好，但我认为那不是目前的主要瓶颈。
完全可以把生成式视频模型当作一个模拟器来使用。当你想在你所处的特定场景中解决一个新任务时，你可以尝试不同的动作轨迹，看看哪一个是最好的。如果这个模型真的泛化得非常好，我认为那将从根本上改变行业。
我们对于世界的多样性可能被高估了。模型在约 100 个多样化的家庭环境中训练后，就能很好地泛化到全新的家庭。从模型的角度看，不同环境间的共性远大于差异，实现泛化所需的数据量可能比我们直觉上认为的要少得多。
通用机器人基础模型的价值被严重低估了，现在公众媒体的焦点常在于是否是人形机器人或者完成特定任务。

超 10000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01 具身的难题：

复杂任务执行、泛化能力、稳健性

主持人：介绍下，你们现在处于什么阶段？在当今的机器人基础模型世界里，你们如何划分技术的有效性？

Karol Hausman：在我们刚开始的时候，考虑了三个我们认为对这些模型至关重要的轴心。

第一个是「能力」，我们能否让这些模型完成我们以前从未见过机器人做过的任务，那些非常灵巧、非常长周期、非常复杂的任务？

下一步是「泛化能力」。我们如何让这些模型真正像语言模型那样泛化，你可以向它们提出要求，或者把它们放在一个它们从未见过的环境中，它们也能正确地行动？

最后一个是「性能」。它们能否像人类一样表现出色，具有非常高的成功率和非常强的稳健性？

所以我们从第一个开始，也就是能力。在公司成立的头五六个月里，随着基础模型π0 的发布，我们展示了这些模型能够执行的那些极其灵巧的任务，比如折叠衣物、组装盒子、收拾桌子等。你可以在各种不同的机器人上实现它，而且它确实有效。这证明了：如果一件事能被人类远程遥控完成，那么模型大概率也能学会。

接下来，我们开始解决泛化问题。我们能否让这些模型在它们以前从未去过的环境中工作？

这就是我们最近发布的 π0.5 模型，你可以把机器人带到一个它从未见过的新家里，它可以完成长周期的任务，比如打扫你的卧室、整理床铺或者收拾碗碟之类的。

我们选择家，因为家是最具多样性的环境，所以这有点像是这个挑战中最难的版本。结果还算不错，虽然它不是每次都能成功。我们也开始更好地理解，要让这些模型更好地泛化需要什么。

现在最大的挑战是性能，我认为这个方面的不确定性更大，我不认为有一个非常清晰的解决方案，比如你只需要更多的数据，或者你需要更多的多样性之类的，然后它就能成功。

我认为这需要一些算法上的工作和新的想法，但这差不多就是我们今天的处境。我们需要让这些模型的性能变得更好。它们仍然经常失败，目前的状态更像是「演示就绪」（demo ready），而不是「部署就绪」（deployment ready）。但我认为我们也会实现这一点的。

主持人：我看了一些视频，感觉机器人在折叠衬衫上的表现已经比我强了。你们如何看待机器人需要达到的性能门槛？比如，也许它们花费的时间是我的 10 倍，但只要能在夜里完成任务，也是可以接受的。

Karol Hausman：我认为这可能取决于任务。有些任务对速度和准确度要求很高。在某些行业，失败是不可接受的。而对于另一些任务，则完全没问题。即使机器人花一整晚的时间，但只要能把衣服叠好，你早上起来仍然会很高兴。

我记得有一次在办公室，我们的洗手间就在机器人工作站旁边。当时有个机器人在折叠一件衬衫。我看着它，一边走向洗手间，一边被它的动作和一切所吸引。我当时有点失望，觉得它太慢了，而且还在犯错。那还是模型的早期版本。

当我从洗手间出来的时候，看到了一整堆叠好的衣服。那一刻我感觉，「哇！」

对于这个任务而言，耗时多久已经变得不再重要。机器人完成了任务，它把一堆杂乱的衬衫，变成了一堆叠得整整齐齐的衣物，那真是令人大开眼界。那一刻我才真正内化了这一点：是的，对于某些任务来说，速度并不重要。它最终会完成的。

主持人：观看这么多演示视频，令人印象深刻的是，即使它们在某种程度上失败了，它们在想办法解决问题时实际上也相当有韧性。

Karol Hausman：它们的行为模式也因此更像人类。过去的机器人一旦犯错就无法挽回；它的一切行动都必须极其精确，必须分毫不差、尽可能快地到达预定位置。而这些新模型驱动的机器人，表现方式更像人类。它们会犯错，但会自我纠正；如果它们认为自己做得不够好，就会重做任务。是的，这是一种非常不同的机器人技术。

02 具身的瓶颈不在于硬件，

而是智能

主持人：我来问一个外行最常问的问题：人们总喜欢把机器人和自动驾驶汽车做比较。你们怎么看这个比较，哪些地方贴切？哪些地方可能不正确？

Danny Driess：这两个都是非常困难的问题。而且这两个问题一旦被解决，都将对人类产生巨大的影响。

我们可以做一个小小的思想实验。如果你把世界上所有的人类和道路上所有其他的汽车都移走，自动驾驶会变得相当简单。但对于机器人操控，如果我们移走所有的人类或其他机器人，问题依然同样困难。

一辆自动驾驶汽车必须实时做出许多决策，而每一个决策都可能产生灾难性的后果，并且环境会以不可预测的方式迅速变化。但是，自动驾驶汽车从不需要与环境互动，它从不需要触摸任何东西（但愿如此）。

然而，机器人操控的本质，是与物体发生物理接触，而「接触」这个行为，会让问题的难度呈指数级上升。假设你知道一辆自动驾驶汽车可以安全地从 A 点行驶到 B 点，那么执行这个动作就非常简单。但对于机器人操控来说，即使任务只是「把衬衫叠好」，这仍然是超级困难的。所以，从这个角度来看，它们是根本不同的。

但两者在「长尾性能」上面临着相似的挑战。自动驾驶要达到 99.999%以上的可靠性，就必须处理现实世界中无穷无尽的罕见（长尾）事件，这恰恰是问题的关键。类似的情况也可能发生在机器人操控上，如果我们希望机器人在各地普及，同样会面临一个巨大的长尾问题。所以我认为这些是相似的经验教训。

Karol Hausman：我认为这项技术的发展轨迹也可能类似。对于 ChatGPT 和语言大模型，它们的出现仿佛是一夜之间，让所有人都感到惊讶。但自动驾驶并非如此，那是一条非常漫长的道路。大约十年前，我们就看到了能够初步进行自动驾驶的汽车，但之后进展非常缓慢。然后突然之间，Waymo 的自动驾驶出租车就出现了，你可以在旧金山的任何地方乘坐它。我认为类似的事情也可能发生在机器人领域，这将是一条漫长的道路，可能比人们预期的要长。但在某个时刻，它们会出现，就像我们对 Waymo 的体验一样。

主持人：你们是否和自动驾驶公司面临着相似的数据问题？对他们来说，很大一部分工作就是获取足够多的「长尾数据」。你认为这在机器人领域最终也会成为一个类似的问题吗？

Danny Driess：有一件事已经发生了：在我们目前的规模下，我们可以收集大量的数据，并且在某种意义上，我们可以收集大量错误的数据。

主持人：我看到在一些演示中，你总是在「干扰」机器人。

Danny Driess：我的意思是，如果你只看你拥有的数据点的数量，这并不一定能带来更好的策略。你必须收集正确的数据。这和大多数自动驾驶车辆的情况类似，如果你拥有这些数据，它们在很大程度上已经没什么帮助了。

主持人：你们正在构建的系统有很多引人入胜的部分，或许可以从硬件方面开始。目前机器人领域的硬件状况如何？有哪些痛点？

Karol Hausman: 我可以先说一个我认为相当普遍的误解，那就是我们整个领域在硬件上遇到了瓶颈。我认为情况并非如此。

十多年前，有一个著名的 PR2 机器人演示，那是一个非常老的机器人，它在家里四处走动，整理房间，做得非常出色。即使在今天，这也会是一个顶级的类人机器人演示。但关键在于，那台机器人是由人类在背后远程操控的。我认为这证明了硬件在很早以前就已经准备好了。

主持人 ：任何可以通过遥控操作完成的事情，硬件都没问题。

Karol Hausman：没错，硬件没问题。我们一直都能看到这一点，靠遥控操作，机器人已经能做一些令人难以置信的事情。

主持人：就像很多其他机器人公司的演示一样。

Karol Hausman：所以，非常清楚的是，瓶颈在于智能。如果机器人拥有和遥控操作机器人的人类一样的智能，我们就会看到它能做更多各种各样的事情，它们不会受到硬件的限制。所以，智能才是整个行业真正的瓶颈和关键所在。

就硬件本身而言，我们看到了巨大的进步。现代的类人机器人，以及现在每天都在涌现的各种机器人，都极其令人印象深刻，它们是了不起的机电一体化作品。但我不认为它们是瓶颈，我不认为那是真正限制我们的因素，可能之后它会成为瓶颈，但现在最大的瓶颈是智能不足。

03 VLM 性能不是核心卡点，

设计通用任务「配方」是关键

主持人：在你列出的这三个方面中，似乎你们在公司成立初期就已经搞定了两个。这符合你的预期吗？

Karol Hausman：我个人完全没有预料到，我预期的时间线要长得多。这或许说明我应该对这些事情更加乐观，我应该改变我的思维模式。我原以为至少需要三四年才能达到我们今天的水平。

Danny Driess：我坚信「大模型+大数据」的模式。当然，仍然有很多未解决的问题。并不是说，我们只要做到那三个目标就万事大吉了。

有句老话说「想法很廉价」，在机器学习领域确实如此。很多人都有某些想法，但要在一个拥有如此多活动部件的复杂系统中真正实现它们——比如真实的数据收集、真实的硬件、不同的模型尺寸、实时性约束等——并让它真正奏效，仍然有很多困难。所以，能够超预期的完成目标，感觉很好。

Karol Hausman：是啊，我们有时候会聊到，对于做大语言模型的人来说，事情是多么容易。

主持人：因为他们有互联网。

Karol Hausman：是的，所以他们评估非常容易。他们不需要任何真实的机器人，数据就在那里。他们的评估目标和训练目标基本是一致的。这方面有很多我们机器人领域所没有的便利。

主持人：沿着这条思路，我们正处在大语言模型改进的疯狂指数级曲线上。如果 LLM 变得更强，这会显著改变你们在机器人领域的时间表吗？

Karol Hausman：说实话，这有点难说。最初的希望是，在 RT-2 那个时刻，一旦我们将现实世界的数据与视觉语言模型（VLM）连接起来，我们就会像是搭上了顺风车，一旦 VLM 变得更好，我们也会不断进步。

但我认为我们还没有完全看到这一点。我不认为我们已经到了可以仅仅从这些模型变得越来越好中获益的阶段。有很多间接的方式让我们可以从中受益，比如模型变得更快、更便宜，推理效果更好等。但我们目前并没有受制于底层大语言模型的性能。

我们看到视觉能力在我们所做的事情中是一个相当大的问题。即使我们有能够很好地执行任务的模型，仍然需要用语言来指令它们在当前情况下做什么。为此，我们通常使用 VLM。如果那些 VLM 更好，我认为整个系统会工作得更好，但我认为那不是目前的主要瓶颈。

主持人：你之前提到的，机器人把可口可乐放到 Taylor Swift 的照片上，是一个你觉得「这将是一个值得铭记的时刻」。那么未来有哪些有意义的里程碑，是你可能也会铭记的？

Karol Hausman：我们刚刚实现的一个重大里程碑，对我来说意义非凡，就是「泛化」里程碑——把机器人带到一个新家。因为正如 Danny 所说，在过去，基本上每一个机器人演示，我们都必须在完全相同的环境中收集数据。

稍微有一点改变，它可能就不工作了，而大家对此都习以为常。我们真的想摆脱那种情况，在一个它从未见过的家中进行评估。光照、小的干扰物等，都是不同的。机器人来到一个新家，会感到非常困惑。桌面是不同的，物体都在不同的位置。它需要有大量的理解才能知道如何在这个空间里操作。而 π0.5 能够做到这一点，对我们来说是一个非常非常重要的时刻。

Danny Driess：在机器学习中，有时候退一步思考是件好事。想一想，能够在一个训练集上达到零错误的最佳机器学习算法，不过是一个查找表。而在机器人技术中，你根本做不到这一点，因为你永远无法将场景重置到完全相同的状态。尽管如此，很长一段时间以来，很多人都有这样一种感觉或想法，即如果你在你的测试分布上进行训练，性能必然会更好。

π0.5 最酷的事情之一是，我们的论文有一张图表显示，如果你在一个足够大或足够多样化的场景集上进行训练，那么你可以在一个未见过的厨房里达到与你拥有该厨房数据时相同的性能。我认为这是一个非常神奇的时刻：即使你没有见过数据，也能达到与一个在该厨房见过数据的模型完全相同的性能。

主持人：当你们下一代模型，能够在性能上做到某件什么事时，你们会认为它前进了一大步？

Karol Hausman：我们倾向于一步步地审视，看看到底是什么阻碍了这些模型的广泛部署。最初是能力，然后是泛化的问题，因为如果光线一变，它就停止工作了，部署起来会非常困难。现在很明显，我们已经越过了这些障碍，或者说我们至少对它们有了足够的了解。

现在我们真的需要让它们工作起来，让它们的稳健性变得非常强。过去有一些迹象表明这个问题可以在小范围内解决，有很多关于使用强化学习等方法的研究论文。我认为挑战在于，你如何创造一个可以大规模应用于任何任务的「配方」，你只需有一个小配方，然后一个接一个地应用，每个任务都能接连解决，而不管你使用的是什么硬件。

这个问题仍未解决。所以，预测它会是什么样子，这个配方会是什么样子，最终结果会是什么，都有点困难。但如果过去能预示未来，我希望它能很快发生。

04 视频生成模型仍然不够好，

还帮不到具身

主持人：在机器人领域，有哪些非常重要但没有解决的问题，让你觉得「如果我能快进到两三年后，知道这些问题的答案，那对我们今天的研究会非常有帮助」？

Danny Driess：对我来说有两个。一个是关于生成式视频模型，如果你在机器人场景中尝试生成式视频模型，它们仍然不够好；另一个是，现有的机器人基础模型的训练「配方」（recipe）问题。

主持人：尝试一个生成式视频模型是什么意思？

Danny Driess：比方说，你将一个条件模型（conditional model）置于一个场景中，比如这张桌子，然后提示它用机械臂将玻璃杯移动到另一个位置。生成的视频动态通常看起来非常不真实，其中的物理规律也常常是错误的。这些模型在其他场景中，在物理规律方面取得了很大进展，但只要生成的场景中涉及到机器人，效果就差强人意。

不幸的是，如果我们想在现实世界中执行动作，像一毫米的偏差这样微小的事情都可能产生巨大的影响。所以我想知道生成式视频模型是否能克服这个问题，然后变得对机器人技术非常有用，或者这个问题是否会一直存在。

主持人：如果它们真的克服了这个问题，那会彻底改变你们使用的架构吗？

Danny Driess：至少，很多关于如何实现泛化的担忧可以得到解决，比如泛化到新的任务。因为你完全可以把生成式视频模型当作一个模拟器来使用。当你想在你所处的特定场景中解决一个新任务时，你可以尝试不同的动作轨迹，看看哪一个是最好的。如果这个模型真的泛化得非常好，我认为那将从根本上改变行业。它会为在未见过的环境中泛化到新任务提供一条更快的路径。

主持人：那么关于「配方」呢？会不会有那么一个时刻，我们现有的东西已经可以工作了，而我们自己却没有意识到？

Danny Driess：是的，这里的「工作」是指，它不再是一个研究问题，而是一个执行问题，尽管仍然非常困难。

Karol Hausman：我认为另一个我非常想知道答案的问题是某种形式的「规模化定律」（scaling laws）。通常当我们想到规模化定律时，我们想到的是大语言模型。我认为我们真正在机器人领域追求的规模化定律非常不同。它是某种像「投入的美元与模型能力」这样粗略的关系，并且拥有某种单调的规模化定律，并理解其底层的「配方」以及如何将一个转化为另一个。我认为我们还没有达到那个阶段，但我想如果有了那样的东西，那么它就会变成一个纯粹的执行问题。

主持人：「美元」是指分配给数据收集和计算的资金吗？

Karol Hausman：无论是什么，无论是计算、数据收集，还是用于视频模型的计算或其他什么。

主持人：你们是否遇到过一套基础设施需求，让你们觉得，「如果有人能开发这个就好了？这会让我们的工作以及所有未来的机器人公司都变得更容易。」

Danny Driess：机器人技术处理的数据类型都是时间序列数据，而且是多模态的，有多个不同的摄像头视角，你还有机器人的状态和动作。然后你还有语言标注。这些语言标注的方法本身就是一个研究课题，因此需要不断地进行迭代优化。

因此，我们正在构建的数据基础设施，都是内部自己开发的。要让它足够快，同时又能足够好地存储，以便你还能在上面进行迭代，这是一个真正的挑战。我们在这方面有一些定制化的需求，这与你一次性收集的静态数据集不同，因为我们的数据每天都在增长。像数据存储、数据管道等，那是一个非常重要的基础设施问题。

Karol Hausman：是的，这可能是我在开始做这件事时低估的一点，就是机器人产生的数据量有多大。我们知道会很多，但它增长得很快，数据量非常大。它们收集的每一条信息在某种程度上都是「地面实况」，它都告诉你世界是如何运作的，即使你在折叠衣物时失败了，它仍然告诉你，如果你这样移动手臂，衬衫就会这样变形。而这在大语言模型中并非如此，有些数据就是错误的、坏数据。我们处理的数据量有点疯狂。

如果有人能解决数据基础设施问题，那将会非常好。我们正试图在内部解决的，就是如何决定收集什么数据，并围绕这一点构建所有的机制。比如，如何理解你到目前为止收集的数据的质量？你如何在这种规模下进行质量保证？你如何以正确的方式在这种规模下进行语言标注？你如何知道模型还需要多少数据？你如何知道用什么策略来收集这些数据？你如何培训那些实际收集数据的人来大规模地做这件事？所有围绕这些的基础设施，以及管理其性能，理解这些数据，并能对我的数据集有一个鸟瞰式的理解，知道它大致是怎样的。那会非常有帮助。

主持人：你们如何知道要收集哪些数据？你们是如何选择任务的？

Karol Hausman：目前，我们选择任务的目的是为了尽可能快地推进。所以我们选择那些非常困难的任务，如果你能折叠衣物，你可能也能组装 iPhone 和做很多其他事情。这些都是非常复杂的任务，我们认为过去机器人是无法完成的。

然后，我们选择那些对我们来说容易理解、容易部署机器人去收集数据的任务。我们每个人都有家，我们都折叠过衣物，我们知道一件成功折叠的 T 恤是什么样的，一个干净的厨房是什么样的。这样做比与制造商合作要容易得多。所以我们只是想非常快地进行迭代，因为这项技术是通用的，我们认为它之后也会适用于所有其他任务。

Danny Driess：或许可以补充一点。我们一开始谈到泰勒·斯威夫特的那个时刻，当时那个成果受到了很多人的批评，他们说：「你只要运行一个物体检测器」。现在我们也可以用类似的技术来解决折叠衣物的问题，但很明显，你不能简单地用同样的方法，比如用一个物体检测器和一个轨迹规划器来折叠衣物。所以，这也是我们选择任务的一种方式，即选择那些能推动能力边界，并且我们仍然相信自己有工具去解决它们的任务。

主持人：对于「这个任务对机器人来说会很难」的直觉是什么？

Karol Hausman：我觉得这很难描述。我不认为有一个清单，比如「如果有可变形的物体就难，如果以前没见过就难」。我感觉这更像是一种在长期解决问题的过程中，逐渐积累起来的直觉。当我们设定目标并讨论某些任务时，你可以看看房间里人们的表情，看他们有多害怕……（笑）

是的，有些事情机器人做起来真的很差，这有点反直觉。这些事情通常涉及到每次都不一样的情况。例如，如果你从洗衣篮里拿出衣物，衬衫的形态总是不同的。你以前从未见过一件衬衫处于完全相同的形态，这使得任务变得困难。那种初始状态分布的方差使得任务非常困难。如果任务非常长，那也会让它变难，因为这些错误会累积。如果任务非常精确，或者任务过程中有某个瓶颈使得它必须非常精确，那也是一个困难的任务。我可以尝试列举几个维度，但这远不足以涵盖所有复杂情况。

主持人：在评估方面：你们如何知道这些模型正在变得更好？机器人领域并没有一个像 SWE-bench 那样的东西。

Karol Hausman：答案就是真实世界本身。

Danny Driess：评估非常重要，而且是一个非常困难的问题。有趣的是，你永远无法将场景重置到完全相同的方式。因此，我们只能通过大量的重复运行和严格的统计分析，来判断实验结果是否具有统计学意义。我们还学到的一点是，要真正证明一个策略比另一个更好，通常需要在许多不同的任务和许多不同的环境中运行它，然后你才可能会看到差异。但评估可能是最难的。

我们还会做的是，我们从不真正比较今天和几周前的绝对性能，而总是同时运行基线模型和新模型，由同一个操作员运行，然后看相对排名。当然，对于一些我们已经充分理解的任务，我们也会看绝对性能，但这只是为了考虑到各种变量，即使只是光线变化，或者机器人变了，或者换了一个可能对衬衫更挑剔的操作员。

Karol Hausman：还有一个问题是，这方面的发展趋势并不乐观，因为随着这些模型的能力越来越强，我们需要在越来越多的任务和越来越多的机器人上对它们进行评估。所以，你需要运行越来越多的评估，才能知道你的模型是否变得更好了。所以这是一个问题，它需要很长时间，操作上非常繁重，而且其中有很大的方差。这是我们非常「嫉妒」做大语言模型的人的另一个优势。

但我们正在探索一些方法来尝试克服这个问题。除了好的运营，努力把这件事做得非常好之外，还可以开始在这些用例中使用模拟、视频模型之类的东西。人们已经研究这个有一段时间了，我们还没有看到它们的稳健性好到可以减少方差级，给我们更多信心说这个模型是好的，但是有一些希望它们未来能达到那个水平。

05 用 Diffusion Model 的方式

预测下一个动作

主持人：你们在如何更快地训练这些模型方面做了一些非常有趣的工作，分享一下。

Danny Driess：当我们构建一个机器人基础模型时，我们通常从一个预训练的视觉语言模型（VLM）开始。我们之前讨论过，当 VLM 变得更好时，我们是否能从中受益？到目前为止，情况是 VLM 本身还没有适应机器人技术，它所拥有的特征对于机器人技术来说还不够好。所以我们必须在我们的机器人问题上对它进行微调。

但是，如果你只用机器人数据进行微调，结果就是模型会丧失部分原有的能力，它不再是一个好的 VLM 了。这有多种影响。一方面，它降低了模型的泛化能力，在某种意义上，模型忘记了它在互联网上学到的很多东西。但另一方面，训练动态也不那么好，因为它必须改变太多，以至于训练可能会非常缓慢。所以我们一直在做的是找出如何解决这个问题的方法。

我们想出了一个我们称之为「知识绝缘」（knowledge insulation）的概念，这是一个多方面的概念。我们尝试修改训练「配方」，来保持模型的大部分能力。

我们是怎么做的呢？我们仍然在网络数据上训练模型，也就是非机器人相关的数据，这很有帮助，尤其对泛化有帮助。但这并不是唯一的事情。另一个重要的见解是，目前构建机器人模型的最佳配方是使用流匹配或扩散（diffusion）来生成机器人动作。但事实证明，如果你用这种方法来训练模型的骨干网络，它的训练速度会非常慢，而且你得到的梯度会有点破坏骨干网络，即使你正在使用其他数据源。

因此，我们想出了一个巧妙的思路：将机器人动作进行「标记化」（tokenize）处理，使其变得像文本一样，然后用这种方式来训练 VLM 的骨干网络。事实证明，这使得 VLM 能够适应机器人技术，而不会失去其能力。然后我们可以在此基础上嫁接上这些「动作专家」（action experts），或者用流匹配，让他们之间不要有太多的交流，停止梯度，然后就能有非常好的动作预测。

这件很酷的事情是，我们把训练速度加快了 10 倍，也提升了泛化能力。我们大大缩短了迭代速度。这也是我们需要注意的一点。在机器人领域，你收集数据，这需要一段时间；然后你训练模型，这需要好几周；然后你必须进行真实的机器人评估。直到你得到一个信号，判断你在这些流程中的任何决策是否合理，可能需要很长的时间。所以，如果你能让任何一个阶段变得更快，你的研究不仅会因此而加速，而且会因为你能更早地做出决策而加速更多。

主持人：你们最近还有一个研究方向是让这些模型在推理时工作得更快，你们如何解决大型模型带来的延迟问题？

Danny Driess：最近有一项来自 Kevin Zakka 的研究，他就在研究这个问题。机器人场景下，你先得到一个观察结果，然后你开始查询模型，而推理过程可能需要几百毫秒。在这段时间里，你假设世界是静止的。但这显然不是世界的运作方式，世界可能已经继续前进了。

注：Kevin Zakka 是机器人领域的一位学者，现为加州大学伯克利分校 Robot Learning Lab 的博士生，导师为 Pieter Abbeel。

我们的模型总是预测下一个动作，它是一个完整的动作轨迹，我们称之为「动作块」（action chunk），供机器人执行。假设推理时间延迟之后，当新的动作块准备好时，世界可能已经改变了，或者这个新预测的动作块与旧的那个不一致。那就会出现问题。

所以 Kevin 想出了一个方法，利用了图像修复（inpainting）的技术。比如，用于生成图像的扩散模型，你可以移除一块，然后它们就会填补那块。可以应用类似的技术来基本上「修复」轨迹的其余部分，前提是你已经执行了其中的一部分。这是一个纯粹的算法进步。你甚至不需要为此重新训练模型，你可以在事后应用它，而且效果非常好。所以基本上发生的是，系统仍然在执行一个动作，同时它正在计算未来的新动作。然后它们像是被融合在一起了。

但正如你所说，作为一种替代方案，如果能有让模型推理速度大大加快的进步，我们也会极大地受益。那也会解决很多问题。

主持人：从填补图像中得到灵感，这简直就是「研究品味」的最佳体现。那么想象未来，如果你们的研究都成功了，在 10 年后会是什么样子？

Danny Driess：我希望，至少如果我成功的话，就不会有后期训练（post-training）了。

我真的希望我们能提供越来越好的基础模型，它们更易于引导和预测，这样它们就能在特定的速度下，以特定的性能完成任务。这就像现在的大语言模型一样。你不需要真的对它们进行后期训练，当你把它们给用户时，它们就能工作。

Karol Hausman：我们开始在我们最新的研究中看到一些这样的迹象。最初，当我们想让这些任务成功时，特别是像折叠衬衫这样复杂的任务，我们总是需要做非常特定的后期训练程序。但现在，随着我们得到越来越好的预训练模型，我们意识到其中一些模型在零样本情况下的表现，和旧的经过后训练的基础模型的表现一样好。看到这一点超级酷，这就像我们从 GPT-3.5 到 GPT-4 所看到的，整个范式突然改变了。

我认为后期训练会继续存在，但其具体形式还有待确定。究竟是需要用户提供少量额外的演示，还是通过更丰富的指令来引导机器人，还是让机器人自主探索，这些都还是未知数。但我个人猜测，最终会是某种形式的轻量级引导——用户只需提供少量输入，就能换来机器人执行效率和最终性能的显著提升。

06 通用机器人基础模型被严重低估了

主持人：在过去的一年里，你们改变了对哪一件事的看法？

Danny Driess：对我来说，是看到了那条「环境扩展曲线」（environment scaling curve），即如果你有来自某个环境的训练数据，你可以在一个未见过的环境中达到同样的性能。这真的改变了我的想法。我之前认为那会有一个难过的「坎」，或者说需要更多的多样性。我们讨论过世界是如此地难以置信地多样化。

Karol Hausman：我们在项目开始前有过这样的对话，比如你需要见过多少个家才能泛化到下一个？当时抛出的数字好像是一百万，因为每个家的环境都很不同。然后结果是 100 个，这对我来说仍然有点令人难以置信。这似乎确实表明，也许我们过去高估了世界的多样性。

另一个是视频模型，我认为它们取得了巨大的进步，比我预期的要快得多。我还记得几年前玩它们的时候，看到了各种各样的问题，现在它们正在变得非常好，非常快。

主持人：你觉得在关于人工智能和机器人的讨论中，有什么是被过度炒作的，又有什么是被低估的？

Karol Hausman：我认为通用机器人模型被严重低估了。如果它成功了（到目前为止，所有的迹象都表明这个想法是有道理的），它将从根本上改变我们对物理世界和那个世界中智能的看法。就像我们前边提到的 Waymo 的例子一样，如果你坐在自动驾驶的车里，那是一种与你拥有最智能的聊天机器人完全不同的体验，非常直观。

我不认为现在有很多东西被过度炒作了。我认为或许围绕人形机器人的狂热有点过头了。对我来说，这主要来自于对人工智能将如何发展的误解。对于这些模型来说，是这种机器人还是那种机器人并不重要，它可以从所有不同形态的机器人中获取数据，并在所有这些机器人之间进行泛化。它将成为你能应用到所有不同领域的，最通用的东西。

主持人：有一种说法是，我们生活的世界是为人类形态而优化的。

Karol Hausman：我听过这个说法。我的意思是，这有一定道理，但可以更进一步。实际上，对这些模型来说，数据来自什么机器人并不重要。它们可以从各种各样的机器人那里获取数据。可以是汽车，可以是无人机，各种各样的东西，而那将带来这些模型更强的能力。所以我认为，如果你把这个论点再往前推一点，你最终会进入一个世界，那里有一个巨大的基础模型，驱动着所有的机器人，其中一些是人形的。

主持人：你认为到哪一年，会有一百万美国人家里有机器人？

Danny Driess：我认为我们已经有一百万了（指扫地机器人等）。

主持人：如果是能够折叠衣物和做所有事情的由 AI 模型驱动的机器人呢？

Karol Hausman：正如我所说，我应该对我的预测更乐观一些。鉴于过去进展的速度和我当时的错误判断，我认为我们可能会在今年或明年看到机器人被部署，做一些我们以前从未见过机器人做的事情，如果我们继续沿着这个轨迹发展的话。

至于它们何时会被部署在家庭中，做各种各样的事情，我认为讨论的焦点已经从「永远不可能」或者「问题从根本上无法解决」转变为了「大概在 5 到 10 年之间」这样的时间范围。我认为大部分业内人士都同意现在是这个时间框架。我认为如果进展继续，并且我们成功了，那么我预计会在未来五年内实现。

主持人：当这些东西普及时，你对未来有什么预测，关于这些模型普及的影响是我们今天没有足够思考的？

Karol Hausman：我想或许可以反过来从软件的角度看。我没想到「vibe coding」会成为现实，这太酷了。我们办公室里有非技术背景的人在做一些令人难以置信的事情，为自己构建工具，变得对编程充满热情。各种各样的仪表盘，各种各样的运营工具，超级酷。

我前几天在想，对于硬件来说，「vibe coding」会是什么样子？你可以直接提示模型，智能就在那里为你服务。你只需创造一个物理实体，然后就能为其注入智能。这就像我们熟悉的卡通片里的世界一样：制造实体是困难的部分，可一旦造出来，它就拥有了生命。我认为那将是一个非常疯狂的转变。

主持人：那会很好，当你能创造任何硬件，然后给它注入这些模型。

Karol Hausman：没错，就是给它注入智能。

Danny Driess：我基本同意。我真的很期待一个家里再也没有家务活的时代。比如，回头来看 ChatGPT 时刻，其中一个方面是，很多人从来没听说过什么是语言模型，然后突然之间全世界都知道了。但如果我给任何人看一个机器人视频，他们总是说，「我马上就想要这个。」所以他们已经对它将如何改变他们的生活有了一个非常清晰的概念，这很有趣。但我很好奇，当人们再也不用从洗碗机里拿出碗碟时，他们会做什么？这将使人类能够专注于什么，我认为那也会非常令人兴奋。

Karol Hausman：是的，我家里有个一岁的孩子，我发现自己为了能多陪陪她，需要做各种各样的事情。给瓶子消毒，清理这个，清理那个，把碗碟放进洗碗机再拿出来，所有这些事情我都不想做。我不想把时间花在这上面。我只想有更多的时间陪她。所以，如果不用做那些事，并且家里能一直保持我想要的状态，那会非常酷。

07 行业还很早期，

开源才能一起进步

主持人：我很好奇你们研究策略的另一个方面。你们开源了π0，也发表了很多研究。你们是如何考虑，哪些应该开源，哪些见解要和世界分享？

Karol Hausman：这是一个非常深思熟虑的选择。如果最近在社交媒体上待得太久，可能会觉得机器人技术马上就要被解决了，我们今天就能在家里拥有能为我们做任何事情的类人机器人。而我们认为，我们还处于非常早期的阶段，仍然有待突破，技术还没有到位。

对我们公司和整个领域来说，最大的风险不是有人会比我们先到达那里，我们会被别人超越。最大的风险在于，如果我们失败了，如果科学界不能通力合作，那么整个问题最终将无法解决。到那时，你是否分享了你的成果，你的策略是什么，你在建造什么样的机器人，都无关紧要了。所以我们想确保这种情况不会发生，并降低这种风险。

你想确保将这些想法暴露给尽可能多的人，并邀请他们加入。因为我们相信，我们正在走的道路是解决这个问题的正确道路。所以，越多人认同它，去玩这些模型，去理解它们的发展方向，去为它们做出贡献，我们成功的可能性就越大，不仅是作为公司，也是作为整个领域，解决这个问题的可能性就更高。

当问题非常清楚地正在被解决时，情况可能会有所改变。但我认为到目前为止，我们的策略一直是非常深思熟虑的，而且坦率地说，对我们来说非常成功。比如，这对招聘也很有帮助，人们希望分享他们的工作，以确保他们可以和朋友讨论，并让更多的人来帮助他们。同时，也看到了开源这些模型的巨大影响，π0 被用在了非常多的地方。

主持人：你们最喜欢它被以什么方式使用？

Karol Hausman：我见过很多，很奇怪，也很疯狂的方式。比如那个无人机的应用就非常酷，它利用 π0 进行预训练，实现了抓取物体的能力。我在手术机器人上见过，在自动驾驶汽车上见过。我见过它做了很多我甚至没想过π0 能帮上忙的不同任务。所以能够带来那样的影响真的非常酷。

Danny Driess：把模型放出来让人们使用，也是一个很好的学习方式，了解这最终如何能作为一个真正的部署来实现，并看到模型与其他参与者的互动等。所以，这其中有巨大的价值。

Karol Hausman：是的，这有点涉及到机器人技术的评估问题。很难比较，这个团队发布的这个模型更好，还是另一个团队的更好？没有既定的基准，即使有，如果任何东西发生变化，方差也非常大，你也无法判断。所以，我同意，就是应该把它放出来，让人们使用它。

主持人：同样的事情在大语言模型领域也适用，对吗？在很多方面，评估的价值也是有限的。事实证明，用户会告诉你，他们更喜欢哪个模型。

Danny Driess：没错。我还喜欢的一点是，我认为当大语言模型问世时，人们并不能真正知道大家都能想出什么来。我期待着同样的故事能在物理世界重演，也期待看到当这些工具交到大众手中时，会催生出哪些我们今天无法想象的创新应用。

（文：Founder Park）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

01

具身的难题：

复杂任务执行、泛化能力、稳健性

02

具身的瓶颈不在于硬件，

而是智能

03

VLM 性能不是核心卡点，

设计通用任务「配方」是关键

04

视频生成模型仍然不够好，

还帮不到具身

05

用 Diffusion Model 的方式

预测下一个动作

06

通用机器人基础模型被严重低估了

07

行业还很早期，

开源才能一起进步

发表评论 取消回复

发表评论取消回复