李飞飞:AI的下一个大脑是理解3D空间的世界模型

作者大模型机动组
邮箱damoxingjidongzu@pingwest.com

在新一期a16z播客节目中,由a16z合伙人Erik Torenberg主持,与World Labs联合创始人兼CEO李飞飞,以及a16z合伙人 & World Labs早期投资人 Martin Casado 进行了一场对话。共同探讨了”世界模型”的概念——即AI系统能理解并推理物理3D世界,而不仅限于文本。

被誉为”AI教母”的李飞飞解释了为何空间智能是当前AI系统关键却缺失的组成部分,以及她的新公司为何全力攻克这一挑战。Martin分享了他们早在该理念流行前就达成共识的故事,并阐明这可能定义机器人、创意产业和计算本身的未来。

从大语言模型的局限到具身AI的前景,从个人轶事到深度技术洞察,这是一场关于构建真实与虚拟世界智能本质的讨论。

以下是这期节目的内容实录:

Erik Torenberg:Martin ,你能不能简要地代表飞飞吹嘘一下,跟不熟悉的人总结下你对AI的贡献。

Martin Casado:大家对她并不陌生无需过多介绍,她做了太多的事,我都说不完。所以也许我只说一些与当前话题相关的事。当然,她是 Twitter 董事会成员,曾任职于谷歌。她还是 World Labs 的创始人兼CEO。但非常重要的是,就像我们都知道的,AI领域里,大家都在谈论神经网络,也有很多人专注于让这些神经网络更有效。但飞飞真正地将数据引入了这个方程式,而现在我们意识到,数据可能才是更大、更有趣的问题,所以大家都称她为“AI之母”。

Erik Torenberg:飞飞,你为什么选择 Martin 成为首位投资者?

李飞飞:首先,我认识 Martin 已经十多年了。2009年我作为助理教授加入斯坦福大学时,Martin 正在那里攻读博士学位。所以我一直都了解他,当然, Martin 的导师 Nick McCune 是我的好朋友。我一直知道 Martin 会成为一位非常成功的企业家和投资者,我们经常见面和交流。

当我构思 World Labs 的想法时,我在寻找我所谓的“独角兽投资者”。我不知道这个词是否准确,但我就是这么称呼他的。他不仅是成就斐然的投资者,能和创业者一起经历起伏,有深刻见解,能带来知识、建议和资源的人,但我特别需要一位智力伙伴。因为 World Labs 做的是非常深度的技术。我们正在尝试做别人从未做过的事,我们坚信这将真正改变世界。我需要一个既是计算机科学家,又是AI研究者,了解产品市场、市场推广策略的人,还能随时与我进行智力对话。

Martin Casado:实际上,我们最初结缘的故事还挺有趣的。飞飞显然思考这个想法已经很久了,甚至在项目启动前好几年就开始了。她一直在说她对AI要如何在世界中运行有着深刻的直觉。当时我们参加了 Mark 的豪华午餐会,有很多AI领域的人都在,大家都对大语言模型非常兴奋,都在谈论语言。我自己也得出了一个独立的结论,因为我做过很多图像投资方面的工作,我觉得语言并不是故事的终点。

当时飞飞坐在餐桌另一头,听着这些人谈论。她探问我:“你知道我们缺什么吗?我们缺一个世界模型。”我当时就想:“没错!”那一刻一切都对上了,因为我一直在宏观层面思考这些问题,但她就像往常一样,精准地阐述了这个观点。她为此思考了一年,和很多人交流过。所以在某种程度上,我们各自殊途同归,得出了非常相似的直觉。她的想法更完善,我的则只是个初步的概念。但从那之后,我们进行了多次交谈,我们都认同这个想法。

李飞飞:实际上,你们可能不知道,在那次午餐时,我们一拍即合,都认同世界模型的想法。但那时我已经在和不同的人交流了,不只是计算机科学家和技术人员,还有投资者和潜在的商业伙伴。说实话,大多数人都没理解。当我说世界模型时,我能感觉到他们只是礼貌地点点头。所以我给 Martin 打电话,说:“你介意来斯坦福和我喝杯咖啡吗?”

我对 Martin 说:“你能给我定义一下世界模型吗?”我真的想确认下 Martin 是不是真的理解这个概念。他对世界模型的定义是一个真正理解世界3D结构、形状和组合性的 AI 模型,这和我想的完全一致。我当时就想:“哇,他是我到目前为止交谈过的人中唯一一个真正理解的,而不是只点头附和的人。”

Erik Torenberg:好的,我们接下来会聊聊World Labs 以及具体情况,但或许首先我们先回到你们读博时期和教授时期,并反思一下。如果你们能回到过去,并且知晓过去十年AI领域发生的事,你们觉得最大的意外会是什么?或者说有什么是你们当初没预料到,会让年轻时的自己感到震惊的事?

李飞飞:这说起来很讽刺,就像 Martin 说的,我是把数据引入AI世界的人,但我仍然在情感上非常惊讶,这些依赖大量数据的模型、数据驱动的AI能发展到如今的程度,并且真的展现出了思维机器般令人难以置信的涌现性行为。

Erik Torenberg:为什么要再创办一家基础模型公司呢?为什么不专注于大语言模型呢?

李飞飞:我的学术追求不在于创办公司或发表论文,而在于寻找北极星问题。所以不是我某天醒来,就说一定要开家公司。在过去几年里,我每天醒来都在想,世界上远不止语言。语言是一种非常强大的思想和信息编码方式,但它并不是对3D物理世界的有效编码,而所有动物和生物都生活在这个3D物理世界里。

如果你观察人类智能,很多都超出了语言的范畴。语言是一种有信息损失的捕捉世界的方式。而且还有一个微妙之处,纯粹的生成式“语言”在自然界中并不存在。我们环顾四周,没有现成的句子或单词,而整个物理、感知、视觉世界却真实存在。动物的整个进化史都是建立在大量感知和最终具身智能之上的。人类不仅生存、生活、工作,还通过构建和改变世界建立了文明,这就是我想解决的问题。

为了解决这个问题,研究显然很重要。我作为学者花了很多年做研究,也很享受这个过程。但我确实意识到,特别是和 Martin 交流后,现在是时候集中行业级的力量,特别是在计算、数据和人才方面集中发力,才能真正实现这个目标。这就是我创办 World Labs 的原因。

Martin Casado: Erik ,你可以做一个简单的思维实验,来凸显语言和空间的区别。如果我把你放在一个房间里,蒙上你的眼睛,然后给你描述这个房间,再让你完成一项任务,你成功的可能性非常小。比如我说:“在你前方十英尺处有一个杯子,左边还有……”这是一种非常不准确的描述现实的方式,因为现实非常复杂、精确。

反之,如果我拿掉你的眼罩,让你看到实际的空间,你的大脑实际上会重建3D空间,然后你就可以去操作东西、触摸东西。所以可以这样理解,我们进行大量的语言处理,用它来交流和传达高层次的想法等。但当涉及在现实世界中导航时,我们真正依赖的是世界本身以及我们重建它的能力。

Erik Torenberg:你是如何以及何时意识到语言可能不够用的?因为这似乎并没有得到广泛认知,我也不是经常听到这方面的讨论。

Martin Casado:如果问我最大的突破性发现,那就是语言技术先取得了进展,而我们在机器人技术上投入了很多努力,仅自动驾驶汽车行业,我们在这个行业投入了大概1000亿美元。我记得2006年 DARPA(美国国防部高级研究计划局)挑战赛,我们都欢呼“自动驾驶汽车成了!”。但20年过去了,投入1000亿美元,这还只是一个二维问题。我们原本的路线是先解决世界导航问题,但结果极其困难。突然出现了大语言模型,它们经济高效,几乎瞬间就解决了很多语言问题,我花了一些时间才理解。

飞飞说得非常好,我花了一些时间才理解,我们大脑语言处理区域很新,我们效率其实很低,计算机更擅长不足为奇,但大脑中负责导航、空间感知的部分已经存在很久了,可能有几百万年,也许从爬行动物脑时代就有了,大约有四百万年。

李飞飞:甚至更古老,如三叶虫时代。

Martin Casado:所以这就像是我们正在重现进化历程。语言部分对于高层次概念和一些脑力工作非常重要,这也是目前它正在对白领工作范畴产生影响的领域。但当涉及空间时,从机器人技术到任何需要构建物理实体的领域,都必须解决这个问题。我们从自动驾驶汽车领域就知道这是个非常棘手的问题。而退化浪潮给了我们一些如何解决这个问题的思路,当时正是研究良机。

李飞飞:我的经历不太一样,因为我专注从事视觉研究,所以我不需要大语言模型来让我相信世界模型的重要性。声明并非贬低语言。实际上,看到ChatGPT、大语言模型和这些基础模型取得如此突破性的成功让我很兴奋,这让我们意识到世界模型实现的时刻越来越近了。

就像 Martin 表述很精妙,3D空间与心智空间,这种空间智能能让人做很多超越语言的事情,是智能的关键部分。从远古动物到人类最具创新性的发现,比如DNA双螺旋结构,仅靠语言是无法推理出来的,这是我最爱的科学例证,我觉得他的例子是巴克球,碳分子结构设计得非常精美。这样的例子显示了空间和3D世界的深奥。

Erik Torenberg:让我们更具体地想象一下。当 World Labs 实现其愿景,或者语言世界模型实现其愿景时,有哪些应用场景或用例可以具体说明呢?

李飞飞:有很多。比如,创造力很大程度上是视觉化的。从设计、电影、建筑到工业设计,创作者涉及多个领域。设计和创意不仅用于娱乐,还可用于提高生产力、制造机械等很多方面,这本身就是一个高度视觉化、感知化、空间化的工作领域。当然,我们提到的机器人技术,对我来说是指所有具身机器,不只是类人机器人或汽车,中间还有很多种类。但它们都需要理解3D空间,需要训练理解3D空间,并进行任务执行,有时甚至要与人类协作,这当然需要空间智能。

我觉得让我非常兴奋的一点是,在整个人类文明历史中,我们所有人都共同生活在一个3D世界里,也就是地球的物理3D世界。只有少数人去过月球,但人数非常少。而这项技术让数字虚拟世界变得无比精彩,它结合了生成和重建。

突然间,我们实际上可以创造无限的宇宙。有些是为机器人创造的,有些是为创造力创造的,有些是为社交创造的,有些是为旅行创造的,有些是为讲故事创造的。突然之间,我们能够生活在一个多元宇宙中,想象的空间是无限的。

Martin Casado:这些讨论听起来可能很抽象,但实际上并非如此。它们听起来抽象是因为这个领域非常广泛,就像大语言模型一样横向通用。如果问大语言模型擅长什么,同一个大语言模型可用于情感交流、编写代码、列清单,还可以用于自我实现。

我认为我们可以非常具体地说明这些模型能做什么。有了这些模型,你可以通过对世界的二维视角,在计算机中创建一个完整的3D表示,包括你看不到的部分,比如桌子的背面。仅通过二维视角,你就能得到完整的信息,你可以问“用这个模型能做什么?”,然后你可以对它进行操作、移动、测量、堆叠,所以在空间中能做的任何事情都可以实现。这意味着可以用于建筑设计、创意设计。而且能够填充桌子背面的信息意味着可以创造原本不存在的东西。

比如,我只有一张二维图片,就可以创建一个360度的完整视图。这就是完全的生成式能力。这意味着可以用于视频游戏、创意设计等领域。这是一个超级横向的技术,它可以通过计算机对世界的单一或多个视角,创建一个完整的3D表示,然后计算机就可以基于此进行操作。可以看到,这对从机器人技术到视频游戏、艺术设计等各个领域都有着关键的作用。

Erik Torenberg:似乎直到现在我们才充分认识到3D元素的重要性,这么说合理吗?

李飞飞:这么说是合理的。实际上,这经历了很长的进化过程。3D问题并不容易解决,但我总会想起几年前我和我六岁孩子的一次对话,关于为什么树没有眼睛。根本原因是树不会移动,所以不需要眼睛。动物生命的基础是移动、行动和交互,这就催生了感知和空间智能。而空间智能,就像 Martin 说的,将全面重塑人类的工作和生活方式。

Erik Torenberg:一定要是3D的吗?为什么不能只用二维呢?

李飞飞:物理现象发生在3D空间中,交互也发生在3D空间中。在桌子后面导航需要在3D空间中进行。无论是在物理世界还是数字世界中构建事物,都需要在3D空间中进行。所以从根本上说,这是一个3D问题。

Martin Casado:一种思考方式是,如果是人类看二维视频,人类可以在脑海中重建3D空间。但如果是一个机器人,它的模型输出是二维的,然后让它去完成一些任务,比如测量距离、抓取东西,就会缺少关键信息,只有X、Y轴,因为缺少了Z轴信息。所以对于很多与空间相关的任务,需要向计算机提供3D信息,这样它才能在3D空间中导航。二维视频对人类来说没问题,因为我们可以将其转化为3D信息,但对于任何计算机程序来说,都需要3D信息。

李飞飞:实际上,我想讲分享个亲身经历。大约五年前,我因为眼角膜受伤,有几个月失去了立体视觉,只能用一只眼睛看东西。就像 Martin 说的,我一生都习惯了立体视觉。所以即使只用一只眼睛看,我大概也知道3D世界是什么样的。但作为一名视觉科学家,那段时间对我来说是一次有趣的实验,让我体验了另一种看世界的方式。

有一件事让我印象深刻,我不敢开车了。首先,我不敢上高速,速度太快我应付不来。我只能在自己家附近开车,我发现我无法很好地判断我的车和路边停着的车之间的距离,即使是在一条小路上。尽管我非常清楚我的车有多大,也大概知道邻居家停的车有多大,而且我在这条路上开了很多年。但开车的时候,我只能开得很慢,时速几乎只有十英里,以免刮到其他车。这就是我们需要立体视觉的原因。

Martin Casado:这很好地说明了为什么在进行某些处理时,3D信息是必不可少的。

李飞飞:没错,我不建议大家尝试,但如果你有空,可以用一只眼睛看,然后停一辆车,再开另一辆车,感受一下。

Erik Torenberg:在大语言模型方面,很多研究是由大公司完成的。目前这个领域的研究进展如何?

李飞飞:与大语言模型相比,这绝对是一个较新的研究领域。但也不能说全新,因为在计算机视觉领域,我们一直在做相关的研究。例如,3D计算机视觉领域的一个重要突破是神经辐射场(NeRF),是我们的联合创始人 Ben Mildenhall 和他在伯克利的同事们完成的,这是一种实现3D的方式。四年前,深度学习重构技术曾席卷全球。我们还有一位联合创始人 Christoph Lassner ,他的开创性工作是高斯泼溅表示法复苏起来的原因之一,这种方法用于表现3D体积数据。

当然还有 Justin Johnson ,他曾是我的学生,也是 World Labs 的联合创始人,他们属于第一代深度学习计算机视觉领域的学生,在图像生成方面做了大量奠基性工作。在 Transformer 出现之前,我们用GANs(高斯方法)进行图像生成,还有风格迁移技术,这推广了我们现在所做工作的一些组成部分。学术界和工业界都在开展相关工作。在 World Labs ,我们坚信要专注于这个最重要的核心问题,汇聚计算机视觉、扩散模型、图形计算机图形学、优化、AI和数据等领域最聪明的人,组成一个团队,努力让这个项目取得成功并实现产品化。

Martin Casado:我并非这些领域的专家,但我要解决这个问题,需要AI领域的专家,包括在数据、模型架构方面的专家,也需要图形学专家,他们可以解决计算机内存和屏幕呈现问题。所以我认为这是一个非常特别的团队,能攻克这个难题,而飞飞已经成功组建了这个团队。

参考资料:https://www.youtube.com/watch?v=fQGu016AlVo

(文:硅星GenAI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往