英伟达黄仁勋 Computex 2024 实录:不止AI芯片,目标万亿级AI帝国

作者大模型机动组 
邮箱damoxingjidongzu@pingwest.com

 Computex 2024 大会上,英伟达首席执行官黄仁勋描绘了以 AI 工厂、Agentic AI 和物理 AI 为核心的新产业革命愿景,并重点介绍了 NVIDIA 在加速计算、数字孪生及与中国台湾伙伴合作构建未来 AI 基础设施方面的进展。

以下为演讲实录:

很高兴来到这里。我的父母也在观众席上,他们是 Thumbs  Ari,他们今天也在。英伟达来到中国台湾已经有30 多年了。这里是我们许多珍贵的合作伙伴和亲爱的朋友的故乡。这些年来,你们见证了 NVIDIA 的成长,见证了我们完成了许多激动人心的事情,并与我一路相伴。

今天,我们主要聊一聊我们在行业里的位置,还有即将推出的一些新产品。这些新东西肯定会让大家眼前一亮,能帮我们开拓新的市场,带来新的增长机会。我们还会聊聊伟大的合作伙伴,以及我们将如何共同开发这个生态系统。众所周知,我们处于计算机生态系统的中心,是世界上最重要的行业之一。因此,当需要创造新市场时,我们必须从这里开始,从计算机生态系统的中心开始,创造新市场。我还会给你们带来一些惊喜,一些你们可能想不到的东西。当然,肯定得说说人工智能和机器人技术这些热门话题。

英伟达的故事,其实也是计算机行业和我们公司不断发展变化的过程。正如我所说,我来到这里已经 30 年了。在座的不少朋友可能听过我的好多次演讲,甚至有人从头到尾都跟着听了。要是大家回顾一下这些年我在演讲里讲的内容,就会发现变化真的太大了。我们最初是一家芯片公司,目标是创建一个新的计算平台。2006 年,我们推出了 CUDA,彻底改变了计算方式。十年后的 2016 年,我们意识到新的计算方式来了,而且要对技术栈的每一层都进行重塑,处理器、软件堆栈、系统都得变。于是,我们发明了 DGX-1 这样一个新系统,当时在 GTC 大会上公布的时候,没有人明白我在说什么,也没有人给我 PO。这套系统被称为 DGX-1。我把第一个系统捐赠给了一家名为 OpenAI 的非营利公司,人工智能革命就是从这儿开始的。

再往后,我们发现这种新的软件运行方式,也就是现在所说的人工智能,跟传统的软件运行方式不一样。许多应用程序都是在大型数据中心的几个处理器上运行的,我们称之为超大规模。这种新型应用需要许多处理器协同工作,为数百万人提供查询服务,而数据中心的架构将从根本上改变。我们意识到有两种网络:一种是南北网络,因为你仍然需要控制存储,仍然需要有一个控制平面,仍然需要与外部连接。但最重要的网络将是东西向的,即计算机之间相互对话,试图解决问题。我们认识到,在高性能计算、大规模分布式处理的东西向流量方面,有一家最好的网络公司——一家与我们公司非常亲近的公司,名为 Mellanox,五年前,也就是 2019 年,我们收购了他们。我们将整个数据中心转换成了一个计算单元。

现在说起来,现代计算机就是一个完整的数据中心,数据中心就是一个大计算单元,不再是简单的个人电脑或者一台服务器。整个数据中心都在运行一项工作,操作系统也会随之改变。英伟达的数据中心之旅现在已经非常有名了。在过去的三年中,大家已经看到了我们正在形成的一些理念,以及我们是如何开始以不同的方式看待我们的公司的。历史上没有任何一家公司,当然也没有任何一家技术公司,会一次披露五年的路线图。没有人会告诉你接下来会发生什么。他们将其视为秘密,极度保密。然而,我们意识到,英伟达不再仅仅是一家技术公司。事实上,我们是一家重要的基础设施公司。你如何规划你的基础设施、你的土地、你的外壳、你的动力、你的电力以及全球所有必要的融资?如果你不了解我要做什么,你怎么可能做到呢?因此,我们非常详细地描述了公司的路线图。详细到世界上每个人都可以去开始建设数据中心。我们现在意识到,我们是一家人工智能基础设施公司。一家在全世界都至关重要的基础设施公司。

每个地区、每个行业、每家公司都会建立这些基础设施。这些基础设施是什么?事实上,这种基础设施与第一次工业革命的情况很像,当时人们意识到GEWestinghouse、西门子,意识到有一种新型技术叫做电力,必须在世界各地建设新的基础设施。这些基础设施成为社会基础设施的重要组成部分。这种基础设施现在被称为 电力再过些年,到了我们这一代,人们发现又有一种新的基础设施出现了,刚开始挺难理解的,这种基础设施就是信息。

最早描述信息基础设施的时候,大家也觉得没什么意义,但现在大家都知道,那就是互联网,互联网无处不在,一切都与之相连。现在有了新的基础设施。这种新的基础设施建立在前两种基础设施之上。这个新的基础设施就是智能基础设施。我知道,现在当我们说有一个智能基础设施时,这毫无意义。但我向你们保证,10 年后,你们回过头来看,就会发现人工智能已经融入了一切。

事实上,我们到处都需要人工智能。每个地区、每个行业、每个国家、每家公司都需要人工智能,因为它已成为基础设施的一部分。而这种基础设施,就像互联网、电力一样,也需要工厂。而我们现在建的这些人工智能工厂,和过去的数据中心不一样。过去的数据中心是为了提供信息和存储,支持企业的 ERP 系统和员工,是一个价值一万亿美元的产业,那是过去的数据中心。从这点来讲,它和同行业里的数据中心有点像。其实它是我们所有人共同努力的结果,但以后会变成一个完全不同的新形态,和现在常见的数据中心完全不一样。

如果说一定要给这些人工智能数据中心找个名字的话,其实叫人工智能工厂更合适。你对它施加能量,它就会产生一些非常有价值的东西。这些东西被称为代币,以至于公司开始谈论上个季度生产了多少代币,上个月生产了多少代币。很快,我们就会像每家工厂一样,谈论我们每小时生产了多少代币。所以说,世界已经发生了根本性的变化。从公司成立的第一天起,我就好奇 1993 年我们的商机有多大。我当时的结论是英伟达的商机是巨大的,3 亿美元?我们要发财了!从 3 亿美元的芯片产业到代表约万亿美元的数据中心机会,再到现在以万亿美元计的人工智能工厂和人工智能基础设施产业。这就是我们正在开展的令人兴奋的未来。现在,我们所做的一切都建立在几项重要技术的基础之上。

说到加速计算和人工智能, NVIDIA真正与众不同的地方在于融合了这些能力,尤其是算法和那些我们称之为CUDA-X 库的库文件。事实上,我们是世界上唯一一家不停谈论库的技术公司。因为库就是一切工作的根基,就像图书馆是知识的起点一样。今天我打算给大家介绍一些新库,不过在这之前,我想先给大家大致讲讲我今天要分享的内容。

大家今天看到的所有东西,都是模拟科学和人工智能的结晶。你们在这里看到的都不是艺术,都是模拟出来的,只是恰好很美而已。拿我眼前的实时计算机图形来说,这不是视频,而是由 GeForce 生成的计算机图形,而且用的是全新的 GeForce RTX 5060。华硕和微星的产品都采用了这个非常厉害的 GPU,你们感觉怎么样?

先来看看这个,是不是很惊艳?这是一台装有 5060 的微星笔记本电脑。GeForce 为世界带来了 CUDA。现在,你看到的每一个像素都是光线追踪的。可能会好奇,在这么高的分辨率下,我们怎么可能实时模拟光子,还保证这么流畅的帧率?原因在于人工智能。我们只渲染 10 个像素中的一个像素。所以你看到的每一个像素,只有十分之一是真正计算出来的。其他九个是人工智能猜测的。有趣吗?这就是我们的 DLSS 神经渲染技术,我们花了很多年才开发出来。从我们开始研究人工智能的那一刻起,我们就开始研发它了。因此,我们走过了 10 年的历程,人工智能彻底改变了计算机图形学的发展。GeForce 为世界带来了人工智能,如今人工智能彻底改变了计算机图形学的走向。GeForce 当年把人工智能带给了世界,现在人工智能又回过头来,把 GeForce 推上了新的高度。各位,这魔法般的科技是不是很让人惊叹?

让我们来谈谈库。当然,一切都以 CUDA 为核心。通过使 CUDA 的性能尽可能高,尽可能普及,使其安装基础遍布全球,这样应用程序就能很容易地找到 CUDA GPU。安装基数越大,就会有越多的开发人员想要创建库。库越多,所做的事情就越惊人,应用就越好,用户就越受益;他们就会购买更多的电脑,电脑越多,CUDA 就越多。这种反馈路径至关重要。

然而,加速计算并不是通用计算。每个人都会编写软件;每个人都会用 Python  C  C++ 编写软件,然后进行编译。通用计算的方法始终如一:编写应用程序、编译应用程序、在 CPU 上运行。然而,这种方法在加速计算中根本行不通。因为如果你能做到这一点,它就会被称为 CPU。如果不改变CPU,就可以编写软件、编译软件并在 CPU 上运行,这有什么意义呢?

事实上,你必须做一些不同的事情,这是很合理的,原因是这么多人致力于通用计算——数万亿美元的创新。怎么突然间在芯片里装几个小部件,计算机的速度就一下子快了 50 倍、100 倍?这根本说不通。因此,我们应用的逻辑是,如果你对它有更多的了解,我们就能加速应用。如果你能创建一个更适合加速的架构,在 99% 的运行时间内以光速运行,你就能加速应用。尽管这只占代码的 5%,但大多数应用程序,代码的一小部分就消耗了大部分的运行时间,这一点非常令人惊讶。

我们就是这么做的,一个领域接着一个领域地突破。我刚刚给你们展示了计算机图形学,我们还有数值库,我们有 CuNumeric,它是最普及的数值库。Aerial  Shona Aerial 是世界上首个针对 5G  6G  GPU 加速无线电信号处理技术。一旦我们实现了软件定义,就可以在其基础上进行人工智能。

因此,现在我们可以将人工智能引入 5G  6G。用于基因组学分析的 Parabricks。用于医学成像的 MONAI。用于天气预测的 Earth-2。用于量子、经典计算机架构和计算机系统的 cuQuantum。用于张量收缩的 cuEquivariance  cuTensor

我们的深度学习离不开威震天,它包含了所有深度学习训练和推理所需的库,彻底改变了计算模式。这一切始于 CUDA 和 cuDNN,后来又有了 Megatron、TensorRT-LLM,最近又推出了用于大型人工智能工厂的全新工具 Dynamo Coupf。CuPy 能加速数据框架,比如 Spark 和 SQL,连结构化数据处理也能加快。Warp 是个 Python 框架,用来描述 CUDA 内核,非常方便。

cuOpt 也很成功,能优化数学运算,比如旅行推销员问题,还能解决供应链优化这类变量多、限制多的问题。cuDSS 和 cuSparse 用于稀疏结构模拟器,在 CAE 和 CFD 领域,比如流体动力学和有限元分析中非常重要,对 EDA 和 CAE 行业帮助很大。还有 cuLitho,它是计算光刻技术的关键库,以前掩膜制作要一个月,计算量极大,现在 cuLitho 能把速度提升 50 到 70 倍,为人工智能在光刻技术中的应用铺平了道路。台积电已经在广泛使用 cuLitho,ASML 和 Synopsys 也是合作开发 cuLitho 的优秀伙伴。

这些库让我们在众多应用领域、科学领域和物理学领域能加速应用,也助力我们开拓市场。我们会关注特定地区和市场,推动向新计算方式的转型。通用计算虽然发展多年,但在很多行业还没走到头,这值得我们深思。

电信业无疑是关键行业之一。就像现在全球的云数据中心已经变成软件定义的一样,电信业也应该是软件定义的。为此,我们花了整整六年时间,不断打磨和优化完全加速的无线接入网络堆栈。现在,这个堆栈在每兆瓦数据传输率或每瓦特数据传输率方面,性能已经达到令人惊叹的水平,和最先进的专用集成电路(ASIC)不相上下。一旦达到这样的性能和功能水平,我们就可以在此基础上叠加人工智能技术。

在这个领域,我们和众多优秀伙伴携手共进。像软银、T-MobileIndosat 和沃达丰等,正在进行相关试验。诺基亚、三星、京瓷等公司则和我们一起开发全栈解决方案。富士通和思科也在积极开发配套系统。如今,我们已具备引入 5G 人工智能、6G 人工智能以及计算人工智能概念的能力。

我们正在借助量子计算来推动这一切。虽然量子计算现在还处于“嘈杂中等规模量子”NISQ)阶段,不过,我们已经可以开始做很多很好的应用,我们对此感到很兴奋。我们正在开发一个量子经典或量子 GPU 计算平台。我们称之为 Q2Q,与世界各地的优秀公司合作。在这个平台上,GPU可以用于预处理和后处理,还能用于纠错和控制。所以我预测,未来所有的超级计算机都会配备量子加速器,都会连接到量子QPU。到那时,超级计算机将集QPUGPUCPU于一体,成为现代计算的标杆。在这个领域,我们和众多优秀的企业展开了紧密合作。

人工智能12 年前,我们从感知人工智能模型起步,那时的模型能够理解模式、识别语音和图像。这是人工智能的开端。过去五年,生成式人工智能成为热点,它不仅能够理解,还能自主生成内容。比如从文本生成文本,这在ChatGPT中得到了广泛应用;还能实现文本到图像、文本到视频、图像到文本的转换,几乎可以实现任何事物到任何事物的生成,这就是人工智能真正令人惊叹的地方。我们发现了一个通用函数近似器,一个通用翻译器。只要我们能对信息进行标记化和比特化,它就能将任何事物翻译成其他任何事物。现在,我们的人工智能已经达到了一个全新的高度。

生成式人工智能为我们提供了非常精准的人工智能。你发一条短信,它就会给你回短信。这是两年前我们第一次使用 ChatGPT 时取得的重大突破。你发一条短信,它就会给你回短信。它能预测下一个单词,预测下一个段落。不过,真正的智能不仅是从一大堆数据里学东西那么简单。真正的智能是要能推理,能解决那些你从来没遇到过的问题。就像你遇到一个复杂的难题,智能系统能够把它一点点拆开,一步一步去解决。它可能还会用到一些规则或者定理,就像我们上学时解数学题一样,一步步推导出答案。更厉害的是,它还能模拟出好多种解决方案,然后权衡哪个更好。你们可能听说过一些相关的技术,比如思维链,就是把问题一步步拆解;还有思维树,就是像树杈一样,想出好多条解决问题的路径。这些技术让人工智能有了真正的推理能力。

现在更神奇的是,当一个人工智能既有推理能力,又有感知能力,比如它能看懂 PDF 文件,还能上网搜索、用各种工具,它就已经变成了一个代理人工智能。这种代理人工智能就像我刚才说的,就像我们每个人一样。你给它一个目标,它就会自己一步一步地去分解,去推理怎么做最好,还会考虑后果。然后就开始行动,这个过程可能包括做研究、干活,甚至和其他人工智能合作。

理解、思考和行动是机器人学的循环。代理人工智能基本上就是数字形式的机器人。这些在未来几年将非常重要。我们正看到这一领域的巨大进步。除此之外的下一波浪潮是能够理解世界的物理人工智能。它们能理解惯性、摩擦力、因果关系等事物。如果我滚动一个球,它从汽车下面滚过,根据球的速度,它可能会滚到汽车的另一边,但球并没有消失,物体永存。你也许可以推理出,如果你面前有一张桌子,而你必须走到桌子的另一边,最好的办法不是直接穿过桌子。最好的办法也许是绕过它或从它下面走过去。能够对这些物理事物进行推理,对人工智能的下一个时代至关重要。我们称之为物理人工智能。

具体来讲,你可以想象一下:我们只要简单地给AI一些提示,它就能生成视频,然后在各种不同场景里训练自动驾驶汽车。一会儿我会给大家展示更多这方面的内容。比如我们有个狗的模拟,生成的场景里有鸟和人。一开始是左边的图片,后续阶段,我们会用推理系统、生成系统和物理人工智能来实现。总之,这种能力最终会转化为我们所说的机器人实体,让机器人也能像理解物理世界一样去行动。

如果你能想象你能促使人工智能生成一段视频,让它伸手拿起一个瓶子,当然,你也可以想象告诉机器人伸手拿起瓶子。如今的人工智能已经具备了做这些事情的能力。这正是我们在不久的将来要做的事情。为了实现这一目标,我们正在制造的计算机具有与以往计算机截然不同的特性。大约三年前,名为 “Hopper “的革命性计算机问世。它彻底改变了我们所知的人工智能。它可能成为世界上最流行、最知名的计算机。在过去的几年里,我们一直在研究一种新的计算机,使我们能够进行推理时扩展。基本上,我们的思维速度快得令人难以置信。因为当你思考时,你会在脑中产生大量的标记你的世界你会产生大量的想法,你会在大脑中反复推敲,然后得出答案。因此,过去的一次性人工智能现在将成为思考型人工智能、推理型人工智能、推理时间扩展型人工智能。而这需要更多的计算。因此,我们创建了一个名为格蕾丝布莱克韦尔(Grace Blackwell)的新系统,它能够做到以下几点。

它具有扩展能力,即把一台计算机变成一台巨型计算机。扩展是指把一台计算机连接到许多台计算机上,让工作在许多不同的计算机上完成。扩大规模很容易。扩大规模则难上加难。建造超越半导体物理学极限的大型计算机难上加难。格蕾丝布莱克韦尔就是这样做的。格蕾丝布莱克韦尔几乎打破了一切。所有在座的各位,你们中的许多人都在与我们合作构建格蕾丝布莱克韦尔系统。

我很高兴地告诉大家,我们正在全面投入生产,但我们也可以说,这是一项极具挑战性的工作。虽然基于 HGX 的布莱克韦尔系统从去年年底就开始全面投产,并且从今年 2 月起就可以使用,但我们现在才刚刚将所有格雷斯布莱克韦尔系统上线。它们每天都在不断上线。它在 CoreWeave 中的使用时间已达数周。许多 CSP 已经在使用它,现在你开始看到它从各个地方出现。每个人都开始在推特上发布格蕾丝-布莱克韦尔(Grace Blackwell)将于今年第三季度全面投产的消息。

正如我每年都承诺的那样,我们每年都会提高平台的性能。今年第三季度,我们将升级到格雷斯布莱克韦尔 GB200GB200 将提高相同的架构,相同的物理尺寸,相同的电子机械,但内部芯片已经升级。它升级了新的 Blackwell 芯片,推理性能提高了 1.5 倍,HBM 内存提高了 1.5 倍,网络性能提高了 2 倍。因此,系统整体性能更高。接下来让我们来看看格雷斯布莱克韦尔的内部结构。

格蕾丝布莱克韦尔的计算节点是整个系统的基础。这是其中一个节点,上一代产品的设计。注意中间这里,它现在是100%液冷的,但其他部分基本没变。所以它可以轻松插入现有的系统和机箱中。格雷斯布莱克韦尔GB200 系统的推理性能提升了1.5倍。虽然训练性能和之前差不多,但推理性能可提高了一大截。现在,这台系统能达到40 petaflops的算力,这相当于2018Sierra超级计算机的水平。要知道,当年的Sierra超级计算机用了18000Volta GPU。如今,一个节点就顶替了整台超级计算机。六年间,性能直接提升了4000倍,这就是极端的摩尔定律。

如我之前所说,英伟达每隔十年就能把计算能力提升一百万倍,我们依然在这条路上稳步前行。但仅靠提升芯片速度是不够的,因为芯片的速度和尺寸都有物理极限。以 Blackwell 为例,我们通过将两个芯片相连来突破单一芯片的限制。为此,台积电与我们合作开发了先进的 CoWoS-L 工艺,这才让制造如此巨型的芯片成为可能。

但即便如此,我们对芯片尺寸的需求仍在增长,这就促使我们开发了 NVLink 技术。NVLink 是全球最快的交换机,它的传输速度高达每秒 7.2 太比特。一个机架上部署了九台这样的交换机,它们相互连接构成了一个强大的网络。别看我把它举起来好像很轻松,其实它特别沉,差不多有70磅重。它就好比是NVLink的脊柱,里面有两英里长的电缆,总共5000根,设计得非常科学合理,全都是同轴电缆,针脚还对得严丝合缝。通过名为 NVLink Switch 的网络,它能将 72 个 GPU 与其他 72 个 GPU 连接起来。

NVLink 的核心优势在于其高达每秒 130 太比特的带宽。作为对比,整个互联网的峰值流量仅为每秒 900 太比特。简单计算一下,NVLink 的带宽相当于互联网流量的八分之一还多。这意味着在一个由九个 NVLink 交换机构成的系统中,每个 GPU 都能与其他 GPU 实现即时通信。

这就是 GB200 的神奇之处。由于 SerDes 的驱动距离有限,我们把所有组件都集成在一个机架内,从芯片到开关,再到脊柱和其他组件,全靠电气驱动连接。一个机架的功率高达 120 千瓦,因此所有设备都得用液体冷却。现在,我们能将 GPU 从一块主板扩展到整个机架,整个机架就像一块巨大的主板,这就是创新所在。

如今,GPU 的性能、内存和网络带宽都非常惊人,我们完全可以将这些能力扩展到更大的系统中。英伟达的很多产品都体积庞大,因为我们建造的是人工智能工厂,而不是传统数据中心。像 CoreWeave 和甲骨文云这样的设施,机架功率密度很高,必须加大机架间距来散热。总之,我们建造的是人工智能工厂,而不是普通数据中心。

这就是xAI 巨像工厂,代号星际之门,面积达 400 万平方英尺,功率高达 1 千兆瓦。所以,想象下这座工厂吧。这座 1 千兆瓦的工厂造价大概在 600  800 亿美元之间,其中电子、计算部分这些系统占 400 500 亿美元。因此,这些都是巨大的工厂投资。为什么要建工厂呢?其实大家都懂,买得越多,做得也越多,这就是工厂的规模效应。技术太复杂了。事实上,光是在这里看,你还是无法深刻体会到我们所有的合作伙伴和中国台湾观众席上的所有公司所做的了不起的工作。因此,我们为大家制作了一部电影。

Blackwell 的诞生堪称工程界的奇迹。一切始于台积电的一块空白硅晶圆,经过数百道芯片加工和紫外线光刻工序,在一个 12 英寸的晶片上,一层一层地集成了 2000 亿个晶体管。随后,晶圆被切割成独立的 Blackwell 芯片,经过严格测试和筛选,优质的芯片被挑选出来继续后续流程。

在接下来的步骤中,台积电、矽品和 Amkor 采用先进的基板上芯片工艺,将 32 个 Blackwell 芯片和 128 个 HBM 堆叠在一个定制的硅内插晶片上。通过直接蚀刻在晶片上的金属互连线,Blackwell GPU 和 HBM 堆栈被连接到每个系统级封装单元中,确保所有部件精准锁定到位。组件经过烘烤、成型和固化等工序后,最终形成 Blackwell B200 超级芯片。每块 Blackwell 芯片还需在 125 摄氏度的环境下进行数小时的压力测试,以确保其性能达到极限。

在富士康,机器人 24 小时不间断地工作,将 10,000 多个元件精准地放置到 Grace Blackwell PCB 上。与此同时,全球各地的工厂也在紧锣密鼓地准备其他元件。来自 Cooler Master、ABC Auras 和 Delta 的定制液体冷却铜块,确保芯片始终处于最佳工作温度。在富士康的另一家工厂,ConnectX-7 和 SuperNIC 正在制造中,以实现扩展通信。BlueField 3 DPU 则用于卸载和加速网络、存储和安全任务。

当所有部件准备就绪后,它们被精心集成到 GB200 计算托盘中。NVLink 是英伟达发明的一种突破性高速链路技术,用于连接多个 GPU 并扩展为一个庞大的虚拟 GPU。NVLink 交换机托盘由 NVLink 交换机芯片构成,提供每秒 14.4 TB 的全对全带宽。NVLink spines 构成一个定制的盲配背板,集成 5,000 根铜缆,提供每秒 130 TB 的全对全带宽。这使得所有 72 个 Blackwell 或 144 个 GPU 芯片能够连接成一个巨大的 GPU。

来自富士康、纬创、广达、戴尔、华硕、技嘉、HPE、超微等合作伙伴的零部件从世界各地汇聚而来,由熟练的技术人员组装成一台机架规模的人工智能超级计算机。总计 120 万个组件、两英里长的铜缆、130 万亿个晶体管,最终组装成重达 18 公斤的人工智能超级计算机。从第一个晶体管在晶圆上蚀刻,到最后一个螺栓固定在 Blackwell 机架上,每一步都凝聚着合作伙伴的心血、精度和工艺。它不仅仅是一个技术奇迹,也是中国台湾科技生态系统奇迹的见证。

我们对大家携手取得的成就感到无比自豪,谢谢大家!听起来是不是很不可思议?但这就是你们的实力!中国台湾不仅为全球制造超级计算机,今天,我特别激动地宣布,我们也在为中国台湾打造人工智能。今天,中国台湾富士康、中国台湾政府、英伟达(NVIDIA)、台积电(TSMC)将联手在这里构建中国台湾的人工智能基础设施和生态系统,并打造中国台湾的第一台巨型人工智能超级计算机。谢谢大家!

有人需要人工智能计算机吗?台下有人工智能研究人员吗?每个学生、每个研究人员、每个科学家、每个初创公司、每个大型公司……台积电本身已经做了大量的人工智能和科学研究。富士康在机器人方面也做了大量工作。我知道在座的还有很多其他公司,我马上就会提到你们,它们都在进行机器人研究和人工智能研究。因此,在中国台湾拥有世界一流的人工智能基础设施非常重要。

所有这些都是为了让我们能够构建一个非常大的芯片和 NVLink。这一代的 Blackwell 让我们有可能创造出这些令人难以置信的系统。这是和硕、QCT、纬创和 Wiwynn 的产品。这是富士康、技嘉和华硕的产品。你可以看到它的正面和背面。它的整个目标就是把这些你可以看到有多大的 Blackwell 芯片,变成一个巨大的芯片。当然,NVLink 让这一功能成为可能。但这也低估了系统架构的复杂性,以及将其连接在一起的丰富的软件生态系统。由 150 家公司组成的整个生态系统共同打造了这一架构,整个行业的技术和软件生态系统历时三年。这是一项巨大的产业投资,现在我们希望让任何想建立数据中心的人都能做到这一点。

可能是一大批英伟达 GB200 或英伟达的其他加速计算系统。也可能是其他人。因此,今天我们将发布一些非常特别的产品。我们将发布NVIDIA NVLink-FusionNVLink-Fusion可以让你构建半定制的人工智能基础架构,而不仅仅是半定制芯片,因为那是美好的过去。你想要构建人工智能基础设施。而每个人的人工智能基础架构都可能有些不同。有些人可能有更多的 CPU,有些人可能有更多的英伟达GPU,有些人可能是定制的 ASIC。而这些系统的构建难度可想而知。

它们都缺少一个不可思议的要素,这个不可思议的要素就是 NVLink。有了 NVLink,你就可以扩展这些半定制系统,构建真正强大的计算机。今天发布的 NVLink-Fusion 就是这样,这就是英伟达的平台,有 CPUGPUNVLink 交换机,还有谱系-X  InfiniBand 网络,涵盖了网络互联、交换机和整个系统,是完整的端到端基础设施。当然,你要是愿意,也可以混搭别的东西。现在,我们甚至可以在计算层面进行混合和匹配。

这就是用定制 ASIC 要做的事。我们有很棒的伙伴,马上要宣布了,他们正跟我们合作,把你的特殊 TPU 或其他特殊组件、加速器整合进来。不一定是变压器加速器,你想集成到大型扩展系统的任何加速器都行。我们创建了一个 NVLink Triplet。它基本上是一个开关,可以直接连接到你的芯片,你可以将 IP 集成到您的半定制 ASIC 中。一旦你做到了这一点,它就能与我提到的计算板相匹配,并与我向你展示的人工智能超级计算机生态系统相匹配。

比如,如果你自己有 CPU,而且已经构建了庞大的 CPU 生态,想把英伟达集成进去,现在完全可以实现。我们为你的 ASIC 提供 NVLink 芯片到芯片接口,并通过 NVLink Triplet 连接,让它直接连到 Blackwell 芯片和下一代 Rubin 芯片上,完美融入整个生态。现在这个体系灵活又开放,大家都能参与进来。所以你的人工智能基础架构里可以有少量英伟达芯片、大量 CPU  ASIC,当然也可以有很多英伟达GPU

总之,你可以把 NVLink 基础设施用在 NVLink 生态里,并且能和 Spectrum-X 完美对接,这些技术和合作背后都有强大的工业实力撑腰。这就是 NVLink-Fusion;无论你是否完全从我们这里购买,这都非常棒。没有什么比你从英伟达购买所有产品更让我高兴的了;我只是想让你们知道这一点。但是,如果你只从英伟达公司购买一些东西,也会给我带来极大的快乐。

我们有一些很棒的合作伙伴:L-ChipAsteraMarvell 以及我们的合作伙伴联发科都将与我们合作,为 ASIC 或半定制客户提供服务。超大规模厂商或 CPU 供应商希望构建这些产品,他们将成为半定制 ASIC 供应商。富士通(Fujitsu)和高通(Qualcomm)也在使用 NVLink 构建他们的 CPU,以融入我们的生态系统。此外,我们还与 Cadence  Synopsys 合作,将 IP 转移给他们,这样他们就可以与你们所有人合作,将 IP 应用于你们的所有芯片。因此,这个生态系统是令人难以置信的,而这恰恰突出了NVLink-Fusion 生态系统。一旦你与他们合作,你就会立即融入整个更大的英伟达生态系统,使你有可能扩展到这些人工智能超级计算机。

接下来,我想给大家介绍一些全新的产品类别。之前给大家展示过几款不同的电脑,但为了满足全球大多数用户的需求,还有一些电脑有待补充。但在此之前,我想告诉大家一个最新消息,事实上,我们称之为 DGX Spark 的新计算机已经全面投入生产。DGX Spark将准备就绪,很快就会上市,大概在几周内。

我们的合作伙伴非常强大:戴尔、HPE、华硕、微星、技嘉、联想,难以置信的合作伙伴与我们一起工作。这是 DGX Spark,这实际上是一个生产单元。不过,我们的合作伙伴正在构建一些不同的版本。这是为人工智能原生开发者设计的。如果你是开发人员、学生、研究人员,你不想不停地打开云并做好准备,然后,当你完成后,再刷新它。,基本上是你自己的人工智能云,就在你身边,它一直开着,一直等着你。它允许你进行原型设计和早期开发,就是神奇之处。这是 DGX Spark,它有 1 petaflop  128 gigabytes

2016 年我交货 DGX-1 时,光机箱就重达 300 磅,我连整台电脑都举不起来。这就是 DGX-1。这是 1 petaflop  128 千兆字节。当然,这是 128 千兆字节的 HBM 内存,这是 128 千兆字节的 LPDDR5X 内存。事实上,两者的性能相当接近。但最重要的是,你能做的工作,你能在这上面做的工作,与你能在这里做的工作是一样的。这是在短短 10 年时间内取得的惊人成就。好了,这就是 DGX Spark,适合任何想拥有自己的人工智能超级计算机的人。 我们的合作伙伴可以自己定价。但有一点可以肯定,每个人都可以拥有一台作为圣诞礼物。

我还有一台电脑要给大家看看。要是DGX Spark还不够看的话,这还有个大家伙!感谢珍妮,这就是珍妮和保罗,要是刚才那台还不够大,这还有一台更大的!戴尔、HPE、华硕、技嘉、微星、联想全都有售,PNYLeada马上也会推出,这些工作站公司都很出色。这台电脑就是你的个人 DGX 超级计算机,它的性能已经达到了普通墙壁插座所能支持的极限。你可以把它放在厨房里,不过要是有人开了微波炉,估计就快到它的极限了。这就是墙壁插座的极限了。

这台电脑叫 DGX 站,它的编程模型和我之前给大家展示的巨型系统一模一样,这就是它的神奇之处。一个架构,就能提供足够的能力和性能,运行 1 万亿个参数的人工智能模型。记住,Llama 是 70B 参数,而 1 万亿参数的模型在这台机器上运行得非常棒!所以,这就是 DGX 站,这些系统都是为新一代软件打造的人工智能原生计算机。

这些计算机其实不用非得兼容 x86 架构,也不一定要运行传统的 IT 软件。它们不需要运行虚拟机管理程序,也不一定要运行 Windows 系统。这些计算机完全是为现代人工智能原生应用量身打造的。当然了,这些人工智能应用也可以通过 API 被传统的经典应用调用。但是,为了将人工智能带入一个新世界我们必须追根溯源,我们必须重塑计算,将人工智能引入传统的企业计算。我们知道,企业计算实际上有三个层次。它不仅仅是一个计算层,它包括计算、存储和网络,它始终是计算、存储和网络,正如人工智能改变了一切,人工智能也理所当然地改变了企业 IT 的计算、存储和网络。下层必须彻底重塑,而我们正在这样做,我将向大家展示一些新产品,这些产品将打开、释放企业 IT

对我们来说,必须和传统IT行业合作,同时还得增加一种新能力,那就是代理人工智能(Agentic AI)。基本上是:数字营销活动经理、数字研究员、数字软件工程师、数字客户服务、数字芯片设计师、数字供应链经理。我们过去所做的所有工作都是数字化版本,人工智能版本。正如我之前提到的,Agentic AI 具有推理、使用工具、与其他 AI 合作的能力。因此,在很多方面,这些都是数字化工人,他们是数字员工。

世界劳动力短缺到 2030 年,我们将缺少 3000 万到 5000 万名工人。这实际上限制了世界的发展能力。因此,现在我们有了这些可以与我们一起工作的数字代理。现在,100% 的英伟达软件工程师都有数字代理与他们一起工作。这样他们就能帮助他们,协助他们开发出更好的代码,提高工作效率。未来,大家都会有一层代理人工智能,这是我们的愿景。以后,每个人都能拥有自己的人工智能代理。

那么世界会发生什么变化?企业会发生什么变化?我们的人力资源是为人类员工服务的,而 IT 成为数字员工的人力资源。因此,我们必须为今天的 IT 行业、今天的 IT 员工创造必要的工具,使他们能够管理、改进和评估在公司内部工作的一整套人工智能代理。这就是我们的愿景。但首先,我们必须重塑计算。

企业 IT 现在大多还是基于 x86 架构的,跑的也都是传统的软件,比如 VMware 或者 IBM、Red Hat、Nutanix 的虚拟化软件,各种经典的老旧应用一大堆。简单来说,就是我们现在的计算机还要能跑这些老东西,同时还得加上新的“代理人工智能”功能。接下来我带大家看看我们是怎么做到的。

这是全新的 RTX Pro Enterprise,它是一款功能强大的 Omniverse 服务器。这台服务器可以运行一切。当然,作为 x86,它可以运行所有经典的管理程序。它可以运行所有经典的管理程序,像 Kubernetes 这样的工具也毫无压力。IT 部门管理网络、集群,以及协调工作负载的方式,和以前完全一样。它甚至能把Citrix 和其他虚拟桌面流畅地传送到你的 PC 上。简单来说,现在世界上所有运行的东西,理论上都能在这台服务器上跑起来。

Omniverse 可以在这里完美运行。除了这些,RTX Pro Enterprise 还是企业人工智能代理的得力助手。这些人工智能代理可以是文本形式,也可以是图形形式,甚至可以是视频形式。你可以想象一下,小 JT 或者小玩具詹森这样的数字形象会来到你身边,帮助你完成工作。无论是文本、图形还是视频,这些工作负载都可以在这个系统上运行。不管是哪种模式,所有的模型和应用程序都能在这台机器上顺利运行。甚至像《危机》这样的大型游戏也能在这里畅玩。各位 GeForce 玩家应该很期待吧?在座的有没有 GeForce 玩家?

连接这些 AGPU 的是全新的 RTX Pro 6 主板,它其实是一个交换网络。CX8 是一种新型芯片,它既是交换机,又是网络芯片,是目前世界上最先进的网络芯片之一。现在已经开始批量生产了。在 CX8 中,你可以插入GPU,它连接在 PCI Express 上,所有的 GPU 都能通过 CX8 与其他 GPU 进行高速通信,网络带宽高达每秒800 千兆比特。这种架构的性能简直令人难以置信。

我在 GTC 上跟大家讲过,我们在人工智能工厂的世界里,衡量性能的关键是吞吐量。吞吐量就是每秒的代币数,也就是 Y 轴。工厂的产出越多,生产的代币也就越多。简单来说,吞吐量就是每秒的代币数量。然而,每个人工智能模型都不一样。有些模型需要大量的推理,这就要求每个用户的性能都非常高,也就是每个用户每秒的代币数必须很高。这就是工厂的挑战:你要么追求高吞吐量,要么追求低延迟,但很难两者兼得。我们的目标是创建一个操作系统,既能实现高吞吐量,又能保持极低的延迟,这样每个用户都能获得出色的体验。

这张图表展示了计算机的整体性能,以及工厂的整体能力。不同的颜色代表不同的 GPU 配置方式,比如流水线并行、专家并行、批处理、投机解码等。不同的工作负载和应用场景需要不同的算法,我们必须根据这些需求来优化系统。这张图表的外部区域,也就是曲线的整体区域,代表了工厂的最终能力。再给大家介绍一下,这是Hopper H100,它是世界上最著名的计算机之一,采用 HGX 架构,价格高达 225,000 美元。而刚刚大家看到的我们的企业服务器,性能是它的 1.7 倍,简直太惊人了!这是 Llama 70B 模型,还有 DeepSeek R1DeepSeek R1 的性能是 H100 的四倍,这得益于它的优化设计。DeepSeek R1 是献给世界人工智能产业的一份厚礼,它在计算机科学领域取得了重大突破,为研究人员开辟了新的研究方向。无论我走到哪里,DeepSeek R1 都对人工智能、推理技术产生了深远影响。

如果你正在构建企业级人工智能,我们为你准备了一款性能卓越的服务器。这可能是我们有史以来最大规模的系统上市,我们的 RTX Pro 服务器正在和业内所有合作伙伴进行批量生产。计算平台和存储平台现在走的是不同的路。因为人类用 SQL 这类结构化数据库来查东西,但人工智能得靠非结构化数据,它需要语义和意义。因此,我们必须创建一种新型的存储平台。这就是英伟达人工智能数据平台。在这个平台上,和 SQL 服务器、文件存储软件一样,会有一套非常复杂的软件。基本上,大多数存储公司其实都是软件公司,这层软件复杂到让人难以想象。

在新型存储系统的基础上,我们要建立一个新的查询系统,叫做 IQ,也就是英伟达 AIQ。这玩意儿非常先进,基本上和存储行业的所有人都有合作。未来的存储不再是 CPU 放在存储机架上,而是 GPU 放在存储机架上。因为要在非结构化数据和原始数据里找意义,得编制索引、搜索、排序,这些都很耗费计算资源。所以,未来大多数存储服务器前面都会有一个 GPU 计算节点。

这一切都是从我们建立的人工智能模型开始的。我们投入了大量精力和技术去训练这些模型,而且我们用的数据完全透明,安全可靠,完全可以用来训练。我们会把数据和训练后的模型展示给你们,这些模型的性能绝对令人惊叹。比如 Llama Nemotron 推理模型,现在就可以下载,它是目前世界上最好的推理模型,下载量非常高。

除了这个,我们还有很多其他模型,用来完成所谓的 IQ,也就是检索部分。这些模型的速度比现有的快15倍,查询结果提升50%,而且这些模型都可以使用。IQ 蓝图是开源的,我们和存储行业合作,把这些模型集成到他们的存储堆栈和人工智能平台中,这就是 VASTVAST 利用英伟达 IQ 蓝图和 Nemo Retriever 加速人工智能数据平台,只用了三天时间就构建了一个销售研究人工智能代理。这个平台可以持续提取、嵌入和索引数据,实现快速语义搜索。首先,代理会起草大纲,然后接入客户关系管理系统、多模态知识库和内部工具。最后,它用Llama Nemotron 把大纲变成一步步的销售计划,这在过去可能需要好几天的时间,现在几分钟就能搞定。有了VAST 的加速人工智能数据平台,企业可以为每位员工创建专门的代理。

这就是 VAST。戴尔作为世界领先的存储厂商之一,拥有一个出色的人工智能平台。日立也打造了一个优秀的人工智能数据平台。IBM 正在和英伟达 Nemo 合作构建人工智能数据平台,而 NetApp 也在开发自己的 NetApp AI 平台。这些平台都是开放的。如果你正在开发人工智能平台,并且想在前面加上语义查询人工智能,那么英伟达Nemo 是全球最好的。这就是现在的企业计算和企业存储。

接下来,我们聊聊一个新的软件层,叫 AI Ops。就像供应链有运营部门,人力资源也有运营部门一样,未来IT 部门也会有专门的 AI 运营部门。他们的工作就是整理数据、微调模型、评估模型,确保模型的安全和防护。我们有很多必要的库和模型,可以集成到 AI Ops 生态系统里。为了实现这个目标,我们已经和一些优秀的伙伴合作,把产品推向市场。

比如 CrowdStrikeDataikuDataRobot 都在和我们合作。这些伙伴都在做人工智能操作,包括创建、微调模型,以及在企业中部署人工智能模型。英伟达的库和模型都集成在里面。还有 DataStacksElastic(听说它们的下载量高达 4000 亿次)、NutanixRed Hat,以及中国台湾的趋势科技。简单来说,我们就是要给全球企业 IT 带来这样的能力:在保留现有系统的基础上,加入人工智能。我们已经有了企业就绪的系统和强大的生态系统合作伙伴。戴尔和其他公司会把这些平台推向全球企业 IT

先说说企业 IT 吧。我们希望能把人工智能融入到企业 IT 的很多面面,但绝不是要推翻现有的系统,毕竟企业还得正常运转。我们要做的是,在现有的基础上加入人工智能,让它们相辅相成。现在,我们有了完备的企业级系统,还有一系列强大的生态合作伙伴,比如戴尔、Jeff Clark 的公司(他可是我们长期合作的好伙伴,来中国台湾的时间和我一样长)等等,他们会帮我们把这些先进的平台推向全球的企业 IT 市场。

接下来聊聊机器人。代理人工智能也好、人工智能代理也好,其实本质上就是数字机器人。机器人之所以能被称为机器人,关键在于它们能感知、理解和规划,这也就是代理的核心功能。不过,我们不仅仅满足于数字层面,还希望制造出实体机器人。要想做到这一点,机器人得先学会怎么当机器人,但这在现实世界里很难实现。

所以,我们得创造一个虚拟世界,让机器人在里面学习怎么成为一个出色的机器人。这个虚拟世界得遵循物理定律才行。问题是,大多数物理引擎都做不到高保真地处理刚体和软体的模拟。如何做呢?我们和 DeepMind、谷歌DeepMind 以及迪士尼研究院合作,开发出了牛顿”——目前世界上最先进的物理引擎,它将在七月份开源。这玩意儿功能强大得令人咋舌,完全由 GPU 加速,还能通过微分从经验中学习,保真度极高,实时性超强。我们可以把牛顿引擎集成到 MuJoCo 和英伟达的 Isaac Sim 里,不管你想用哪种模拟环境或框架,它都能完美适配。

有了它,我们就能让这些机器人栩栩如生。谁不想家里有个小机器人追着狗跑,把狗逗得团团转?你看到的不是动画,而是模拟。机器人在模拟环境里学本事,比如在沙子和泥巴里灵活移动。将来,我们会把训练好的人工智能模型放进模拟机器人里,让它成为优秀的机器人。

我们为机器人行业做了不少事。在自动驾驶汽车领域,我们有三个系统:一是用 GB200GB300 这样的系统训练人工智能模型;二是在 Omniverse 里模拟这些模型;三是把模型应用到自动驾驶汽车上。今年,奔驰汽车全球部署我们的自动驾驶堆栈,我们的合作模式很灵活,合作伙伴可以自由选择用我们的计算机、库或运行时,非常方便。

我们的 Isaac-Grunt 平台也一样,模拟用 Omniverse,计算和训练系统也一样。完成模型后,放到 Isaac-Grunt 平台,由新计算机捷森雷神驱动,它是个强大的机器人处理器,适用于自动驾驶汽车和各种机器人系统。上面有英伟达 Isaac 操作系统,负责神经网络处理和传感器管道,提供执行结果。我们还和机器人团队一起创建预训练模型,提供所有创建模型的工具。Isaac ROS 1.5 已经开源,很受欢迎。

机器人技术的最大挑战在于数据策略。我们用人工智能放大人类演示系统,收集更多数据训练模型。GR00T 项目用 Cosmos 基础模型生成大量合成数据,从人类演示中学习,让机器人掌握新动作。这解决了机器人数据难题,让少量人类演示者完成大量工作。

人类机器人技术很重要,因为劳动力短缺,而这种技术可部署范围广。它可能成为数万亿美元的产业,技术革新速度快。这种应用需要三台计算机:学习用的人工智能、模拟引擎和部署机器人。所有移动设备都将成为机器人。

将机器人投入工厂时,记住工厂本身也是机器人。台达的生产线正在为机器人未来做准备。未来工厂里的机器人需要在数字孪生中协同工作。数字孪生系统,如台达、Wiwynn 等,都是模拟生成的。和硕、富士康、技嘉、广达、纬创等公司正在 Omniverse 上开发数字孪生,用于制造流程。台积电与 MedAI 合作,优化工厂布局,开发人工智能工具。Pegatron 模拟焊膏点胶,减少生产缺陷。富士康、纬创和广达利用数字孪生测试数据中心效率,开发实体机器人。数字孪生成为机器人训练基地,连接物联网后,成为实时交互式仪表盘。

中国台湾是软件定义制造的先驱,英伟达的很多工作都来自这里。中国台湾是世界电子制造之都,人工智能和机器人技术将改变一切。历史上首次,你们的工作改变了所有行业,现在又将改变你们自己。GeForce 曾为世界带来人工智能,现在人工智能又改变了 GeForce。感谢与大家的合作。

最后,我们要宣布一款新产品。我们在华盛顿特区太空中心建设已久,现在要揭晓我们有史以来最大的产品之一。我们将建造一个名为英伟达星座的新办公区,它将落户北投石林。我们已与现有业主谈妥租约转让,但市长想知道市民是否同意建造这座大楼。如果同意,请给他打电话。让我们开始建造英伟达星座,为员工提供新空间。

我要感谢大家多年来的合作。我们正面临着一个千载难逢的机遇,毫不夸张地说,这个机遇非常独特。这是我们第一次不仅要创造下一代 IT,从 PC 到互联网,到云计算,再到移动云计算,我们已经做过好几次了。但这一次,我们不仅要创造下一代 IT,实际上,我们还要创造一个全新的行业。这个全新的行业将为我们带来巨大的机遇。我期待着与大家合作,共同打造人工智能工厂、企业代理和机器人。你们这些了不起的合作伙伴将与我们一起围绕一个架构构建生态系统。

因此,我要感谢大家今天的光临。祝大家在 Computex 上不仅玩得开心,而且收获满满。谢谢大家!非常感谢你们的到来!



(文:硅星GenAI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往