分享缩略图

分享到:
链接已复制
首页> 数智中国>

黄仁勋CES2026宣告:物理AI与万亿超算开启“思考纪元”

时间:2026-01-30

来源:中国网

分享到:
链接已复制
字体:

英伟达新一代Vera Rubin AI平台现已全面投产。通过颠覆性的“极端协同设计”,该平台在晶体管数量仅微增1.6倍的前提下,实现了推理性能5倍于前代、并将推理成本压缩至十分之一的飞跃,直指当前AI智能体“用不起”与“记不住”的核心瓶颈。CEO黄仁勋宣告,AI正从“生成”迈向“思考”的下半场,并高呼“物理AI的ChatGPT时刻”已经临近。通过开源可解释的自动驾驶模型Alpamayo,以及与工业巨头西门子达成深度合作,英伟达清晰地展示了其从底层芯片、到智能汽车、直至整个实体制造的全栈AI拼图。

在北京时间6月3日凌晨5点的拉斯维加斯,全球科技界的风向标——国际消费电子展(CES)主舞台上,英伟达CEO黄仁勋身着标志性黑色皮衣,以一场充满活力的奔跑登场,拉开了名为“All in AI”的战略序幕。

面对市场对“AI泡沫”与算力瓶颈的双重疑虑,黄仁勋直言:“AI竞赛已经开始……若不进行全栈的极端协同设计,根本无法跟上模型每年10倍的增长速度。”他并未发布游戏显卡,而是携全新Vera Rubin平台重磅亮相,通过系统级协同设计,将AI推理性能提升5倍、成本压缩至1/10,直指智能体“算不起、记不住”的产业痛点。

黄仁勋在会上宣告,AI正进入“会思考”的下半场,并预言“物理AI的ChatGPT时刻已近”。通过开源自动驾驶模型Alpamayo,并深化与西门子等工业巨头的合作,英伟达向外界完整展示了其从底层芯片、推理平台到机器人系统的全栈拼图——不再限于虚拟世界,而是将智能真正注入物理场景,勾勒出一幅从原子到机器的AI落地蓝图。

英伟达此次演讲围绕三大核心维度展开,系统勾勒出其引领AI下一阶段的战略布局:

重构算力基础设施:以“极端协同设计”打破成本与性能壁垒

面对晶体管增长放缓(仅1.6倍)的物理限制,英伟达通过全新Vera Rubin平台、NVLink 6互联技术及BlueField-4驱动的推理存储方案,实现全栈优化,将AI推理性能提升5倍,Token生成成本降至原1/10。此举旨在攻克智能体“算不起”与“记不住”(显存墙)的核心难题,为AI从训练转向大规模推理奠定硬件基础。

推动模型范式演进:从“生成”走向“推理与思考”

黄仁勋指出,AI已超越单次问答,进入需多步推理、规划与记忆的“思维链”时代。为此,英伟达开源Alpamayo(自动驾驶推理)、Cosmos(物理世界模拟)、Nemotron(智能体)三大模型系列,赋予AI处理未知复杂场景的逻辑与长程记忆能力,正式确立从“生成式AI”到“推理型AI”的范式转移。

加速物理世界融合:AI从云端落地“硬世界”

英伟达宣布“物理AI”进入商业化阶段,明确梅赛德斯-奔驰搭载其系统的车型将于2026年Q1上路,并展示与西门子在工业元宇宙的全栈合作——整合Omniverse仿真环境、合成数据生成与机器人控制系统,实现从虚拟到实体、从“软世界”到“硬世界”的规模化注入,覆盖汽车、制造、机器人等关键领域。

演讲要点:

Vera Rubin全面投产:AI芯片的效能革命

英伟达新一代AI计算平台Vera Rubin已宣布全面进入生产阶段,其全部六款核心芯片均已完成制造与关键测试。在晶体管数量仅提升1.6倍逼近物理极限的情况下,通过颠覆性的“极端协同设计”,该平台实现了推理性能5倍于前代、训练性能提升3.5倍的巨大飞跃。这一突破性进展已获得市场核心客户认可,微软的下一代AI超级工厂将率先部署数十万颗Rubin芯片,标志着新一代基础设施的落地。

成本直降10倍:打开商业化闸门

针对当前AI应用成本高昂的核心痛点,Rubin平台给出了明确回应:其推理Token的生成成本可压低至上一代Blackwell平台的1/10。这一数量级的成本下降,使得需要持续运行与复杂交互的Agentic AI(智能体)具备了大规模商业应用的可行性,从根本上回应了市场对AI经济性的质疑,有望引爆下一波AI应用浪潮。

突破“显存墙”:为AI赋予海量记忆

面对AI处理长上下文时的“记忆”瓶颈,英伟达推出了创新解决方案。通过基于BlueField-4 DPU构建的推理上下文内存存储平台,该架构能够为每颗GPU额外增加高达16TB的高速共享内存。这一设计彻底打破了传统HBM显存的容量限制,解决了长文本、持续对话等场景下的“显存墙”问题,为AI担任复杂、长期的助手角色铺平了道路。

物理AI落地:自动驾驶模型年内上路

英伟达发布了具备推理能力的自动驾驶模型Alpamayo,标志着AI从数字世界走向物理世界的变现时刻正式开启。该模型不仅能执行驾驶任务,更能理解并解释决策逻辑。公司明确宣布,搭载其全栈DRIVE系统的梅赛德斯-奔驰CLA车型,将于2026年第一季度在美国实际道路投入运行,开启了物理AI切实的营收周期。

重构冷却经济学:直接节省全球6%电力

在能效方面,Rubin架构带来了颠覆性设计。其系统支持45℃的温水进行冷却,无需依赖高能耗的冷水机组。仅此一项革新,就有望为全球数据中心直接节省高达6%的总电力消耗。这不仅大幅降低了运营成本,更在能源配额日益紧张的背景下,为数据中心的可持续扩张提供了关键支撑。

开源生态扩张:构建全领域AI工具箱

英伟达宣布大幅扩展其开源模型生态,覆盖物理AI、自动驾驶、机器人、生物医学等多个关键前沿领域。与开源战略配套的,还有其发布的一系列高质量数据集与专用工具链。此举旨在降低各行业AI研发门槛,通过构建繁荣的开源社区,巩固其从底层硬件到上层模型的全面影响力。

工业元宇宙启航:从设计芯片到设计工厂

在产业融合层面,英伟达宣布与工业巨头西门子达成深度全栈合作。此次合作旨在将英伟达的AI技术与Omniverse平台深度植入全球工业制造的底层,实现从“设计芯片”到在虚拟世界中“设计与模拟整个工厂”的跨越。这标志着英伟达的技术版图正从数据中心,全面延伸至万亿美元规模的实体制造业核心。

新王亮相:Rubin全面投产,以十倍效率重塑AI未来

“Vera Rubin已经全面投产。”在CES展会上,英伟达创始人黄仁勋正式揭开了新一代Rubin AI平台的面纱。该平台集成了六款全新芯片,通过在推理成本与训练效率上实现跨越式提升,回应了市场的核心关切,并计划于2026年下半年交付首批客户。黄仁勋将其形容为“一艘巨轮”,正驶向AI算力需求的新蓝海。

他深入阐释了平台背后的产业逻辑:一方面,AI的推理成本必须每年下降10倍;另一方面,AI“思考”所消耗的Token数量却以每年5倍的速度增长。在这两股力量的剧烈拉扯下,传统的芯片迭代路径已难以为继,市场呼唤一场从底层开始的架构革命。

“极端协同设计”:超越摩尔定律的效能飞跃

“这不是简单地造一个更好的引擎,而是重新设计整辆车。”黄仁勋用生动的比喻揭示了Rubin的设计哲学——“极端协同设计”。在这一理念下,其AI浮点性能达到Blackwell的5倍,而晶体管数量仅增加1.6倍,实现了远超摩尔定律常规预期的性能突破。

这种协同是系统级的重构,涵盖从CPU、GPU、网络芯片到冷却系统的每一个环节。其成果直接体现在最敏感的成本指标上:推理成本最高可降至Blackwell平台的十分之一。具体而言,Rubin GPU在NVFP4精度下提供50 PFLOPS的推理算力,训练性能达35 PFLOPS,并配备带宽高达22 TB/s的HBM4内存。

核心驱动力:定制CPU与超级互联

为打破系统瓶颈,英伟达打造了全新的Vera CPU。它集成了88个定制Arm核心,采用创新的“空间多线程”技术,可同时高效运行176个线程,彻底解决了CPU与GPU间的吞吐量匹配难题。

与此同时,新一代NVLink 6技术将机架内的通信带宽推至惊人的240 TB/s——这一数字是全球互联网总带宽的两倍以上。极致的互联能力确保了海量数据在计算单元间无阻流动,为Rubin平台的极致性能释放提供了坚实基础。通过这一系列颠覆性创新,英伟达不仅发布了一款芯片,更是为AI的下一阶段爆发铺就了高效能、低成本的算力基石。

AI开启“慢思考”:推理取代训练,成为算力主战场

黄仁勋在演讲中精准指出了AI发展的根本性转折:从“死记硬背”到“逻辑思考”。他引入了关键概念——Test-time Scaling(测试时扩展),并强调“推理不再是一次性的回答,而是一个思考的过程”。随着DeepSeek R1和OpenAI o1等具备思维链能力的模型出现,AI在给出最终答案前,需要进行多步推理、反思与规划,这彻底改变了算力消耗的本质。

对于产业而言,这释放了一个明确的增量信号:未来的算力需求重心,将从“训练侧”大规模向“推理侧”转移。支撑AI“多想一会儿”的前提,是算力必须足够廉价。Rubin架构的核心使命正在于此——将MoE模型的推理Token生成成本一举降至Blackwell平台的1/10。唯有实现如此量级的成本下降,那些能处理复杂任务的Agentic AI(代理智能体)才真正具备大规模商业落地的可能性。

打破“显存墙”:为AI装上16TB的“思考空间”

当AI进行长时间复杂交互时,一个新的瓶颈凸显出来:记忆。在Agentic AI时代,智能体需要记住漫长的对话历史与上下文,这会产生巨大的KV Cache(键值缓存)。传统方案将其存储在昂贵且容量有限的HBM显存中,形成了制约AI能力的“显存墙”。

黄仁勋详解了这一挑战:“AI的工作记忆存储在HBM中。每生成一个token,它都要读取整个模型和所有工作记忆。”这种架构显然无法支撑需要持续记忆的智能体长期运行。对此,英伟达的解决方案是一套全新的存储架构——基于BlueField-4 DPU构建的推理上下文内存存储平台。

这一平台被置于离计算单元最近的位置。黄仁勋展示时解释道,它能在每颗GPU原有1TB内存的基础上,额外提供高达16TB的专用“思考空间”,并通过200Gb/s的超高带宽连接,有效避免了传统存储的延迟瓶颈。这一创新直接回应了市场对AI规模化应用的担忧:没有海量且高速的内存,AI就无法成为我们真正长期、可靠的个性化助手。

物理AI商业化启航:“可解释”自动驾驶模型年内上路

黄仁勋将演讲视野投向更宏大的领域,宣告“物理AI的ChatGPT时刻”已经到来——机器开始理解、推理并直接于现实世界中行动。为证明AI不止于对话,他发布了全球首款开源VLA(视觉-语言-行动)自动驾驶模型Alpamayo。该模型的革命性在于“可解释性”:它不仅能够驾驶,更能用自然语言实时阐述决策逻辑,例如“因识别到前车刹车灯亮起,故采取减速措施”。

这种可解释的AI是解决自动驾驶长尾难题的关键。黄仁勋指出,我们无法穷尽所有现实场景,但可让AI学会“推理”,将未知状况拆解为已知元素的组合。这项技术已明确步入商业化:首款搭载英伟达全栈DRIVE系统的梅赛德斯-奔驰CLA车型,将于2026年第一季度在美国上路,标志着其AI技术完成了从实验室到量产车的完整闭环。

能效革命:硅光CPO量产与温水冷却省电6%

在支撑算力的底层架构上,英伟达展示了统治级的技术储备。首先是一场光通信革命:黄仁勋正式发布了采用“共封装光学”技术的Spectrum-6以太网交换机。他明确指出,其在能效、可靠性上优于传统方案,这意味着CPO技术已从实验室步入英伟达的量产清单,将实质性推动光模块产业向更高集成度转型。

与此同时,一场能源经济学的重构正在发生。面对AI高耗能的“达摩克利斯之剑”,Rubin平台给出了惊艳答案:其NVL72机架支持45摄氏度温水直接冷却,无需高能耗的冷水机组。黄仁勋宣布,仅此一项革新即可为全球数据中心节省高达6%的总电力。对于电力资源日益紧缺的全球市场,尤其是北美数据中心,这是一个无法拒绝的能效承诺。

渗透工业核心:携手西门子,从设计芯片到设计工厂

为展现物理AI超越汽车的广阔前景,黄仁勋将目光投向了万亿美元规模的工业制造领域。他宣布与全球工业巨头西门子达成深度全栈战略合作,旨在将英伟达的物理AI、代理模型及Omniverse数字孪生平台,深度集成至西门子的工业软件与制造流程中。

此次合作远非简单接口对接。黄仁勋阐释,未来工程师可在虚拟世界中完整地设计、模拟并优化整条生产线乃至整个工厂,“在物理实体接触重力之前完成所有测试”。这标志着英伟达的技术实现了从数据中心到实体经济核心的全面渗透,其市场疆域正从互联网经济拓展至全球工业经济。

构建开源宇宙:以全栈开放引领生态,定义未来标准

面对蓬勃发展的开源模型浪潮,黄仁勋展示了英伟达的主动策略:成为开源领域的定义者与领导者。他宣布大幅扩展英伟达的“开放模型宇宙”,覆盖生物医学、机器人、物理AI等六大关键领域,并配套发布完整的工具链,包括训练数据、模型架构与评估工具。

他特别强调了这种全栈开源带来的“激活效应”:当开放创新与全球协作被真正激发,AI技术扩散的速度将呈指数级增长。这一战略的深层智慧在于,通过主动塑造并提供行业所需的核心工具与标准,英伟达正从底层构建一个以自身技术体系为核心的、繁荣的新世界基础架构。

演讲全文如下:

时代定调:两大“平台转移”与AI的重塑之力

黄仁勋:

你好,拉斯维加斯!新年快乐!欢迎大家。好吧,我们大概准备了相当于15场主题演讲的内容要塞进这场发布会里。很高兴见到你们所有人。现场有3000名观众,外面的庭院里还有2000人在观看,据说四楼还有1000人在英伟达的展区观看这场直播。当然,全球还有数百万观众在线上收看,与我们共同开启这个新年。

每隔10到15年,计算机行业就会重启一次。从大型机到PC,到互联网,到云,再到移动端,新的平台转移不断发生。每一次,应用世界都会瞄准一个新的平台。这就是为什么它被称为平台转移。你为新计算机编写新应用,但这一次,实际上有两个平台转移同时发生。当我们转向AI时,应用程序现在将建立在AI之上。起初,人们认为AI就是应用程序。事实上,AI确实是应用程序,但你们将在AI之上构建应用程序。除此之外,软件的运行方式、软件的开发方式也发生了根本性变化。计算机行业的整个核心堆栈正在被重塑。你不再是对软件进行编程,而是训练软件。你不在CPU上运行它,而是在GPU上运行它。以前的应用程序是预先录制、预先编译并在设备上运行的,而现在的应用程序能够理解上下文,并完全从零开始生成每一个像素、每一个Token。

每一次都是如此。由于加速计算和人工智能,计算已被根本性重塑。这五层蛋糕的每一层都在被重新发明。这意味着过去十年中约10万亿美元的计算基础设施正在向这种新的计算方式现代化转型。这意味着每年有数千亿美元、几千亿美元的风险投资正在投入到现代化和发明这个新世界中。这意味着价值100万亿美元的产业,其中几个百分点是研发预算,正在转向人工智能。人们问,钱从哪里来?这就是钱的来源。从传统IT向AI的现代化,研发预算从经典方法向人工智能方法的转移。巨大的投资正涌入这个行业,这也解释了为什么我们如此忙碌。去年也不例外。

去年是不可思议的一年。这有一张幻灯片要放……这就是当你没彩排就开场的结果,这是今年的第一场主题演讲。希望这也是你们今年的第一场。否则,如果你们来这里之前已经很忙了,那就算了。这是我们今年的第一场,我们要把蜘蛛网扫干净。2025年是令人难以置信的一年。似乎所有事情都在同一时间发生。事实上,可能确实如此。首先当然是缩放定律(Scaling Laws)。2015年,第一个我认为真正会产生影响的语言模型出现了,它确实产生了巨大影响,它叫BERT。2017年,Transformer来了。

直到五年后的2022年,ChatGPT时刻发生了。它唤醒了世界对人工智能可能性的认知。一年后发生了一件非常重要的事情。来自ChatGPT的首个o1模型,首个推理模型,完全革命性地发明了这个叫做**“测试时扩展”(Test-time Scaling)的概念,这其实是非常常识性的东西。我们不仅预训练模型让其学习,我们还在训练后通过强化学习让它学习技能。现在我们还有了测试时扩展,换句话说就是“思考”,你在实时地思考。人工智能的每一个阶段都需要大量的计算,计算定律继续扩展。大语言模型继续变得更好。

开源革命:前沿模型与智能体普及

与此同时,另一个突破发生了,这一突破发生在2024年。Agentic(代理/智能体)系统开始出现。2025年,它开始普及,几乎遍布各地。能够推理、查找信息、做研究、使用工具、规划未来、模拟结果的代理模型,突然开始解决非常重要的问题。我最喜欢的代理模型之一叫做Cursor,它彻底改变了我们在英伟达进行软件编程的方式。Agentic系统将从这里真正腾飞。

当然,还有其他类型的AI。我们知道大语言模型并不是唯一的信息类型。只要宇宙中有信息,只要宇宙有结构,我们就可以教一个大语言模型、一种形式的语言模型去理解这些信息,理解其表征,并将其转化为AI。其中最大、最重要的一类是理解自然法则的物理AI(Physical AI)。当然,物理AI是关于AI与世界互动的。但世界本身就有信息,编码的信息,这被称为AI,物理AI。在物理AI的情况下,你有与物理世界互动的AI,也有理解物理定律的AI,即AI物理学。

最后,去年发生的最重要的事情之一是开放模型(Open Models)的进步。我们现在知道,当开源、当开放创新、当全球每一家公司和每一个行业的创新同时被激活时,AI将无处不在。去年,开放模型真正起飞了。事实上,去年我们见证了DeepSeek R1的进步,这是第一个开放模型。那是一个推理系统。它让世界大吃一惊,并真正激活了这整个运动。非常令人兴奋的工作。我们对此感到非常高兴。现在我们在世界各地有各种不同类型的开放模型系统。我们现在知道,开放模型也已经触及前沿,虽然仍稳固地落后前沿模型六个月,但每隔六个月,一个新的模型就会出现,而且由于这个原因,这些模型正变得越来越聪明。你可以看到下载量已经爆炸式增长。下载量增长如此之快,是因为初创公司希望参与AI革命。大公司想参与,研究人员想参与,学生想参与,几乎每个国家都想参与。

数字形式的智能怎么可能抛下任何人?因此,开放模型去年真正彻底改变了人工智能。整个行业将因此被重塑。

几年前我们就有了这种预感,你们可能听说过,几年前我们就开始构建和运营自己的AI超级计算机,我们称之为DGX Cloud。很多人问,你们是要进入云业务吗?答案是否定的。我们构建这些DGX超级计算机是为了自己使用。结果证明,我们运营着价值数十亿美元的超级计算机,以便我们可以开发我们的开放模型。

我对我们正在做的工作感到非常高兴。它开始吸引全世界和各行各业的关注,因为我们在如此多的不同领域进行前沿AI模型工作。我们在蛋白质、数字生物学领域的工作,Llama Protina,能够合成和生成蛋白质。OpenFold 3,去理解蛋白质的结构。Evo 2,如何理解和生成多种蛋白质。这也是细胞表征的开端。

Earth 2,理解物理定律的AI。我们利用ForecastNet所做的工作,利用Cordiff所做的工作,真正彻底改变了人们进行天气预测的方式。NeMo Tron,我们正在那里做开创性的工作,第一个混合Transformer SSM模型,速度极快,因此可以思考很长时间,或者可以在不花很长时间的情况下非常快速地思考并产生非常聪明、智能的答案。NeMo Tron 3是开创性的工作,你们可以期待我们在不久的将来交付NeMo Tron 3的其他版本。

Cosmos,一个前沿的开放世界基础模型,一个理解世界如何运作的模型。GR00T,一个类人机器人系统,涉及关节、移动性、运动。这些模型、这些技术现在正在被集成,在每一个案例中都向世界开放,前沿的人形机器人模型向世界开放。今天我们要谈一点关于Alpamayo,我们在自动驾驶汽车方面所做的工作。我们不仅开源了模型,还开源了我们用来训练这些模型的数据。因为只有这样,你才能真正信任模型的来源。我们开源所有模型。我们帮助你们从中制作衍生品。

我们有一整套库。我们称之为NeMo库,物理NeMo库,以及Clara NeMo库,每一个BioNeMo库。每一个库都是AI的生命周期管理系统,以便你可以处理数据、生成数据、训练模型、创建模型、评估模型、为模型设置护栏,直到部署模型。每一个库都极其复杂,而且全部开源。所以现在在这个平台上,英伟达是一个前沿AI模型构建者,我们以一种非常特殊的方式构建它。我们完全在公开环境中构建它,以便我们可以赋能每一家公司、每一个行业、每一个国家成为这场AI革命的一部分。

我为我们在那里所做的工作感到无比自豪。事实上,如果你注意到趋势、图表,图表显示我们对这个行业的贡献是首屈一指的。实际上你会看到我们将继续这样做,甚至加速。

这些模型也是世界级的。所有系统都瘫痪了。这在圣克拉拉从来没发生过。是因为拉斯维加斯吗?肯定有人在外面中了头奖。所有系统都瘫痪了。好吧。我想我的系统还没恢复,但这没关系。我会在进行中即兴发挥。不仅这些模型具有前沿能力,不仅它们是开放的,它们还在排行榜上名列前茅。

这是我们非常自豪的一个领域。它们在智能排行榜上名列前茅。我们有重要的模型能够理解多模态文档,也就是PDF。世界上最有价值的内容都捕捉在PDF中。但这需要人工智能来找出里面的内容,解释里面的内容并帮助你阅读它。所以我们的PDF检索器、我们的PDF解析器是世界级的,我们的语音识别模型绝对是世界级的。我们的检索模型,基本上是现代AI时代的搜索引擎语义搜索AI、数据库引擎,也是世界级的。所以我们经常在排行榜上名列前茅。

这是一个我们非常自豪的领域,所有这些都是为了服务于你们构建AI代理(AI Agents)的能力。这真的是一个开创性的发展领域。你知道,当ChatGPT刚出来的时候,人们说,天哪,它产生了非常有趣的结果,但幻觉非常严重。产生幻觉的原因当然是因为它可以记住过去的一切,但它无法记住未来或当前的一切。因此它需要扎根于研究。在回答问题之前,它必须进行基础研究。推理的能力——我是否需要做研究?我是否需要使用工具?我如何将一个问题分解成步骤?每一个步骤都是AI模型知道如何做的事情。而在它们组合在一起时,它能够按顺序执行从未做过、从未受过训练去执行的事情。

这就是推理的美妙能力。我们可以遇到以前从未见过的情况,并将其分解为我们知道如何做的情境、知识或规则,因为我们在过去经历过。因此,AI模型现在能够进行推理的能力极其强大,代理的推理能力打开了通往所有这些不同应用的大门。我们不再需要在第一天就训练一个AI模型知道所有事情,就像我们不需要在第一天就知道所有事情一样,我们应该能够在每种情况下推理如何解决那个问题。

大语言模型现在已经实现了这一根本性的飞跃,使用强化学习和思维链(Chain of Thought)、搜索和规划以及所有这些不同的技术和强化学习的能力,使得我们拥有这种基本能力成为可能,而且现在也完全开源了。

但真正棒的是另一个突破。我第一次看到它是在Aravind的Perplexity上。那家搜索公司,AI搜索公司,真正创新、真正的公司。我第一次意识到他们同时使用多个模型时,我觉得这完全是天才之举。当然,我们也会那样做。

当然,AI也会在推理链的任何部分调用世界上所有伟大的AI来解决它想要解决的问题。这就是为什么AI实际上是多模态的(Multi-modal),意味着它们理解语音、图像、文本、视频、3D图形和蛋白质。那是多模态。它也是多模型(Multi-model)的,意味着它们应该能够使用任何最适合任务的模型。根据定义,它是多云的,因为这些AI模型位于所有这些不同的地方。它也是混合云,因为如果你是一家企业公司或你建造了一个机器人或任何设备,有时它在边缘,有时是无线电蜂窝塔,有时是在企业内部,或者可能是在医院这样你需要数据实时就在你身边的地方。

无论那些应用是什么,我们现在知道这就是未来AI应用的样子。或者换个方式思考,因为未来的应用是建立在AI之上的。这是未来应用的基本框架。这个基本框架,这种能够做我所说的事情的代理AI的基本结构,它是多模型的,现在已经为各种AI初创公司增压。现在你也因为我们提供的所有开放模型和所有工具,你可以定制你的AI,教你的AI其他人没有教的技能。没有其他人让他们的AI变得如此智能,如此聪明。你可以为自己做这件事。这就是我们在NeMo Tron、NeMo以及我们在开放模型方面所做的一切工作的意图。你在它前面放一个智能路由器,那个路由器本质上是一个管理者,它根据你给它的提示意图,决定哪个模型最适合该应用,最适合解决那个问题。

好的,当你思考这个架构时,你得到了什么?当你思考这个架构时,突然之间你拥有了一个一方面完全由你定制的 AI。你可以教它为你公司做特定的技能,那些领域机密的东西,那些你拥有深厚领域专业知识的东西,也许你拥有训练该 AI模型所需的所有数据。另一方面,你的 AI永远处于前沿。根据定义,你一方面永远在前沿,另一方面永远是定制的,而且它应该就能运行。

所以我们认为我们会制作最简单的示例,向你们提供这个完整的框架。我们称之为蓝图(Blueprint)。我们有集成到全球企业 SaaS平台中的蓝图,我们对进展感到非常高兴。但我们要向你们展示一个任何人都可以做的简短示例。

演示视频:

让我们构建一个个人助理。我希望它能帮我处理日历、电子邮件、待办事项列表,甚至帮我照看家里。我使用 Brev将我的 DGX Spark变成个人云。所以我可以使用相同的界面,无论我使用的是云 GPU还是 DGX Spark。我使用前沿模型 API轻松上手。我希望它帮我处理电子邮件,所以我为我的智能体创建了一个电子邮件工具。我希望我的电子邮件保持私密,所以我添加了一个在 Spark上本地运行的开放模型。

现在,对于任何工作,我都希望智能体使用正确的模型来完成任务,所以我将使用一个基于意图的模型路由器。这样,需要电子邮件的提示将留在我的 Spark上,其他所有内容都可以调用前沿模型。我希望我的助手与我的世界互动,所以我将它连接到 Hugging Face的 Richie迷你机器人。我的智能体通过工具调用控制 Richie的头、耳朵和摄像头。

黄仁勋:调用。

演示视频:我想给 Richie一个声音,我很喜欢 ElevenLabs,所以我连接了他们的 API。

Richie机器人:嗨,我是 Richie,运行在 DGX上。

演示视频:嘿,Richie,今天我的待办事项清单上有什么?

演示视频:你今天的待办事项:买杂货——鸡蛋、牛奶、黄油,还要给 Jensen发送新脚本。

演示视频:好的,让我们给 Jensen发送那个更新。告诉他我们会在今天结束前给他。

演示视频:好的。

演示视频:Richie,这里还有一个草图。你能把它变成建筑渲染图吗?

演示视频:当然。

演示视频:不错。现在制作一个视频,带我参观一下房间。

演示视频:给你。

演示视频:太棒了。有了 Brev,我可以分享对我的 Spark和 Richie的访问权限。所以我打算把它分享给 Anna。

演示视频:嘿,Richie,Potato(宠物狗)在干什么?

演示视频:它在沙发上。我记得你不喜欢这样。我会叫它下来。Potato,下沙发。

演示视频:随着开源的所有进展,看到你能构建什么真是不可思议。我很想看看你们创造了什么。

黄仁勋:

这难道不令人难以置信吗?现在令人惊讶的是,这已经变得微不足道了。然而就在几年前,这一切都是不可能的,绝对无法想象的。好吧,这个基本框架,这种构建应用程序的基本方式——使用预训练的、专有的前沿语言模型,结合定制的语言模型,进入一个智能体框架(Agentic Framework),一个允许你访问工具、文件甚至连接到其他智能体的推理框架。这基本上就是 AI应用或现代应用的架构。

我们要创建这些应用程序的能力非常快。注意,如果你给它以前从未见过的应用信息,或者以一种并未完全按你所想的方式呈现的结构,它仍然可以推理并尽最大努力去推理数据和信息,试图理解如何解决问题。这就是人工智能。

这种基本框架现在正在被整合。刚才我描述的一切,我们有幸与一些世界领先的企业平台公司合作。例如 Palantir,他们的整个 AI和数据处理平台今天正在被 NVIDIA加速并整合。ServiceNow,世界领先的客户服务和员工服务平台。Snowflake,云端顶级数据平台,那里正在进行令人难以置信的工作。Code Rabbit,我们在 NVIDIA随处都在使用它。CrowdStrike,创建 AI来检测和定义 AI威胁。NetApp,他们的数据平台现在上面有了 NVIDIA的语义 AI,一个用于客户服务的智能体系统。

但重要的是:这不仅是你现在开发应用程序的方式,这还将成为你平台的用户界面。无论你是 Palantir、ServiceNow、Snowflake还是我们合作的许多其他公司,智能体系统就是界面。不再是 Excel里填满方格输入信息,也许不再只是命令行。所有这些多模态信息现在都成为可能,你与平台互动的方式更加——如果你愿意的话——简单,就像你在与人互动一样。这就是被智能体系统革命化的企业 AI。

物理AI突围:教会机器理解与交互真实世界

接下来是物理AI(Physical AI)。这是一个你们看我谈论了几年的领域。事实上,我们已经为此努力了八年。问题是,你如何将计算机内部的智能,那些通过屏幕和扬声器与你互动的智能,转变为可以与世界互动的智能,意味着它可以理解世界运作的常识。

物体恒存性。如果我看向别处再看回来,那个物体还在那里。因果关系。如果我推它,它会倒下。它理解摩擦力和重力。它理解惯性。一辆重型卡车沿路滚下需要更多时间停下来,而一个球会继续滚动。

这些概念对一个小孩子来说都是常识,但对AI来说完全未知。所以我们必须创建一个系统,允许AI学习物理世界的常识,学习其定律,当然也要能够从数据中学习。数据非常稀缺,并且要能够评估那个AI是否在工作,意味着它必须在环境中进行模拟。如果AI没有能力模拟物理世界对其行动的反应,它怎么知道它正在执行的行动是否符合它应该做的?对其行动反应的模拟对于评估非常重要。否则,就没有办法评估它。每次都不一样。所以这个基本系统需要三台计算机。一台计算机,当然是我们知道英伟达制造的用于训练AI模型的。另一台计算机是用于推理模型的,推理计算机本质上是一台机器人计算机,运行在汽车里或机器人里或工厂里,运行在边缘的任何地方。

但必须有另一台设计用于模拟的计算机。模拟几乎是英伟达所做一切的核心。这是我们最舒适的地方,模拟真的是我们用物理AI所做几乎一切的基础。所以我们有三台计算机和运行在这些计算机上的多个堆栈,这些库使它们变得有用。Omniverse是我们的数字孪生、基于物理的模拟世界。Cosmos,如我之前提到的,是我们的基础模型,不是语言的基础模型,而是世界的基础模型,并且也与语言对齐。你可以说像“球发生了什么?”它会告诉你球正滚下街道。所以是一个世界基础模型。然后当然是机器人模型。我们有两个。一个叫GR00T,另一个叫Alpamayo,我现在要告诉你们。

我们对物理 AI必须做的最重要的事情之一是创建数据来首先训练 AI。数据从哪里来?与其像语言那样因为我们创建了大量文本作为 AI学习的“基准真理(Ground Truth)”,我们如何教 AI物理的基准真理?有很多很多视频,但很难捕捉到我们需要的多样性和交互类型。所以这就是伟大的头脑聚集在一起,将曾经的计算转化为数据的地方。

现在使用以物理定律为基础和条件、以基准真理为基础和条件的合成数据生成(Synthetic Data Generation),我们可以选择性地、巧妙地生成我们可以用来训练 AI的数据。例如,进入左边这个 Cosmos AI世界模型的是交通模拟器的输出。现在这个交通模拟器对于 AI学习来说远远不够。我们可以把它放入 Cosmos基础模型中,生成基于物理且在物理上合理的环绕视频,AI现在可以从中学习。这方面有很多例子。让我向你们展示 Cosmos能做什么。

“物理AI的ChatGPT时刻即将到来。”

Cosmos是世界领先的基础模型,世界基础模型。它已被下载数百万次,在世界各地使用,让世界为这个物理AI的新时代做好准备。我们也自己使用它。我们自己使用它来创建我们的自动驾驶汽车,用于场景生成和评估。我们可以拥有让我们有效行驶数十亿、数万亿英里,但在计算机内部完成的东西。我们取得了巨大的进步。今天,我们宣布Alpamayo,世界上第一款会思考、推理的自动驾驶汽车AI。

Alpamayo是端到端训练的,字面意思是从摄像头输入到执行输出。摄像头输入大量由它自己驾驶的里程,或是我们人类驾驶的,使用人类演示。我们还有大量由Cosmos生成的里程。除此之外,成千上万的例子被非常仔细地标记,以便我们可以教汽车如何驾驶。

Alpamayo做了一些非常特别的事情。它不仅接收传感器输入并激活方向盘、刹车和加速,它还推理它将要采取的行动。它告诉你它将要采取什么行动,它得出那个行动的理由,当然还有轨迹。所有这些都直接耦合,并由大量人类训练以及Cosmos生成的数据非常具体地训练。结果真的令人难以置信。你的车不仅像你期望的那样驾驶,而且它驾驶得如此自然,因为它直接从人类演示者那里学习。但在每一个场景中,当它遇到场景时,它会推理,它告诉你它要做什么,并推理它将要做什么。

为什么这如此重要?因为驾驶的长尾效应。我们不可能简单地为每个国家、每种情况、所有人口可能发生的每一件可能的事情收集每一个可能的场景。然而,每种场景很有可能分解成一大堆其他较小的场景,这对你来说理解起来很正常。因此,这些长尾将被分解成汽车知道如何处理的相当正常的情况,它只需要对其进行推理。

让我们来看一下。你们即将看到的一切都是一次通过,不需动手。

视频演示(车内导航语音): 正在导航至目的地。系好安全带。

(视频播放:自动驾驶过程)

视频演示: 你已到达。

计算跃进:Rubin平台与全栈芯片的终极重构

黄仁勋:

我们在八年前开始研究自动驾驶汽车。原因是我们早就推断深度学习和人工智能将彻底重塑整个计算堆栈。如果我们想要理解如何导航并引导行业走向这个新未来,我们必须擅长构建整个堆栈。

我们想象有一天,路上的十亿辆汽车都将是自动驾驶的。你要么拥有它作为Robotaxi,你正在编排并从某人那里租用,要么你拥有它,它自己驾驶,或者你决定自己驾驶。但是,每一辆车都将具备自动驾驶车辆的能力,每一辆车都将由AI驱动。因此,这个案例中的模型层是Alpamayo,上面的应用是梅赛德斯-奔驰。

好的,这整个堆栈是我们英伟达的第一个全栈尝试。我们一直在这整个时间里致力于此。我很高兴英伟达的第一辆自动驾驶汽车将在第一季度(Q1)上路(在美国),然后在第二季度去欧洲,第一季度在美国,然后第二季度在欧洲,我想第三季度和第四季度是亚洲。强大的是,我们将继续用下一个版本的Alpamayo和之后的版本更新它。

我现在毫无疑问,这将是最大的机器人产业之一,我很高兴我们致力于此。它教会了我们大量关于如何帮助世界其他地方构建机器人系统的知识,那种深刻的理解和知道如何自己构建它,自己构建整个基础设施,知道机器人系统需要什么样的芯片。

在这个特定的案例中,双 Orin芯片,下一代是双 Thor芯片。这些处理器专为机器人系统设计,并为最高级别的安全能力而设计。这辆车刚刚获得评级。看,刚刚投产的梅赛德斯-奔驰 CLA刚刚被 NCAP评为世界上最安全的汽车。

这是我知道的唯一一个系统,其每一行代码、芯片、系统都经过安全认证。整个模型系统基于我们。传感器是多样化且冗余的,自动驾驶汽车堆栈也是如此。Alpamayo堆栈是端到端训练的,拥有令人难以置信的技能。然而,除非你永远驾驶它,否则没人知道它是否绝对安全。

所以我们用另一个软件堆栈,即底层的整个 AV堆栈来进行护栏保护。整个 AV堆栈被构建为完全可追溯的。我们花了大约五年,实际上是六七年的时间来构建第二个堆栈。这两个软件堆栈相互镜像。然后我们有一个策略和安全评估器来决定:这是我有信心并能推理出可以非常安全驾驶的情况吗?如果是,我会让Alpamayo来做。如果这是一个我不太有信心的情况,安全策略评估器决定我们将回到一个更简单、更安全的护栏系统。

然后它会回到经典的 AV堆栈,这是世界上唯一拥有这两个同时运行的 AV堆栈的汽车,所有安全系统都应该具有多样性和冗余性。我们的愿景是有朝一日每一辆车、每一辆卡车都将是自动驾驶的。我们一直在朝着那个未来努力。整个堆栈是垂直整合的。

当然,在梅赛德斯-奔驰的案例中,我们共同构建了整个堆栈。我们将部署这辆车,并在我们存续期间一直运营和维护这个堆栈。然而,就像我们要做的所有其他事情一样,我们构建了整个堆栈,但整个堆栈对生态系统是开放的。与我们合作构建 L4和 Robotaxi的生态系统正在扩大,遍布各地。我完全预计这将是——这已经是一个巨大的业务了。这对我们来说是一个巨大的业务,因为他们使用它来训练、处理数据和训练他们的模型。他们用它进行合成数据生成。在某些情况下,有些公司几乎只构建车内的计算机芯片。有些公司与我们进行全栈合作,有些公司与我们进行部分合作。没关系你决定用多少,我唯一的请求是尽可能多用一点 NVIDIA。

这就是现在的全部开放内容。这将是第一个大规模的主流 AI、物理 AI市场。我想我们在这里都完全同意,从非自动驾驶汽车到自动驾驶汽车的这个转折点可能就在这个时间发生。在接下来的 10年里,我相当确定世界上很大比例的汽车将是自动驾驶或高度自动驾驶的。

但我刚才描述的这种使用三台计算机、使用合成数据生成和模拟的基本技术适用于每一种形式的机器人系统。它可以是一个仅仅是关节、机械手的机器人,也许是一个移动机器人,也许是一个完全的人形机器人。所以机器人系统的下一个旅程、下一个时代将是机器人。这些机器人将有各种不同的尺寸。我邀请了一些朋友。他们来了吗?嘿,伙计们,快点。我有很多东西要讲。来吧,快点。你告诉 R2D2你会在这儿吗?C-3PO。好的。好的。到这儿来。

(机器人上台)

现在,有一件非常——你们有 Jetson。它们里面有小型的 Jetson计算机。它们是在 Omniverse内部训练的。这样如何?让我们向大家展示你们学习如何成为机器人的模拟器,你们想看那个吗?好的,让我们看看那个。Rana,请。

(视频演示:Omniverse中的机器人训练)

这太神奇了。那就是你学习成为机器人的方式。你是在 Omniverse内部完成的,机器人模拟器叫 Isaac Sim、Isaac Lab。任何想制造机器人的人——即使没有人会像你们这么可爱——但现在我们有了所有这些朋友,我们正在制造机器人。

我们有制造大的。不,就像我说的,没人像你们这么可爱。但我们有 Neuro Bot,我们有 Ag Bot。那边的 AG Bot。我们有 LG在这边。他们刚刚发布了一个新机器人。Caterpillar,他们有史上最大的机器人。那个是把食物送到你家的,连接着 Uber Eats。那是 Serve Robot,我喜欢那些家伙。Agility、Boston Dynamics。不可思议。你有手术机器人,你有来自 Franka的机械臂机器人,你有 Universal Robotics的机器人。数量惊人的不同种类的机器人。

所以这是下一章。我们将来会更多地谈论机器人技术。

但最终不仅仅是关于机器人。我知道一切都是关于你们这群家伙的。关键是到达那里。世界上最重要的行业之一将被物理 AI和 AI物理学彻底革命化,这个行业也是 NVIDIA的起源。如果没有我要谈到的这些公司,NVIDIA就不可能存在。我很高兴所有这些公司,从 Cadence开始,都在加速一切。Cadence将 CUDA-X集成到他们所有的模拟和求解器中。

他们拥有 NVIDIA物理 AI,他们将用于不同的物理工厂和工厂模拟。你有 AI物理学被集成到这些系统中。所以无论是 EDA还是 CAE,以及未来的机器人系统,我们基本上将拥有让你们成为可能的相同技术,现在彻底改变这些设计堆栈。Synopsys,没有 Synopsys,你知道,Synopsys和 Cadence在芯片设计世界中是完全不可或缺的。Synopsys在逻辑设计和 IP方面处于领先地位。

在 Cadence的案例中,他们在物理设计、布局布线、仿真和验证方面处于领先地位。Cadence在仿真和验证方面令人难以置信。他们都在进入系统设计和系统模拟的世界。所以在未来,我们将在 Cadence和 Synopsys内部设计你们的芯片。我们将在这些工具内部设计你们的系统,并仿真整个过程,模拟一切。

那就是你们的未来。是的,你们将要在这些平台内部诞生。很神奇,对吧?所以我们很高兴我们正在与这些行业合作,就像我们将 NVIDIA集成到 Palantir和 ServiceNow一样,我们正在将 NVIDIA集成到计算最密集的模拟行业——Synopsys和 Cadence中。

今天我们宣布西门子(Siemens)也在做同样的事情。

我们将集成CUDA-X,物理AI,Agentic AI,NeMo,NeMo Tron,深度集成到西门子的世界中。原因是这样的。首先,我们设计芯片,未来所有芯片都将被英伟达加速。你们会对此很高兴。我们将有代理芯片设计师和系统设计师与我们合作,帮助我们做设计,就像我们今天有代理软件工程师帮助我们的软件工程师编码一样。

所以我们将拥有代理芯片设计师和系统设计师。我们将在这些内部创造你们。但然后我们必须建造你们,我们必须建造工厂,制造你们的工厂。我们必须设计组装你们所有人的生产线。

这些制造工厂本质上将是巨大的机器人。不可思议。那是对的吗?我知道。所以你们将在计算机里设计。你们将在计算机里制造,你们将在计算机里测试和评估,早在你们不得不花任何时间应对重力之前。

你们知道怎么应对重力吗?(机器人跳跃)好的,别显摆了。

所以,这个使 NVIDIA成为可能的行业。我很高兴现在我们要创造的技术达到了如此复杂的水平和能力,我们可以回去帮助他们为行业提供解决方案。所以,始于他们的东西,我们现在有机会回去帮助他们彻底改变他们的行业。

让我们看看我们将与西门子做些什么。来吧。

视频解说:

物理 AI的突破让 AI从屏幕走向我们的物理世界。这恰逢其时,因为世界正在建设各种各样的工厂,用于芯片、计算机、救命药物和 AI。随着全球劳动力短缺的加剧,我们比以往任何时候都更需要由物理 AI和机器人技术驱动的自动化。

这就是 AI与世界上最大的物理产业相遇的地方,是 NVIDIA和西门子合作的基础。近两个世纪以来,西门子建立了世界的工业,现在它正在为 AI时代重塑工业。西门子正在整合 NVIDIA CUDA-X库、AI模型和 Omniverse到其 EDA、CAE和数字孪生工具及平台的产品组合中。我们将物理 AI带入从设计和模拟到生产和运营的整个工业生命周期。我们正站在新工业革命的开端——物理 AI时代。由 NVIDIA和西门子为下一个工业时代打造。

(Vera Rubin平台发布部分)

黄仁勋:

不可思议,对吧,伙计们?你们觉得怎么样?好的,抓紧了。如果你看世界的模型,毫无疑问 OpenAI是今天领先的 Token生成者。OpenAI生成的 Token比其他任何都多。第二大群体,第二大可能是开放模型。我的猜测是,随着时间的推移,因为有这么多公司、这么多研究人员、这么多不同类型的领域和模态,开源模型将是迄今为止最大的。

让我们谈谈一个非常特别的人。你们想那样做吗?

让我们谈谈 Vera Rubin(薇拉·鲁宾)。她是美国天文学家。她是第一个观察到并注意到星系尾部的移动速度与星系中心差不多快的人。我知道这说不通。牛顿物理学会说,就像太阳系一样,离太阳越远的行星绕太阳公转的速度比离太阳近的行星慢。因此,除非有看不见的物体,否则这是说不通的。她发现了即使我们看不见但也占据空间的暗物质。

所以 Vera Rubin是我们以她名字命名下一台计算机的人。这是个好主意,对吧?我知道。

Vera Rubin的设计是为了解决我们面临的这一根本挑战。AI所需的计算量正在飙升。对 NVIDIA GPU的需求正在飙升。这种飙升是因为模型每年增加 10倍,即一个数量级。更不用说,正如我提到的,o1的引入是 AI的一个转折点。推理不再是一次性的回答,而是一个思考过程。为了教 AI如何思考,强化学习和非常显著的计算被引入到后训练中。这不再只是监督微调(SFT)或模仿学习。现在有了强化学习,本质上是计算机自己尝试不同的迭代,学习如何执行任务。因此,预训练、后训练、测试时扩展的计算量已经爆炸式增长。

现在我们做的每一次推理,不再只是一次性的,Token的数量——你可以看到 AI在思考,我们对此表示赞赏。它思考得越久,通常产生的答案就越好。所以测试时扩展导致生成的 Token数量每年增加 5倍。与此同时,AI的竞赛正在进行。每个人都试图达到下一个水平。每个人都试图达到下一个前沿。每当他们达到下一个前沿时,上一代 AI Token的成本就开始每年下降约 10倍。每年 10倍的下降实际上告诉你一些不同的事情,它是说竞争如此激烈,每个人都试图达到下一个水平,有人正在达到下一个水平。因此,所有这些都是计算问题。你计算得越快,你就能越快达到下一个前沿水平。所有这些事情都在同一时间发生。

所以我们决定每年都必须推进计算的最先进水平,一年也不能落下。我们一年半前就开始出货 GB200。现在,我们正在全面制造 GB300。如果 Vera Rubin要赶上今年,它现在必须已经投入生产。所以今天,我可以告诉你们 Vera Rubin正在全面生产。

你们想看看 Vera Rubin吗?好的,来吧。请播放。

视频解说:

Vera Rubin恰好赶上AI的下一个前沿。这是我们如何构建它的故事。架构,一个六芯片系统工程化为一个整体。诞生于极端协同设计(Extreme Co-design)。它始于Vera,一个定制设计的CPU,性能是上一代的两倍。以及Rubin GPU。Vera和Rubin从一开始就协同设计,以更快、更低延迟地双向和一致地共享数据。

AI需要快速的数据。ConnectX-9为每个GPU提供1.6 TB/s的扩展带宽,BlueField-4 DPU卸载存储和安全。所以计算完全专注于AI。Vera Rubin计算托盘完全重新设计,没有电缆、软管或风扇,配备一个BlueField-4 DPU、8个ConnectX-9网卡、两个Vera CPU和四个Rubin GPU,这是Vera Rubin AI超级计算机的计算构建块。接下来,第六代NVLink Switch,移动的数据比全球互联网还多,连接18个计算节点,扩展到72个Rubin GPU作为一个整体运行。然后是Spectrum-6 Ethernet Photonics,世界上第一个具有512通道和200Gbps“共封装光学(Co-packaged optics)”的以太网交换机。

将数千个机架扩展成 AI工厂。自设计开始以来的 15,000个工程师年。第一个 Vera Rubin NVL72机架上线。六个突破性的芯片,18个计算托盘,9个 NVLink交换机托盘,220万亿个晶体管,重近 2吨。向 AI下一个前沿的巨大飞跃。Rubin来了。

黄仁勋:

你们觉得怎么样?这是一个Rubin Pod。1152个GPU和16个机架。正如你知道的,每个机架有72个Vera Rubin或72个Rubin。每一个Rubin实际上是两个GPU晶粒连接在一起。

“这是一只巨大的怪兽(It's a giant ship)。”

我们设计了六种不同的芯片。首先,我们在公司内部有一个规则。作为一个好规则,新一代不应该有超过一两个芯片的变化。但问题是,正如你所见,我们在描述每个被描述的芯片中的晶体管总数。我们知道摩尔定律已经大大放缓。因此,我们每年能得到的晶体管数量不可能跟上大10倍的模型。它不可能跟上每年多5倍的Token生成。它不可能跟上这样一个事实:Token的成本下降将如此激进,如果行业要继续进步,除非我们部署积极的极端协同设计,基本上同时在整个系统的所有芯片上进行创新,否则不可能跟上这种速度。这就是为什么我们决定这一代,我们别无选择,只能重新设计每一个芯片。

刚才描述的每一个芯片本身都可以开一场新闻发布会,这在过去可能需要一整家公司专门来做。每一个都是完全革命性的,是同类中最好的。

Vera CPU,我为此感到骄傲。在一个受功耗限制的世界里,Vera CPU的性能是世界上最先进CPU的两倍。它有88个CPU核心,但使用了“空间多线程”(Spatial Multi-threading)技术,使得176个线程中的每一个都能获得全性能。

这是Rubin GPU。它的浮点性能是Blackwell的5倍。但重要的是,看底线,它只有Blackwell晶体管数量的1.6倍。

我要告诉你们关于当今半导体物理水平的一些事情。如果不做协同设计,如果不做基本上整个系统每个芯片层面的极端协同设计,我们怎么可能提供这种性能水平?因为你只有 1.6倍的晶体管。即使每晶体管的性能提高一点,比如 25%,也不可能从这些晶体管中获得 100%的良率。所以 1.6倍在某种程度上设定了每年性能提升的上限,除非你做一些极端的事情,我们称之为极端协同设计。

我们做的一件事,也是一项伟大的发明,叫做 NVFP4 Tensor Core。我们芯片内部的 Transformer引擎不仅仅是我们放入数据路径的某种 4位浮点数。它是一个完整的处理器,一个处理单元,知道如何动态地、自适应地调整其精度和结构以处理 Transformer的不同层级。这样你就可以在可能损失精度的地方实现更高的吞吐量,并在需要的地方回到尽可能高的精度。那种动态自适应的能力,你不能在软件中做,因为显然运行得太快了。所以你必须在处理器内部自适应地完成。

这就是 NVFP4。当有人说 FP4或 FP8时,这对我们来说几乎没有任何意义。原因是这关乎 Tensor Core结构和使其工作的所有算法。NVFP4,我们已经发表了相关论文。其能够保留的吞吐量和精度水平完全令人难以置信。这是开创性的工作。如果行业希望我们将这种格式和结构在未来变成行业标准,我也不会感到惊讶。这是完全革命性的。这就是我们能够提供如此巨大性能提升的原因,即使我们只有 1.6倍的晶体管。

我们彻底改变了整个NGX机箱。从两个小时的组装时间变成了五分钟。100%液冷。真正的突破。好的,所以这是新的计算底盘,将所有这些连接到架顶交换机,东西向流量的,叫做Spectrum-X NIC。

好的,这是新的计算底盘。连接所有这些到机架顶部交换机(东西向流量)的是 Spectrum-X网卡。这是世界上最好的网卡,毫无疑问。NVIDIA的 Mellanox,很久以前加入我们的 Mellanox,他们用于高性能计算的网络技术是世界上最好的,无可比拟。算法、芯片设计、所有的互连、运行在上面的所有软件堆栈。他们的 RDMA绝对是世界上最好的。现在它具有进行可编程 RDMA和数据路径加速器的能力。这样我们的合作伙伴(如 AI实验室)可以为他们想要如何在系统中移动数据创建自己的算法,但这完全是世界级的。

ConnectX-9和 Vera CPU是协同设计的。直到 CX9出现我们才发布它,因为我们是为一种新型处理器协同设计它的。你知道,ConnectX-9、我们的 CX8和 Spectrum-X彻底改变了以太网用于人工智能的方式。

AI的以太网流量要密集得多,需要更低的延迟。瞬时的流量激增不同于以太网见过的任何东西。所以我们创造了 Spectrum-X,即 AI以太网。两年前,我们发布了 Spectrum-X。NVIDIA今天是世界上最大的网络公司。

它如此成功,被用于如此多不同的安装中。它正在横扫 AI领域。性能令人难以置信,特别是当你拥有一个 200兆瓦的数据中心或吉瓦级的数据中心时,这些都是数十亿美元的投资。假设一个吉瓦数据中心价值 500亿美元,如果网络性能让你多获得 10%的输出,而在 Spectrum-X的情况下,提供 25%更高的吞吐量并不罕见。哪怕我们只提供 10%,那也价值 50亿美元。那网络就完全是免费的了,这也是为什么大家都在用 Spectrum-X。这真的是个不可思议的东西。

现在我们要发明一种新型的数据处理方式。所以 Spectrum-X是用于东西向流量的。我们现在有一个名为 BlueField-4的新处理器,允许我们采用一个非常大的数据中心,隔离其不同部分,以便不同用户可以使用不同部分,确一切都可以虚拟化,如果他们决定虚拟化的话。所以你卸载了大量的虚拟化软件、安全软件、南北向流量的网络软件。

BlueField-4是每个计算节点的标配。BlueField-4还有我马上要讲的第二个应用。这是一个革命性的处理器,我对此非常兴奋。

这是 NVLink 6 Switch,就在这里。这个交换机里面的每个交换芯片拥有历史上最快的 SerDes。世界仅仅刚达到 200 Gbps。这是一个400 Gbps的交换机。这之所以如此重要,是为了让我们可以让每一个 GPU在完全相同的时间与每一个其他 GPU对话。

这个位于这些机架背板上的交换机使我们能够移动相当于全球互联网数据量两倍的数据,以两倍于所有世界互联网数据的速度。将整个星球互联网的横截面带宽算作大约每秒 100 TB。这是每秒240 TB。所以这让大家有个概念。这是为了让每一个 GPU可以在完全相同的时间与每一个其他 GPU一起工作。

好的,在那之上——这是单机架。这是一个机架。如你们所见,这一个机架的晶体管数量是 1.7倍。是的,你能帮我做这个吗?这通常大约是 2吨,但今天有2.5吨。因为当他们运输时,忘了把里面的水排干。所以我们从加州运了很多水过来。

你能听到它尖叫吗?当你旋转 2.5吨时,它肯定会有点尖叫。你能做到的。好的。我们不会让你做两次。

好的,在这后面是 NVLink Spine,基本上是两英里长的铜缆。铜是我们知道的最好的导体。这些都是屏蔽铜缆,结构化铜缆,是计算系统中有史以来使用最多的。我们的 SerDes驱动铜缆从机架顶部一直到底部,速度为 400 Gbps。不可思议。

这总共有两英里的铜缆,5,000根铜缆。这使得 NVLink Spine成为可能。这是真正开启了 NGX系统的革命,我们决定创建一个行业标准系统,以便整个生态系统、我们所有的供应链都可以标准化这些组件。有大约 80,000个不同的组件组成了这些 NGX系统。

如果每年都改变它,那是完全的浪费。每一个主要的计算机公司,从富士康到广达,到纬创,名单还在继续,到 HP、Dell和 Lenovo。每个人都知道如何构建这些系统。所以尽管性能高得多,而且非常重要的是,功率是原来的两倍,我们还是能把 Vera Rubin塞进去。Vera Rubin的功率是 Grace Blackwell的两倍。

然而,这是奇迹所在——进入其中的空气、气流大致相同。非常重要的是,进入其中的水是相同的温度,45摄氏度。有了 45摄氏度的水,数据中心就不需要冷水机组了。我们基本上是在用热水冷却这台超级计算机,效率极高。

所以这是新机架,晶体管数量增加 1.7倍,但峰值推理性能增加 5倍,峰值训练性能增加 3.5倍。好的,它们在顶部使用 Spectrum-X连接。哦,谢谢。

这是世界上第一个使用台积电新工艺制造的芯片,这是我们共同创新的工艺,叫做 CoWoS,是一种**硅光子(Silicon Photonics)**集成工艺技术。这允许我们将硅光子直接连接到芯片上。这是 512个端口,速度为 200 Gbps。这是新的以太网 AI交换机,Spectrum-X以太网交换机。

看这个巨大的芯片。但真正令人惊奇的是它直接连接了硅光子,激光进入。激光从这里进入。光学器件在这里,它们连接到数据中心的其余部分。这我稍后会展示,但这就在机架顶部。这是新的 Spectrum-X硅光子交换机。

好的,我有新东西要告诉你们。正如我几年前提到的,我们引入了 Spectrum-X以便我们可以重塑网络的方式。以太网非常易于管理,每个人都有以太网堆栈,世界上每个数据中心都知道如何处理以太网。当时我们唯一使用的是 InfiniBand,用于超级计算机。InfiniBand延迟非常低,但当然其软件堆栈、整个可管理性对于使用以太网的人来说非常陌生。所以我们决定首次进入以太网交换机市场。Spectrum-X就这样起飞了,使我们成为世界上最大的网络公司。

生态闭环:从基础设施到行业渗透的全栈布局

正如我提到的,下一代 Spectrum将延续这一传统。正如我之前所说,AI已经重塑了整个计算堆栈,计算堆栈的每一层。理所当然地,当 AI开始在全球企业中部署时,它也将重塑我们进行存储的方式。AI不使用 SQL。AI使用语义信息。

当使用 AI时,它会创建这种临时知识、临时内存,称为 KV Cache(KV缓存),即 Key-Value组合。这是一个 KV缓存,基本上是 AI的缓存,AI的工作记忆。AI的工作记忆存储在 HBM内存中。

对于每一个 Token,GPU读取模型,整个模型,它读取整个工作记忆并产生一个 Token,并将这一个 Token存回 KV缓存中。然后下一次它这样做时,它读取整个内存,读取它,并通过我们的 GPU流式传输,然后生成另一个 Token。好吧,它重复这样做,一个 Token接着一个 Token。

显然,如果你与那个 AI进行长时间的对话,随着时间的推移,那个记忆、那个上下文记忆将会极大地增长,更不用说模型在增长,我们使用的 AI对话轮次在增加。我们希望这个 AI能伴随我们一生,并记住我们与它的每一次对话,对吧?我要求它做的每一个研究链接。当然,共享超级计算机的人数将继续增长。因此,这种最初适合放入 HBM的上下文记忆已经不够大了。

去年,我们创造了 Grace Blackwell的非常快的内存,我们称之为快速上下文内存。这就是我们将 Grace直接连接到 Hopper的原因。这就是我们将 Grace直接连接到 Blackwell的原因,以便我们可以扩展上下文内存。但即使那样也不够。所以下一个解决方案当然是去网络上,南北向网络去公司的存储。但如果你同时运行很多 AI,那个网络将不再足够快。所以答案显然是做不同的事情。

所以我们引入了 BlueField-4,以便我们可以在机架中拥有非常快的 KV缓存上下文内存存储。我马上就展示给你们看,这是一种全新的存储系统类别。业界非常兴奋,因为对于几乎所有今天进行大量 Token生成的人来说,这是一个痛点。AI实验室、云服务提供商,他们真的深受 KV缓存移动引起的大量网络流量之苦。

所以创建一个新平台、一个新处理器来运行整个 Dynamo KV缓存上下文内存管理系统,并将其放在离机架其余部分非常近的地方,这个想法是完全革命性的。

就是它。就在这里。这就是所有计算节点。每一个都是 NVLink 72。所以这是 Vera Rubin,NVLink 72,144个 Rubin GPU。这是存储在这里的上下文内存。每一个后面都有四个 BlueField。每个 BlueField后面有 150 TB的内存,上下文内存。对于每个 GPU,一旦你分配下去,每个 GPU将获得额外的 16 TB。现在在这个节点内部,每个 GPU本质上有 1 TB。现在有了这个直接位于同一东西向流量上的后备存储,以完全相同的数据速率,200 Gbps跨越这台计算节点的整个架构。你将获得额外的16 TB内存。好的?这是管理平面。这些是连接所有它们的 Spectrum-X交换机。在这边,末端的这些交换机将它们连接到数据中心的其余部分。好的,这就是 Vera Rubin。

有几件事真的令人难以置信。首先我提到的是,这整个系统的能源效率是原来的两倍,本质上是温度性能的两倍,也就是说,即使功率是两倍,使用的能量是两倍,计算量也比那高出许多倍。但进入其中的液体仍然是 45摄氏度。这使我们能够节省大约6%的全球数据中心电力。这是一件非常大的事情。

第二件非常大的事情是,整个系统现在是“机密计算安全(Confidential Computing Safe)”的,意味着一切在传输中、静态时和计算期间都是编码的。并且每一条总线现在都是加密的。每个 PCIe Express、每个 NVLink,CPU内存和 GPU之间的 8个 NVLink,GPU到 GPU之间,一切现在都是加密的。所以它是机密计算安全的。这允许公司感到安全,他们的模型由别人部署,但永远不会被别人看到。

好的?所以这个特定的系统不仅极其节能,还有一件事令人难以置信。由于 AI工作负载的性质,它会随着称为 All-Reduce的计算层瞬间飙升,电流、同时使用的能量真的是爆表的。通常它们会飙升 25%。我们现在在整个系统中拥有**功率平滑(Power Smoothing)**功能,这样你就不必过度配置。或者如果你过度配置了,你不必浪费那 25%的能量或闲置不用。所以现在你可以填满整个功率预算,而不必过度配置。

最后一件事当然是性能。让我们看看这个的性能。这些图表只有构建 AI超级计算机的人才会喜欢。我们花了很大力气重新设计每一个芯片、每一个系统并重写整个堆栈才使这成为可能。基本上这是训练 AI模型。

第一列,你训练 AI模型越快,你就能越快将下一个前沿推向世界。这是你的上市时间。这是技术领导力。这是你的定价权。如果是绿色,这是 Blackwell。在 Rubin的情况下,吞吐量高得多。因此,只需要四分之一的这些系统就能在我们给定的时间内(一个月)训练模型。这就是 10万亿参数模型在 100万亿 Token上训练。好的,这是我们对构建下一个前沿模型所需内容的模拟预测。Elon已经提到下一版本的 Grok可能是 7万亿参数。所以这是 10万亿。在绿色的是 Blackwell。在这里的 Rubin,注意吞吐量高得多。

第二部分是你的工厂吞吐量(Factory Throughput)。Blackwell又是绿色的,工厂吞吐量很重要,因为你的工厂,在吉瓦的情况下是 500亿美元。一个 500亿美元的数据中心只能消耗 1吉瓦的电力。所以如果你的性能、你的每瓦吞吐量很好与很差相比,这直接转化为你的数据中心收入直接与第二列相关。在 Blackwell的情况下,它是 Hopper的 10倍左右。在 Rubin的情况下,它将再次高出约 10倍。

而在Token成本方面,Rubin大约是Blackwell的十分之一。

这就是我们如何让每个人到达下一个前沿,将AI推向下一个水平,当然,还有能源高效和成本高效地构建这些数据中心。

这就是现在的 NVIDIA。你们知道我们制造芯片,但如你们所知,NVIDIA现在制造整个系统,AI是全栈的。我们正在重塑 AI的一切,从芯片到基础设施,到模型,到应用。我们的工作是创建整个堆栈,以便你们所有人都能为世界其他地方创建令人难以置信的应用程序。文/智阳


【责任编辑:曾瑞鑫】
返回顶部