黄仁勋自曝英伟达最强Rubin架构,数百万GPU集群将至

芯东西6月3日报道,昨夜,英伟达披露未来三代数据中心半导体技术路线图,新GPU架构每年一更:
2025年推出Blackwell Ultra GPU(8S HBM3e 12H);2026年推出Rubin GPU(8S HBM4);2027年推出Rubin Ultra GPU(12S HBM4),新一代基于Arm的Vera CPU,以及NVLink 6 Switch(3600GB/s)。
Rubin和Vera的命名均源自美国天文学家Vera Rubin。她对宇宙暗物质研究做出重大贡献。
“我在这里向你们展示的所有这些芯片都在完全开发中,百分之百。”英伟达创始人兼CEO黄仁勋说,英伟达的更新节奏以年为单位,所有架构都是兼容的,“以一年为周期,我们把所有东西推向技术极限”。
作为本周台北国际电脑展COMPUTEX 2024开幕前的重磅演讲嘉宾,黄仁勋甩出未来三代GPU架构这一重磅披露,显得诚意十足。
身为芯片圈“顶流”,黄仁勋这次到台湾省再度引起轰动。他前几天相当繁忙,又是跟台积电创始人张忠谋、联发科董事长蔡明介、广达董事长林百里等大佬聚餐,又是拉着92岁高龄的张忠谋去体验逛夜市,所到之处都受到巨星级欢迎,从具体行程到宴请菜品都被台媒扒个底朝天。
连续数日霸屏台湾科技头条,只是“皮衣老黄”黄仁勋来台的开胃菜。
周日晚上19点09分,正餐来了——
最近英伟达市值稳定在2.7万亿美元,黄仁勋俨然人逢喜事精神爽,穿着标志性的黑色皮衣一路小跑登台,满面笑容地向台湾大学综合体育馆内的6500名参会者用中文问候:“大家好!”
台下也是大佬云集,有美超微CEO梁见后、华硕董事长施崇棠、鸿海董事长刘扬伟、联发科总经理陈冠州等。
黄仁勋在演讲中忍不住提起到台湾夜市,说自己很喜欢逛夜市,因为很喜欢看人,自己脸上有道疤就是小时候去夜市时被不慎割伤的,所以对夜市印象很深。他还特别夸赞了一位卖了43年水果的老板娘。
在介绍基于英伟达Earth-2数字孪生地球和英伟达CorrDiff生成式AI模型生成的12倍高解析度天气预测模型时,他更是全程中文,流利不卡顿。
老黄中文进步这么大?随后黄仁勋自揭谜底:都是AI生成的!
他还在现场展示了Blackwell芯片主板,称这是“世界上最复杂、性能最高的计算机”。
黄仁勋说,自己这场演讲主要谈三件事:一是其工作的意义;二是什么是生成式AI以及它对各行业的影响;三是英伟达的蓝图和下一步。
他坚信下一波AI浪潮是物理AI,看好人形机器人,还站在大屏幕显示的9款人形机器人之间张开双臂展示。
一、8年AI算力涨1000倍,能耗降到1/350
黄仁勋说,英伟达立足于计算机图形学、仿真和AI的交叉领域,这是英伟达的灵魂。加速计算和AI技术将会重塑计算机行业。
他强调加速计算能够实现可持续增长,称CPU的性能扩展已经大大放缓,顶不住持续暴增的计算需求、数据处理需求、数据中心电量、计算机成本了,而更好的办法就是加速计算。
一如既往,黄仁勋现场算账,说明“买得越多,省得越多”。
英伟达通过GPU+CPU组合,实现了高达100倍的加速,同时功耗仅增加到3倍,成本仅增加到1.5倍。
“100倍的速度意味着97%、98%的节省。所以当我们从100倍的速度到200倍的速度再到1000倍的速度,节省、计算的边际成本继续下降。”黄仁勋说。
英伟达的软件组合也在不断壮大。
黄仁勋再度强调CUDA的前瞻性和主导地位。通过CUDA+GPU的组合拳,英伟达实现安装量一路上涨、开发者和应用越来越多、研发规模扩大、性能越来越好的良性循环。
英伟达在1000美元的PC上添加了一张500美元的GPU,性能大幅提升;一个10亿美元的数据中心加上5亿美元的GPU,就能变成一个AI工厂。
黄仁勋说,很多公司花费了数亿美元在云端处理数据,通过加速计算,可以节省数亿美元。
8年内英伟达AI算力增加了1000倍,能以更低成本去训练大模型。比如训练1.8万亿参数、8万亿token的GPT-4,所需能耗从8年前Pascal架构的1000GWh减少到Blackwell的3GWh。
也就是说将能耗足足降至8年前的1/350。
黄仁勋还分享说,Blackwell将生成token的能耗降至8年前的1/45000。
以前用Pascal产生1 token的能耗相当于2个200W灯泡运行2天,让GPT-4生成一个单词大约需要3个token。现在1 token只用0.4J能耗。
有Blackwell还不够,必须制造更大的机器,英伟达构建它的方式是风冷DGX和液冷MGX。黄仁勋活像现场带货,对这些大机器挨个安利。
其中DGX的AI算力提升到上一代的45倍,达到1440PFLOPS,而能耗仅为上一代的10倍。
黄仁勋还拿了张GeForce显卡跟机柜对比大小。
新一代DGX能搭载72个GPU,背后由NVLink 5000根电缆组成的主干支持,能为一个机架节省20kW电能。
二、英伟达计划每年推出Spectrum-X新品,数据中心将进入数百万GPU时代
“数百万GPU数据中心的时代即将到来!”黄仁勋宣布每年推出新的Spectrum-X产品。
NVIDIA Spectrum-X是全球首款专为AI打造的以太网网络平台,可将网络性能较传统以太网网络平台提升1.6倍,能加快AI工作负载的处理、分析和执行速度。
Spectrum-X800为数万个GPU而设计,X800 Ultra为数十万个GPU而设计,X1600则可扩展至数百万个GPU。
CoreWeave、Lambda等AI云服务提供商率先采用Spectrum-X。
英伟达计划每年推出Spectrum-X新品,提供更高的带宽、更多的端口、更加强大的软件功能集与可编程能力,不断提高AI以太网网络性能。
三、AI工厂将掀起新产业革命,AMD和英特尔均支持MGX架构
黄仁勋极力描绘生成式AI时代的巨大市场机会:“有史以来第一次,IT行业,这是3万亿美元,3万亿美元的IT产业即将创造出能够直接服务于100万亿美元产业的东西。”
他展示了英伟达如何从Blackwell芯片等一系列先进技术和产品的组合,垒起层层叠叠的机架、集群,最终形成由32000张GPU组成的AI工厂。
永擎电子、华硕、技嘉、鸿佰科技、英业达、和硕、QCT、超微、纬创、纬颖等企业正在打造基于英伟达技术的云、专用系统和边缘AI系统。
NVIDIA MGX模块化参考设计平台为计算机制造商提供了一个参考架构,以便其能够以快速且低成本的方式构建超过100种的系统设计配置。
MGX加入了对Blackwell产品的支持,包括专为大语言模型推理、检索增强生成和数据处理而打造的全新GB200 NVL2平台。
已有超过25家合作伙伴的90多套已发布或正在开发中的系统使用了MGX参考架构,较去年来自6家合作伙伴的14套系统有显著增加。
通过采用MGX,开发成本大幅降低,较之前最多降低了3/4;开发时间缩短到仅6个月,较之前减少了2/3。
AMD和英特尔都支持MGX架构,并首次计划打造基于他们自己CPU主机处理器的模块设计,包括下一代AMD Turin平台和基于P核心的第六代英特尔至强处理器(原Granite Rapids)。
四、从几天缩至几分钟,NIM服务改变生成式AI模型部署方式
NVIDIA NIM推理微服务能将企业部署生成式AI应用的时间从几天压缩到几分钟。
该服务提供了一种简单、标准化的方式,通过经优化的容器形式提供AI模型,可部署在云、数据中心或工作站上。
现在,全球2800万开发者可下载NIM,从而轻松构建Copilot、聊天机器人等生成式AI应用。
与未使用NIM相比,在NIM中运行Meta Llama 3-8B可产生高达3倍的生成式AI token。这有助于企业在相同计算基础设施上大幅提高效率。
企业可使用NIM来运行用于生成文本、图像和视频、语音以及交互式数字人的应用。
200家技术合作伙伴正在将NIM集成到他们的平台中以加快生成式AI部署。
开发者可从Hugging Face上轻松访问和运行Meta Llama 3模型的NIM服务。
“今天我们在Hugging Face上发布了全面优化的Llama 3,”黄仁勋说,“你可以在任何云中运行它。下载该容器,并将其存入数据中心,然后就可以托管,并提供给客户使用。”
黄仁勋相信未来每家公司都会有NIM agent,分别负责弄清任务、拆解子任务、执行,通过分工协作完成任务。
五、未来数字人会像人一样交互,PC将是重要AI平台
未来数字人会是什么样?
黄仁勋展示了一段视频,计算机可以像人一样互动,比如用手机摄像头扫过四周的环境,数字人就会做出判断:“你似乎正在进行某种录制或制作布景中?”
数字人将彻底改变客服、广告、游戏行业。例如,你用手机扫描厨房后,数字人可以成为AI室内设计师,生成几种设计选项并采购家具;数字人还可以成为AI客服代理、数字医疗工作者,或者成为AI品牌大使,引领营销广告新潮流。
黄仁勋说,PC将成为非常重要的AI平台,并发布4款新款RTX AI PC。
英伟达在全球有1亿台GeForce RTX AI PC的用户基础,将通过200多款RTX AI笔记本电脑和500多款采用AI技术的应用和游戏来改变消费者的体验。
RTX套件和为NVIDIA ACE数字人平台新推出的基于PC的NIM推理微服务,将进一步提高AI的可访问性。
英伟达还发布了搭载RTX的AI助手技术演示G-Assist项目,展示了针对PC游戏和应用的上下文感知辅助功能,相当于为玩家添加了一个能随时咨询攻略的游戏AI助手外挂。
微软和英伟达正在一起帮助开发者将新的生成式AI功能加入到Windows原生和Web应用程序中,使开发者能通过API工具来轻松访问由RTX加速的SLM(小型语言模型)。
黄仁勋相信,未来PC将成为一个AI,会一直在后台协助你,还将运行由AI增强的应用程序,并且能承载带有数字人类的应用程序。
六、下一波AI浪潮是物理AI,人形机器人将被机器人工厂量产
接下来要做什么呢?
在黄仁勋看来,下一波AI浪潮是物理AI,即理解物理定律的AI
物理AI是指能理解指令,并在现实世界中自主执行复杂任务的模型。
今天大多数AI并不理解物理定律,不以物质世界为基础。而生成图像、视频、3D图形和许多物理现象,需要基于物理并理解物理定律的AI。
为我们工作的AI,必须理解世界模型,才能理解如何解释世界、如何感知世界。多模态大语言模型的突破,它使机器人能够学习、感知和理解周围的世界,并计划它们将如何行动。
从视频中学习是一种途径,另一种方法是合成、模拟数据,还有利用计算机相互学习。如果AI数据是通过强化学习算法合成的,那么数据生成的速度将会持续变快,需要更大的GPU。
英伟达正在努力通过推进英伟达机器人软件栈来加速生成物理AI,包括用于模拟应用的NVIDIA Omniverse平台、Project GR00T人形机器人通用基础模型和Jetson Thor机器人计算机。
“机器人时代已经到来。”黄仁勋说,“AI的下一波浪潮已经到来。由实体AI驱动的机器人技术将彻底改变行业。这不是未来。这正在发生。”
他预言,总有一天,所有移动的东西都将是自主的,世界各地研究人员和公司都在开发由物理AI驱动的机器人,“机器人将遍布所有工厂。工厂将实现对机器人的统筹,这些机器人将制造新的机器人产品。”
黄仁勋相信,下一个将由机器人工厂生产的大批量机器人产品很可能是人形机器人
他现场展示了全球最大电子制造商鸿海集团(富士康如何利用NVIDIA Omniverse、Isaac和Metropolis创建其用于训练机器人的复杂工厂数字孪生,以更高精度优化工作流并降低成本。
Omniverse是机器人可以学习如何成为机器人的一个虚拟世界模拟开发平台,结合了实时、基于物理的渲染、物理模拟和生成AI技术,能够在虚拟环境中集成来自领先行业工具3D数据的平台,帮助鸿海团队优化操作流程的设备布局,AI摄像头通过NVIDIA  Metropolis监控工人安全。
然后,鸿海可以使用工厂数字孪生作为虚拟培训环境来模拟、测试和验证其基于NVIDIA Isaac Perceptor加速库构建的自主移动机器人(AMR),以及由NVIDIA Isaac Manipulator AI模型提供支持的AI机器人机械臂。
Isaac平台采用模块化设计,拥有一整套NVIDIA加速库、AI基础模型和仿真技术,今日起可供机器人制造商集成到其技术堆栈中,助力其提高工厂、仓库和配送中心的工作效率。
比亚迪电子、西门子、泰瑞达、Alphabet旗下公司Intrinsic等全球十多家领先的机器人企业正在采用NVIDIA Isaac机器人平台。
100多家公司正在采用Isaac Sim来仿真、测试和验证机器人应用。Agility、波士顿动力公司、Figure AI、傅利叶智能、Sanctuary AI正在使用Isaac Lab。
黄仁勋说,英伟达将为每种类型的机器人系统创建平台,包括机器人工厂和仓库、用于操纵物体的机器人、移动机器人,以及人形机器人。
构建具有生成物理AI的机器人需要3台计算机:NVIDIA AI超级计算机来训练模型,NVIDIA Jetson-Orin和下一代Jetson-Thor机器人超级计算机来运行这些模型,机器人还需用Omniverse来在模拟世界中学习和完善技能。
结语:新一轮工业革命开始,英伟达力推新型数据中心
“新一轮工业革命已经开始。众多企业和地区正在与英伟达合作推动价值万亿美元的传统数据中心向加速计算转型,并建造一种新型数据中心「AI工厂」来生产新的商品——AI。”黄仁勋说。
他回顾道:“过去12年,我们意识到计算的未来将发生根本性的变化,直到今天,这真的和我之前说的完全一样,2012年前的GeForce和今天的英伟达,公司已经发生了巨大的变化。”
英伟达的路线图将每年更新,其基本理念是“打造数据中心规模,以每年的节奏分步骤实现、并向客户交付产品,在各领域实现技术突破”。
黄仁勋承诺不会止步于此,希望英伟达继续提高性能、降低训练和推理成本、扩展AI功能,让每家公司都能接受。
本周,全球科技产业的目光将持续聚焦在中国台北。AMD董事长兼CEO苏姿丰、英特尔CEO基辛格、高通总裁兼CEO安蒙、恩智浦CTO Lars Reger、联发科CEO蔡力行等芯片巨头的高层都将在COMPUTEX发表演讲,对这场科技盛会及其台系合作伙伴表现出绝对的重视。