2024年10月13日, NVIDIA 首席执行官黄仁勋参加Bill Gurley 和 Brad Gerstner 主持的对话节目。本次对话内容涉及通向通用人工智能 (AGI) 的发展路径、机器学习的加速进程、NVIDIA 的竞争优势、AI 训练和推理的重要性、AI 领域未来的市场格局、AI 对各行业的影响、未来的工作形态、AI 提升生产力的潜力、开源与闭源的平衡、Elon Musk 的 Memphis 超级集群、X.ai、OpenAI 以及 AI 的安全发展等关键话题。
黄仁勋在对话中称,NVIDIA正在经历一个超越摩尔定律的计算革命,AI时代的计算堆栈(包括硬件、软件和应用)都发生了根本性变化,计算的边际成本大幅下降,机器学习成为核心驱动力。他认为,NVIDIA的竞争优势在于构建完整且兼容的计算平台,从GPU到CPU,到网络,到软件库,形成一个整体的AI生态系统,而不是仅仅依靠单个芯片的性能提升。
黄仁勋认为AI时代的核心是“飞轮”,即一个由数据获取、数据处理、模型训练和推理组成的复杂循环。NVIDIA的重点在于加速这个飞轮的每一个环节,尤其强调推理能力的重要性,并预见未来推理规模将远超训练。
黄仁勋称,目前 NVIDIA 超过 40% 的收入来自推理任务。而随着推理链的出现,推理的规模预计将迎来千万倍乃至十亿倍的增长。这种增长潜力正是关键所在,但大多数人还未完全意识到这一点。
他指出,NVIDIA的架构和软件库(如CUDA、cuDNN等)已深刻地改变了深度学习领域,并且在不断扩展到新的应用领域(如视频处理),而不仅仅局限于文本模型。
以下是本次对话原文完整实录
他们的成就是独一无二的,前所未有的。为了让大家更好地理解,我们利用10万块GPU(图形处理器),成功打造了全球最快的超级计算机集群。通常情况下,规划和建设一台超级计算机需要三年时间,设备交付后,还需要花费一年时间进行部署和调试。而我们只用了19天就完成了全部工作。
我们将在周一举行年度投资者会议,届时将全面讨论人工智能(AI)的成果以及智能化扩展的速度。我认为没有人比您更适合开场,非常感谢您的参与。作为股东和思想上的合作伙伴,您的智慧帮助我们不断成长,我们对此深表感谢。再次感谢您的到来。
很高兴来到这里。今年的主题是智能化扩展。我们将深入探讨通用人工智能(AGI)。令人难以置信的是,两年前,我们在AI领域开始努力时,ChatGPT还未面世,而如今,世界已经发生了巨大的变化。
我认为可以从一个思维实验和预测开始。如果将AGI看作是我们口袋中的个人助理,它了解我们的一切,拥有完美的记忆,能够与我们沟通,为我们预订酒店,安排医生预约。面对当今世界的快速变化,您认为我们距离拥有这样一个个人助理还有多远?
这种助理的实现其实指日可待。尽管在最初阶段它可能并不完美,但随着时间的推移,它将不断改进,这正是技术的魅力所在。最初它可能只是有用,但并不完美,然而随着不断优化,它将越来越强大。埃隆曾说过,真正重要的是变化的速度,我对此完全认同。就我们而言,AI的发展速度已经达到了前所未有的水平。我们在AI领域已探索十多年,而这种变化速度确实是我职业生涯中从未见过的。
这种快速的变化源于我们对计算方式的重新定义。过去十年,我们通过创新手段将计算的边际成本降低了十万倍,而摩尔定律仅能实现百倍的改进。通过多种方式,我们取得了这一成就。
我们通过引入加速计算,将在CPU(中央处理器)上效率较低的任务转移到GPU上处理,以此显著提升性能。我们发明了新的数值精度,采用了新型架构,并引入了Tensor Core。此外,我们通过NVLink(NVIDIA的高速GPU互连)和InfiniBand(一种计算机网络通信标准)整合了高速内存技术,如HBM(高带宽存储器),以扩展系统规模,并对整个计算堆栈进行了优化。这些举措构成了NVIDIA的核心创新策略。
这些创新超越了摩尔定律的速度,使我们从传统的人类编程转向了机器学习(Machine Learning)。机器学习的独特之处在于它能够快速学习。当我们重新设计分布式计算方式时,我们采用了多种并行处理方法,如张量并行、流水线并行等,并在此基础上不断发明新算法和新的训练方法。所有这些创新相互叠加,最终带来了显著的成果。
在过去,软件是静态的,预编译后便投入使用,底层硬件以摩尔定律的速度发展。而现在,我们整个计算堆栈从底层到顶层都在同步增长和创新,这种扩展无疑是非凡的。我们讨论的已经不再是简单地扩展预训练模型,而是关于如何有效地扩展模型大小和相应的数据规模。计算能力需求每年增长四倍,这是一个巨大的挑战。而现在,我们看到的不仅是训练的扩展,还有推理的扩展。
过去人们认为预训练很难,而推理相对容易。但现在,所有环节都变得同样具有挑战性。快速思考与深度推理、反思、迭代和模拟正在成为现实,这对整个系统提出了更高的要求。
关于NVIDIA,有一个常被误解的问题,那就是我们真正的护城河到底有多深。许多人认为,只要有人能设计出一款性能更强的芯片,便可以取代NVIDIA。然而,事实是,我们在过去十年中已经构建了从GPU到CPU再到网络的完整堆栈,尤其是那些使得应用程序能够高效运行的软件和库。因此,NVIDIA的护城河不仅没有缩小,反而变得更加深厚。
这种优势并不仅仅来自芯片的浮点运算能力或性能,而在于我们整个系统的组合效应。我们在堆栈的每个层面都有不断的改进,最终形成了持续扩大的竞争优势。英特尔在其巅峰时期通过制造和设计高效芯片建立了护城河,而NVIDIA则通过全面整合硬件和软件,将计算从芯片层面提升到整个数据中心的规模,使我们能够持续推动行业前进。
我们的公司与众不同,因为我们意识到,并非每一个晶体管在并行处理中的表现都需要达到顶尖水准。串行处理依赖于每个晶体管的优异性能,而并行处理则更需要大量的晶体管来实现更高的成本效益。我更倾向于拥有数量更多但速度稍慢的晶体管,而不是拥有数量较少但性能更强的晶体管。这种理念与传统的单线程性能优化完全不同,因此单线程处理与并行处理在本质上存在着巨大差异。
我们关注的并不是不断向下优化单一晶体管的性能,而是不断整体向上提升并行计算的效率。并行计算和并行处理具有其复杂性,因为每一个算法都需要根据架构的特点进行不同方式的重构和重新设计。
许多人可能没有意识到,在传统的CPU领域,可以使用三种不同的指令集架构(ISA),并通过C编译器将软件编译到这些架构中。然而,在加速计算和并行计算领域,这种方式是不可行的。架构的开发者必须为各自的架构设计自己的图形接口库,例如OpenGL。
正因如此,我们彻底改变了深度学习领域。深度学习之所以能取得今天的成就,得益于我们的领域专用库cuDNN(CUDA深度神经网络库)。尽管cuDNN并不总是被人提及,因为它隐藏在PyTorch、TensorFlow等框架的底层,但它实际上是深度学习的重要支柱,过去的Caffe和Theano、以及现在的Triton等都依赖于它。
我们还开发了多个领域专用的库,如Optix、cuQuantum、Rapids等,这些库为不同的行业需求提供支持。这些库位于深度学习框架的底层,使得整个生态系统能够高效运行。例如,如果没有我们开发的大型语言模型(LLM),许多上层应用程序就无法顺利运行。
因此,NVIDIA的真正优势在于我们在上层科学和底层架构之间的深度融合,这使得我们在推理和训练领域都具备强大的竞争力。两年前,当布拉德和我与你共进晚餐时,我们曾问你是否认为推理的护城河会和训练一样深。当时你也表示推理可能会更强,而我们现在正逐渐进入推理的时代。
训练实际上就是大规模的推理。如果你在特定架构上完成了良好的训练,那么推理过程也会表现优异。即便是为了适应其他架构进行优化,只要最初的设计是基于NVIDIA的架构,那么在NVIDIA平台上它就能无缝运行。
在资本投资方面,当你训练新的模型时,往往希望使用最先进的设备进行训练,而上一代设备则被用于推理,这些设备仍然非常适合推理任务。通过这种方式,我们建立了一个设备的升级和再利用的轨迹,从而最大程度地提高了基础设施的利用效率。
我们投入了大量的资源,不断研发新的算法和改进现有框架,这些努力不仅对新架构如Hopper有益,也让上一代架构如Ampere和Volta性能更上一层楼。这使得我们安装的基础设施在持续演进的过程中,依旧能够保持高效和竞争力。
NVIDIA的计算基础设施已经遍布云端、本地部署和边缘计算场景。例如,在云端开发的Vila视觉语言模型无需修改便可在边缘设备上运行,这都得益于我们的CUDA兼容性。
我们始终强调架构的兼容性,这对于推理任务至关重要。正如iPhone的硬件和软件协同发展一样,我们的基础设施兼容性为用户提供了一致的使用体验,这使得我们在推理领域的优势不断积累。
同时,我们也致力于为个人助理等应用场景创造出高度互动的推理体验。我们不希望用户等待系统的响应,而是希望实现快速、实时的互动。为了达成这一目标,我们发明了NVLink,让我们能够在推理任务中实现与训练同样高的性能。
NVLink使得我们能够在训练完成后继续发挥系统的推理优势,我们通过不断优化每一个计算节点,致力于在毫秒级别内完成推理任务。这种架构的复杂性促使我们研发出带有NVLink的Grace Hopper CPU,以确保在满足巨大带宽需求的同时,也能提供足够的浮点运算能力。
在当前的行业环境中,有不少公司正在开发定制的ASIC(专用集成电路),例如Meta的推理加速器、Amazon的Trainium、Google的TPU等。然而,NVIDIA的战略目标不同,我们专注于为机器学习和生成式AI世界构建一个全方位的计算平台。经过六十年的计算技术积累,我们重新设计了整个计算堆栈,包括编程方法、从CPU到GPU的软件处理方式,以及从传统工具到AI应用程序的转变。
我们正在构建一个无处不在的计算平台,这使得NVIDIA在AI基础设施的构建上具备独特的优势。对我们而言,数据中心现在就是计算的基本单位,而不再只是某一块芯片。数据中心包含了CPU、软件、硬件协同工作的整体,我们正致力于每年不断改进这一整体架构,从而推动AI计算的持续演进。
您编写软件的方式,从传统编程到机器学习,从在CPU上执行任务到利用GPU进行处理,再到人工智能应用的开发方式,这些变化无不体现出计算领域的转型。从软件工具到AI驱动的应用,每个计算堆栈和技术堆栈的方面都发生了深刻变革。
我们的目标是构建一个无处不在的计算平台,这就是我们所从事工作复杂性的根本所在。我们正在构建整个AI基础设施,实际上把它看作一台巨大的计算机。
我曾说过,现在数据中心已经成为计算的基本单位。当我想到一台计算机时,我不仅仅考虑那一块芯片,而是考虑所有的组件。我想到的是CPU,是软件,是所有编排和控制这些机器的系统。那就是我的计算机。我们每年都在尝试构建一个全新的“计算机”,这的确是一个疯狂的壮举,以前从来没有人尝试过这样的事情。
每年,我们都努力将性能提升到上一代的两到三倍。同时,我们也在努力将成本降低,并将能效提高到前一年的两到三倍。我们的目标是逐年改进,使得每年的成果相较之前有显著提升。我们不是一次性采购所有设备,而是逐年少量购买,以便在未来能够持续平均化成本。所有的系统都是架构兼容的。
构建这一切的速度本身已经非常具有挑战性,此外,我们还将这些基础设施解耦并将其集成到各种云平台中——包括Google Cloud Platform(GCP)、Amazon Web Services(AWS)、Azure以及Oracle Cloud Infrastructure(OCI)。每个云平台都有不同的整合方式,我们必须将所有的架构库、算法、框架、安全系统和网络系统整合到他们的生态系统中,这使得每次整合都需要进行深度定制,而我们每年都要完成这样的任务。
这种整合工作的复杂性令人惊叹:每年,我们不仅提供基础设施,还要确保这些基础设施无缝地集成到全球各地的数据中心,并与他们的系统协同工作。这种协作需要精确协调的API、方法论、业务流程和设计规则。经过数十年的发展,我们的方法论和架构已经磨练得非常完善,以确保当全球各地的组件准备就绪后,所有系统能够顺利集成,形成一个完整的计算平台。例如,用户只需调用OpenAI的API,整个系统便能够无缝运行。
整个世界与我们合作,NVIDIA的计算基础设施被整合到各处——通过Dell或HPE等渠道销售、托管于云端、部署于边缘计算环境。我们的技术在机器人系统、人形机器人和自动驾驶汽车中得到应用,它们在架构上保持一致,形成了一个相当惊人的生态系统。
我们致力于创建无处不在的计算架构和平台,并不试图从他人那里争夺市场份额。NVIDIA的目标是成为市场的开拓者,而非仅仅是市场份额的竞争者。因此,我们始终专注于如何创造新的事物,如何加速飞轮效应,以及如何为用户提供更好的体验。
我们想将这个飞轮,从可能需要一年的开发周期压缩到一个月,这代表着突破性的加速。而尽管我们对整个行业保持敏锐的意识,我们依然坚定不移地执行我们的使命,这一使命对我们和整个世界都至关重要。所有伟大的公司都需要有一个明确的目标,而唯一需要回答的问题是,这个目标是否必要?是否有价值?是否能够产生深远的影响?
我们相信,通过支持CUDA,开发者可以在我们的平台上实现他们的愿景,并且未来可以根据需要作出新的选择。NVIDIA并不抗拒用户构建自己的ASIC,实际上,我们与所有的云平台合作,并提前几年向他们展示我们的路线图,即便他们也在开发自己的ASIC,这些都不会影响到我们执行自己的使命。
我们的路线图在GTC大会上是公开透明的,我们在Azure、AWS等合作伙伴之间的协作也没有任何犹豫。这种透明和开放正是因为我们对使命的坚定信念。
市场的需求是疯狂的,尤其是对最新GPU架构Hopper的需求超乎想象。在资源有限的情况下,我们面临的一个挑战是对部分需求说“不”,而这种情感上的负担也是业务的一部分。有人将这种需求比作2000年光纤产业的繁荣与萧条,但NVIDIA并非是简单地重复历史,我们正在塑造新的市场,突破预期,开创前所未有的可能性。
我回想起2023年初,当我们共进晚餐时,讨论了对NVIDIA的预期。那时的预测是,2023年NVIDIA的收入将达到260亿美元,而实际上你们达到了600亿美元。这是一个巨大的差距,是全球预测中的一次重大失误。至少,我们可以坦率地承认这一点,这对我来说是非常有意义的收获。
在2022年11月,我们倍感兴奋,因为像来自Inflection的Mustafa和来自Anthropic的Noam这样的业内领袖来到了我们的办公室,讨论对他们公司进行投资的可能性。他们提到,如果无法直接投资他们的公司,那么就投资NVIDIA,因为全世界都在争相购买NVIDIA的芯片,用于构建那些将彻底改变世界的应用。
随着ChatGPT的发布,这一行业经历了堪比寒冬的“寒武纪爆发”。尽管如此,那些25位分析师因对加密寒冬的兴奋而未能预见世界的真正发展趋势,这也是导致他们预测错误的原因之一。最终的结果是市场的规模远超预期。
您曾说过,用非常直接的方式表达,Hopper架构的需求是空前的,这种需求将持续很长时间,尽管未来仍存在未知因素。但为什么批评者错误地认为这会像2000年时思科的过度建设一样,最终导致市场崩盘呢?
思考未来的最佳方式是从第一性原理进行推理。我们应该问自己:我们究竟在做什么?我们正在重新发明计算的方式。未来的计算将高度依赖于机器学习,这一点已经十分明确。无论是Word、Excel、PowerPoint,还是Photoshop、Premiere、AutoCAD等几乎每一个应用程序,在未来都将高度依赖机器学习,所有这些工具将被智能代理辅助使用。
我们已经彻底重新定义了计算技术的堆栈。从编写软件到使用软件的一切都将有所不同。过去的数据中心是计算的核心,而未来的数据中心也必须迎接现代化的挑战。我们看着那些价值数千亿美元的数据中心,意识到它们必须被更新,必须适应未来的计算需求,而这一切都是基于现代化的GPU架构。
如果一个企业手中有500亿美元的资本支出预算,如何决定如何使用?是建设未来的基础设施,还是继续沿用过时的设备?答案显而易见:我们应当将这笔资金投入到生成式AI中,因为这将使企业变得更好。如果拥有过去四年建设的基础设施,那么所有新的资金都应投入到生成式AI中。
我们从第一性原理出发,进行思考并做出决策。聪明的人在做出符合逻辑的决定。接下来我们还有一万亿美元的旧基础设施需要进行现代化改造,同时我们也有一万亿美元的AI新工作负载在未来几年内到来。
此外,我们观察到,未来的软件不仅编写方式不同,使用方式也将发生变化。我们将拥有智能代理,在公司中将出现数字员工。在您的收件箱中,未来将会有AI助手为您处理日常任务。而我们将不再使用C++进行编程,而是通过提示与AI互动,这种方式与我现在与团队沟通的方式非常相似。
新的计算基础设施将围绕这些AI助手和数字员工运行。我们称之为“AI工厂”,这些AI助手将在全球的企业中全天候运行,从工厂到自主系统,遍布各行各业。而这种新的计算层——AI工厂——是今天还不存在的,但未来必须被构建的。
美妙之处在于,为这些新AI工厂设计的架构和现代化旧数据中心的架构是相同的。你有一万亿美元的旧设备需要更新,同时你也有至少一万亿美元的新AI工作负载需要建设。因此,市场潜力巨大,我们的收入有理由实现两倍甚至三倍的增长。
我们不应该受限于现有市场的大小,而是应该有想象力去创造新的市场。NVIDIA的使命是成为市场的创造者,而不是仅仅争夺市场份额。我们始终致力于推动技术边界,创造新的增长机会,而不是仅仅逆向思考如何占领现有的市场空间。
份额的争夺者终究有其局限,而市场的创造者则可以无限成长。从我们公司成立的第一天起,我们就必须发明新的市场,开辟属于我们的天地。当时,大家可能还未意识到,但事实是,我们在3D游戏PC市场从无到有,基本上创造了这个市场及其完整的生态系统,所有显卡的生态环境也是我们创建的。因此,创造一个新市场并在其后服务它,这已经成为我们的一种常态和能力。
与发明新市场的人对话时,我想稍微转变一下话题,谈谈模型以及OpenAI。本周,OpenAI获得了65亿美元的融资,估值达到1500亿美元,我们也有参与其中。对此我感到非常高兴,为他们的成功感到由衷的喜悦。他们的团队表现出色,预期今年的收入将达到50亿美元,而明年可能实现100亿美元的收入。如果回顾这项业务,这个数字约为Google首次公开募股(IPO)时的收入的两倍,用户规模也达到2.5亿周活跃用户,几乎是Google IPO时期的两倍。
如果我们看未来收入的倍数,假如相信明年达到100亿美元的收入,那么这相当于前瞻性收入的15倍,这与Google和Meta在IPO时的倍数相当。想到OpenAI从22个月前的零收入、零用户,到如今的惊人表现,这无疑是历史上最令人难以置信的成就之一。
谈到OpenAI作为合作伙伴的重要性,以及其推动公众对AI认识和使用的力量,我认为他们是当代最有影响力的公司之一。OpenAI是一家纯粹的AI公司,追求通用人工智能(AGI)的愿景,不论具体定义是什么。在我看来,定义并非绝对重要,时间也并不关键。唯一明确的是,AI将沿着一条能力发展路线不断进步,这个路线图将会非常壮观。即使在AGI真正定义之前,我们也将充分利用其能力。
目前,我们所要做的正如我们常说的,就是去和数字生物学家、气候技术研究人员、材料科学家、物理学家、天体物理学家以及量子化学家们沟通。无论是视频游戏设计师、制造工程师,还是机器人专家,深入到这些领域与重要的从业者交流,询问AI是否已经彻底改变了他们的工作方式,然后收集这些数据点。最终你会发现,他们谈论的不是一个概念上的未来,而是他们日常生活中长期使用AI的现实。
如今,从气候技术到材料科学,AI正在帮助每个领域取得进展。它在各行各业、每家公司以及每所大学中产生了深远的影响,令人惊叹。AI正在以非常具体的方式改变我们的业务,这种变化正发生在今天。
因此,我认为由ChatGPT引发的AI觉醒是完全令人难以置信的,我喜欢他们专注的目标和推动整个行业向前的速度。他们建立了一个经济引擎,能够为下一代模型提供融资,这正是令人振奋的事情。
硅谷的普遍共识是,整个模型层正在被逐步商品化。例如,Meta的LLaMa让很多人能够以较低的成本构建模型。早期阶段,我们看到很多公司如Anthropic、Inflection、Cohere和Mistral等涌现出来,很多人怀疑这些公司是否能够在经济引擎上达到“逃逸速度”,继续为下一代模型提供资金。
我的感觉是,我们会看到某种整合的发生。显然,OpenAI已经达到了“逃逸速度”,他们有足够的资金支持自己的未来。而其他许多公司是否能做到这一点,还不确定。这是对模型层现状的合理评估吗?我们可能会看到类似于其他行业中发生的整合,而OpenAI作为领先者,将继续利用其经济引擎进行持续投资。
首先,模型和人工智能之间存在根本的区别。模型是人工智能的一个基本组成部分,必要但不充分。人工智能代表了一种能力,但具体的应用是什么呢?比如自动驾驶汽车中的AI与用于人类辅助或者机器人的AI是不同的,与聊天机器人的AI也是不同的。
因此,必须理解技术堆栈中的分类法。在堆栈的每一层都有机会,但并不是每个人在每一层都有无限的机会。这意味着存在一定的挑战与问题。
我想补充一点,假设你将“模型”这个词替换为“GPU”,你会发现类似的情况。GPU与加速计算之间也存在根本的区别。加速计算不同于AI基础设施中的工作,它们彼此相关但并不完全相同,且在每一个抽象层中都需要不同的技能。因此,擅长构建GPU的人未必知道如何成为一家加速计算公司。
虽然有很多人可以制造GPU,但这并不意味着他们可以成为一家加速计算公司。以一个非常专业的AI应用为例,它可能是一个非常成功的产品,但它未必具有广泛影响力和全面能力。构建公司时必须识别生态系统的变化,了解哪些部分可能随着时间被商品化,明确什么是功能、什么是产品以及什么是公司。
此外,新的玩家如x.ai进入市场,他们充满资金、聪明且雄心勃勃。据报道,我与拉里和埃隆一起共进晚餐时,我们谈到了x.ai的超级集群建设计划。他们计划扩展超级集群,目标是增加10万台H-200 GPU,这无疑是一个宏大的目标。
首先,我们必须承认他们的成就。从概念到一个准备好让NVIDIA设备安装的空数据中心,再到启动它并完成第一次训练,整个过程令人惊叹。建造这样一个大型的液冷工厂,并在短时间内完成所有设备的连接和调试工作,这是超凡的表现。在工程和资源调配方面,埃隆是独一无二的,世界上只有少数人具备这样的能力。
X团队所取得的成就前所未有。为了让大家有一个概念,10万台GPU组成的集群,足以轻松成为全球最快的超级计算机。通常情况下,规划和建设一台超级计算机需要三年时间,然后交付设备并再花费一年进行全面调试。而X团队仅用了19天就完成了这一壮举。
这是NVIDIA平台的胜利,整个流程经过了精心的规划和优化。尽管存在大量的集成工作,但通过精密的预先规划和协调,我们实现了这一目标。
关于未来,我们已经达到了20万到30万台GPU集群的规模,但我们能否扩展到50万甚至一百万台GPU集群呢?我的感觉是,答案在于分布式训练和联邦学习的发展。我对分布式计算的未来充满热情和乐观。
扩展规律过去主要关注于预训练,但如今我们已经走向了多模态和合成数据生成。后训练的规模不断扩大,合成数据的生成和强化学习也在快速推进,推理扩展也在飞速发展。
在回答复杂问题之前,模型可能已经进行了数万次内部推理。它可能执行了树搜索、强化学习以及模拟,甚至可能查找了相关数据。这些都使得模型的上下文窗口变得非常大。
如果考虑到模型和计算规模每年增长四倍,同时需求也在持续增长,我们可以确定未来需要数百万台GPU。这已经毋庸置疑。
那么问题就在于如何构建数据中心,以支持这一发展。这在很大程度上取决于数据中心的规模是否以千兆瓦为单位建设。我的感觉是,两种规模的数据中心都会并存。
分析师往往只关注当前的架构布局,但我们更应该看到整个生态系统的长期发展。NVIDIA目前正在扩展以满足未来的需求,而不仅仅是满足当前的规模。当未来实现分布式训练时,我们将开发软件来支持这一目标。
如果没有七年前开发的Megatron(超大规模语言模型),就无法实现这些大型训练任务的扩展。我们发明了Megatron、Nickel、GPU Direct以及与RDMA(远程直接内存访问)相关的技术,这些都使得流水线并行成为可能。
目前所有关于模型并行、分布式训练以及批处理的优化,都是基于我们早期的努力。现在,我们正为下一代技术奠定基础。
我们可以谈谈Strawberry和O1。虽然时间有限,但O1的名字让我想起O1签证,这是一种吸引世界上最优秀、最聪明人才来到美国的签证。这正是我们两人所热衷的事情。
我喜欢这个理念:构建一个可以思考的模型,将我们带入智能扩展的新阶段,向那些通过移民来到美国的杰出人才致敬。正是这些人带来了集体智慧,让美国成为今天的样子。
推理时推理(Inference-time reasoning)无疑是一个巨大的突破。许多智能工作无法在预先阶段完成,很多计算也无法提前安排,就像乱序执行一样,必须在运行时完成。
从产品的角度看,智能正在变得更加细化。有些问题需要即时回答,而有些则需要经过更深度的推理和探索。智能层将这些问题路由到最合适的模型,正如昨晚我在使用O1 Preview高级语音模式辅导孩子准备AP历史考试时的体验,感觉就像有世界上最好的AP历史老师在身旁指导,这种体验真的非常独特和非凡。
AI 如今已经成为了我个人的导师,这绝对千真万确。AI 已经切实地进入了我们的生活中。回到最初的话题,目前 NVIDIA 超过 40% 的收入来自推理任务。而随着推理链的出现,推理的规模预计将迎来千万倍乃至十亿倍的增长。这种增长潜力正是关键所在,但大多数人还未完全意识到这一点。这就像是我们先前讨论过的那个行业,这是一场工业革命,一场引入智能的变革,它将以十亿倍的速度增长。
很多人关注 NVIDIA 在更大规模模型上的训练工作,但事实上,如果当前我们的收入是训练和推理五五开,那么未来推理将成为主要业务。训练固然重要,但推理的增长将远超训练。
我们希望如此,否则情况将大为不同。我们充满了希望,就像上学的目的是为了在未来有所作为一样,训练这些模型的目的就是为了更好地进行推理。
那么,是否已经在业务中应用 Chain of Reason 和 O1 这样的工具来改进效率呢?是的,我们现在的网络安全系统已经离不开 AI 智能体的帮助。我们的智能体正在协助芯片的设计工作,没有它们,Hopper 和 BlackWall 是无法实现的。我们拥有 AI 芯片设计师、AI 软件工程师以及 AI 验证工程师。
我们内部搭建了这一切,因为我们有能力,也愿意借此机会亲身探索这项技术。今天当我走进大楼时,有人对我说:“问问 Jensen 关于文化的看法,一切都取决于文化。”
我反思了一下我们的业务。我们常常谈论精简和效率,扁平化的组织架构让我们能够快速执行,团队规模也更为紧凑。NVIDIA 确实独树一帜,我们的人均收入约为 400 万美元,人均利润或自由现金流约为 200 万美元。你建立了一种讲求效率的文化,这种文化极大地释放了创造力、创新能力、主人翁意识和责任感。
这是一种功能型管理模式。大家喜欢谈论你直接管理的团队成员,那么运用 AI 是否能够帮助你在保持高效的同时,继续保持卓越的创造力呢?
毫无疑问,我期待有一天,NVIDIA 能从现在的 32,000 名员工增长到 50,000 名员工,外加 1 亿个 AI 助手,这些 AI 助手将分布在公司的每一个团队中。届时,我们将拥有一个全面的 AI 名录,这些 AI 将能够处理各种事务,成为我们团队的得力助手。
我们的收件箱里会充满着我们曾合作过的、极其出色的 AI 记录。它们专注于我们从事的技能领域,AI 甚至会主动招募其他 AI 来解决问题,AI 将在 Slack 频道中与其他 AI 交流,也会与人类协作。我们将拥有一个由数字员工和生物员工共同组成的庞大团队。
我甚至希望部分 AI 助手能够涉足机电一体化领域。从商业角度看,很多人误解了这一点。你刚才描述的公司,实际产出相当于拥有 15 万名员工的公司,但实际上只有 5 万名员工。
需要强调的是,你并没有说要解雇所有员工,相反,员工数量仍在增加,但组织的产出将呈现指数级增长。AI 并不会取代每一份工作,但它确实会改变人们对待工作的方式。这一点必须被认识到。
人工智能既有潜力带来不可思议的积极作用,也有可能造成伤害。因此,我们必须着力构建安全的人工智能,这应该作为基本原则。人们常常忽略的是,当企业使用人工智能提高生产力时,通常会带来更高的收益、更快的增长或者两者兼而有之。
在这种情况下,CEO 发出的下一封电子邮件不太可能是裁员通知,因为公司正处于快速增长期。我们有许多想法需要探索,需要员工帮助我们在自动化之前先去思考。AI 可以帮助我们完成自动化部分,也可以帮助我们进行思考,但关键不在于我们要解决什么问题,因为世界上有无数问题需要解决,关键是这家公司要解决什么问题。要选择正确的想法,找到自动化和规模化的方法。
因此,随着生产力的提升,我们将雇佣更多的员工。人们往往忽视这一点。回顾历史,我们今天拥有的想法显然比 200 年前要多得多,这正是 GDP 更高、就业人数更多的原因,尽管我们在底层不断实现自动化。
这也是我们所进入的这一时期的重要观点之一。过去 200 年来,几乎所有人类生产力和繁荣都是自动化和技术进步的副产品。从亚当·斯密的理论到熊彼特的创造性破坏,你可以从中审视这个问题,看看过去 200 年人均 GDP 增长的曲线图,它一直在加速上升。
这引出了我的一个问题。回顾 90 年代,美国的生产力增长大约每年为 2.5% 至 3%。但在 2000 年代,增长速度放缓至约 1.8%。过去十年中,生产力增长达到有记录以来的最低水平。这里的生产力指的是在固定的劳动力和资本投入下实现的产出水平。
很多人对生产力增长放缓的原因进行了争论,但如果世界真如你所描述的那样,我们需要利用和制造智能,那么我们是否正处于人类生产力大规模扩张的边缘?这是我们的希望,不是吗?当然,我们身处这个世界,所以我们有直接的证据。
我们有直接的证据显示,即使是孤立的个案,一个研究人员在 AI 的帮助下,现在也能够以难以想象的规模进行科学探索,这就是生产力的提升,百分之百的增长。或者说,我们正在以令人难以置信的速度设计芯片,尽管员工人数几乎没有增加,但芯片的复杂性和计算机的复杂性却在指数级增长,这也是生产力的体现。
我们开发的软件变得越来越好,因为我们使用 AI 和超级计算机来帮助我们。员工人数的增长几乎是线性的,但生产力却在显著提高。这适用于各个行业,我可以对我自己的业务进行检验,这一提升是确凿无疑的。
所以,我们可以从各个行业中观察到这一现象。当然,我们可能存在过度拟合的风险,但问题是如何从中提炼出普遍的规律。我们所观察到的现象是否可能在其他行业中也出现?毋庸置疑,智能是世界上最有价值的资源,而我们现在正致力于大规模制造这种智能。
我们所有人都必须学会如何应对这一变化:当你被表现出色、超越你的 AI 包围时,你该如何应对?这就是我的日常生活,我有 60 位直接下属,他们之所以在管理团队中任职,是因为他们在各自领域内是世界顶尖的,他们的表现远远超过我。
我与他们合作、对他们进行提示、规划他们的工作,这些我都驾轻就熟。人们需要学习的是,如何成为 AI 智能体的“CEO”。他们需要具备创造力、坚强的意志力,掌握足够的知识和推理能力,学会将复杂问题分解,并像我一样,对这些 AI 进行编程以实现目标,这就是经营公司的诀窍。
你提到过人工智能的协调一致性和安全性,也提到了中东正在发生的悲剧。我们在全球范围内拥有大量的自主权和人工智能应用。让我们谈谈不良行为者、AI 的安全性以及与华盛顿的合作。你现在感觉如何?我们走在正确的道路上吗?我们有足够的协调吗?
据我所知,Mark Zuckerberg 曾说过,战胜坏人工智能的方法就是让好人工智能更强大。你如何看待这一观点,即如何确保人工智能能为人类带来积极的净收益,而不是将我们引向一个反乌托邦的未来?
关于安全的讨论非常重要,这是好的,但把 AI 抽象地看作一个巨大的神经网络,这种概念化的观点可能并不合适。因为正如我们所知,AI 和大型语言模型虽然密切相关,但并不完全相同。目前正在进行的许多工作非常有意义。
首先,开源模型使得整个研究界和各行各业的公司都能参与进来,学习如何利用 AI 的能力来满足自身的需求,这一点非常好。其次,人们常常低估了专门用于发明 AI 技术以保障 AI 安全的工作数量。用于筛选数据、训练 AI、生成合成数据、拓展 AI 知识、减少幻觉等方面的 AI 技术创新正在蓬勃发展。
所有这些被创建的 AI,用于矢量化、图像化或者其他改进 AI 的工具,监控和保护其他 AI 的系统,都被低估了。我们已经建立了这样的系统。整个行业都在为此做出贡献,确立方法,组建红队,制定流程,建立模型卡等等。这些都是确保 AI 安全的重要步骤。
评估系统和基准测试系统也在以令人难以置信的速度被构建出来,这些工作的意义往往被低估了。即使没有政府的强制性要求,今天在这一领域中构建人工智能的参与者也在认真对待这些关键问题,并围绕最佳实践进行协调。
这一点常常被忽视和误解。每个人都需要认识到,人工智能是由多个人工智能系统和工程系统组成的整体,这些系统从第一性原理出发,经过精心设计和严密测试。
谈到监管时,我们要牢记,人工智能本身是一种可以应用的能力。对于关键技术,适当的监管是必要的,但也要避免过度干预。大部分监管应该在应用层面进行。像 FAA(联邦航空管理局)、NHTSA(国家公路交通安全管理局)、FDA(食品药品监督管理局)等不同的生态系统,已经在对将人工智能融入其中的技术应用进行有效监管。
目前,人工智能正在被注入到各种技术应用中。因此,不要忽视已有的、也必将为人工智能所激活的庞大监管体系。但我们不能仅仅依赖一个全能的人工智能委员会来实现这一目标,而是要理解每个监管机构的设立初衷和具体作用。
让我们回到第一性原理。如果不谈开源这个话题,我的合伙人 Bill Gurley 可能会让我尴尬。你们最近推出了一个非常重要且功能强大的开源模型——Megatron。显然,Meta 也在为开源事业做出巨大贡献。我在 Twitter 上看到关于开放与封闭的讨论非常多。
你如何看待自己开源模型在与 Frontier 竞争中保持竞争优势的能力?这是第一个问题。第二个问题是,你是否认为未来会是开源模型与支撑商业运作的封闭源模型并存的局面?这两者能否在安全性方面形成良性的张力?
开源和封闭源代码虽然与安全性相关,但并不是全部。举例来说,使用封闭源代码模型作为维持创新的经济模式引擎完全是合理的,对此我深表认同。这并不应该是非此即彼的选择,而是开放与封闭的结合。
开放对于激活多个行业至关重要。如果没有开源,各个科学领域如何利用人工智能?他们必须使用开源模型,开发适用于自身领域的人工智能。虽然开源模型与人工智能之间是相关的,但两者并不完全等同。拥有开源模型并不意味着拥有完整的人工智能能力,开源模型是推动人工智能创建的重要工具。
由于开源的存在,金融服务、医疗保健、交通运输等多个行业以及科学领域得以应用人工智能,这无疑是巨大的进步。你是否看到对开源模型有巨大的需求?
首先,LLaMa 的下载量令人难以置信,Mark 和他的团队在这方面的工作极为出色。这极大地激活并吸引了各行各业和科学领域的参与。我们开发 Nemotron 的目的则是用于合成数据生成。从直觉上来看,单靠一个 AI 不断生成自己的学习数据,这种方式并不完全可靠,因为很难预测这种自我循环能够持续多少次。
我更倾向于这样的设想:将一个超级聪明的人关在有衬垫的房间里一个月,结果可能并不是变得更聪明。但是,如果有两到三个人,他们彼此交换想法和知识,我们会发现他们的智慧能够相互激发,集体变得更聪明。
因此,人工智能模型之间的交换、互动、辩论、强化学习和合成数据生成是非常合理且有价值的。
我们的模型 Nemotron 350B,准确地说是 340B,是全球最强的奖赏系统模型,能够提供最佳的评估能力。有趣的是,这个模型非常优秀,可以提升所有其他模型的性能,无论对方模型多么优秀。我建议使用 Nemotron 340B 来改进各类模型,事实上,它已经在提升 LLaMa 以及所有其他模型的表现。
好了,接近尾声了。作为 2016 年交付 DGX-1 的人,这一路程真是令人难以置信。你的旅程既非寻常,又充满了惊喜。感谢你一路走来。特别是在早期,能够生存下来本身就已经非常不易。你在 2016 年交付了第一台 DGX-1,而我们在 2022 年迎来了 AI 的寒武纪大爆发。
所以,我想问你一个我经常被问到的问题:你还能保持现在的工作状态多久?你管理着 60 个直接下属,推动着这场革命。你是否依然乐在其中?除此之外,还有没有更想做的事情?这是关于我们刚才讨论的所有问题的总结。答案是,我非常享受这份工作,我无法想象还有其他事情能让我更加投入。
我们需要意识到,给别人留下“我的工作总是充满乐趣”的印象并不恰当。我的工作并非时时刻刻充满乐趣,我也从不期待如此。重要的是,工作的意义始终存在。我从不把自己看得太重,但我非常认真地对待我的工作和责任。
我非常认真地对待我们的贡献和我们所处的这个时代。这并不意味着每时每刻都是愉悦的,但我始终热爱这份工作。这就像生活中的其他方面——无论是家庭、朋友,还是孩子,虽然不总是令人愉快,但我们始终深深爱着。
因此,我在思考,我还能在这个领域工作多久?真正的问题是,我能保持自身的价值多久?而答案则在于我如何持续学习。老实说,现在我比过去更为乐观。这不仅仅是因为我们今天讨论的内容,而是因为我对自己持续保持价值的能力更有信心,对自己继续学习的能力更加乐观,这都要归功于人工智能(AI)。
我每天都在使用 AI,我相信你们也是如此。确实,我每天都离不开它。所有的研究工作,我都会借助 AI 的力量。即使是那些我已经知道答案的问题,我也会用 AI 再次验证。而更惊人的是,在我提出进一步的问题后,AI 常常能够揭示出我之前未曾了解的细节。这就是 AI 的魅力所在——你可以选择任何话题,AI 都能为你提供深刻的见解。
AI 作为导师(AI as a tutor)、助手(AI as an assistant)和头脑风暴的伙伴(AI as a partner to brainstorm with),在帮助我检查工作成果方面发挥了不可思议的作用。这确实是一场彻底的革命,而这仅仅是开始。作为知识工作者,我的工作成果就是信息,因此我相信 AI 将会显著提高我对社会的贡献。
如果真是如此,如果我能够借助 AI 保持自身的价值并继续做出贡献,那么我深知这份工作对我而言足够重要,值得我继续投入。而且更重要的是,AI 极大地提升了我的生活质量。说实话,还有什么可抱怨的呢?
我要说的是,我们都在这个领域深耕了几十年,我无法想象错过这个重要的时刻。这无疑是我们职业生涯中最具影响力的时刻。我们对这种合作关系充满感激,千万不要错过未来十年的发展。感谢这段思想上的合作与伙伴关系。你们让我们更加智慧,非常感谢。
作为领导团队的重要成员,你的角色至关重要。我们期待你以积极乐观且稳妥的方式引领我们继续前行。非常感谢你今天来到这里,真的很高兴能够有这次交流的机会。再次感谢 Brad 和 Clark,你们做得很棒。最后,我想提醒大家,我们今天讨论的内容仅代表个人观点,不应被视为投资建议。
| 文章来源:数字开物