必读全景解析!中美AI与全球芯片供应链“死局”——看透中美博弈的科技底层:真实产能、电力破局与HBM掠夺战 |图文解析+5万字全文

问AI · 科技巨头为何预付未来算力成本?

|未经许可不得转载🌟星标本号获取全球顶级认知|

图片

城主说| 在当今全球科技版图中,一场前所未有的军备竞赛正在上演。亚马逊、Meta、谷歌与微软等科技巨头每年的资本支出总额已逼近六千亿美元,而这仅仅是冰山一角。在这场以人工智能为核心的权力重构中,资本、电力、土地与半导体供应链正交织成一张复杂的博弈之网。

在最新公开的这个关于AI和芯片供应链的干货密度极高的播客长访里,半导体分析机构的首席执行官迪伦·帕特尔对全球算力基础设施的现状进行了深度剖析。 他重点分析了四大科技巨头(Amazon, Meta, Google, Microsoft)及领先 AI 实验室(OpenAI, Anthropic)在算力竞赛中的不同策略。讨论涵盖了资本支出(CAPEX)的时间节点、半导体供应链(特别是 EUV 光刻机和 HBM 内存)的极度瓶颈、电力供应的多元化解决方案,以及中美在半导体领域的长期博弈与地缘政治风险。

对于任何关注科技、创投、AI以及地缘政治的读者来说,这篇访谈都是绝对不容错过:

1. 降维打击的信息密度
现在全网充满了关于“AGI(通用人工智能)明天就要到来”的宏大叙事和盲目狂热,而 Dylan Patel 拿着物理法则来“砸场子”。他没有空谈算法和软件,而是剥茧抽丝地把AI的未来降维到了最底层的原子和制造级别:从 EUV 光刻机里 13.5 纳米的光源、透镜系统的 9G 加速度,到 HBM 内存的边缘物理尺寸限制。这种基于真实供应链和物理法则的分析,对那些整天只会喊“算力无限”的乐观主义者是降维打击。

2. 颠覆认知的“反常识”洞见
这篇访谈最精彩的地方在于它提出了极多极其反直觉、反常识,但又逻辑严密的商业推论。比如:
算力芯片“越老越香”:颠覆了华尔街关于硬件(GPU)三年必淘汰的折旧模型,提出如果新模型(如GPT-5.4)效率极高,旧显卡的产出价值反而会上升。
消费电子为AI“殉葬”:普通人可能觉得AI离自己很远,但他直接指出AI对HBM内存的掠夺,将导致你我的手机和电脑未来几年不仅不升级,反而会暴涨 250 美元。
马斯克太空GPU被“打脸”:用通信拓扑结构、激光互联成本、以及高达15%的设备故障率(RMA),无情戳破了太空数据中心的短期可行性。

3. 宏大叙事与微观颗粒度的完美缝合
访谈的格局极其宽广,但落脚点又极其微观。
上一秒还在讨论 6000 亿美金的资本大棋局、中美在 2030 年的半导体生死决战,以及台湾芯片产业链的“衔尾蛇悖论”;下一秒就精准切入到数据中心里“表后电源”的燃气轮机交付周期、甚至机架里光纤和电源线的模块化集成。


4. 极高水准的对谈质量
好的访谈离不开好的主持人。著名科技博主Dwarkesh Patel 在这里展现了顶尖的采访功力:
他没有盲目附和,而是不断用尖锐的问题逼着嘉宾给出明确的时间表和数字(比如:到2030年中国到底能不能造出EUV?ASML为什么不把产能翻三倍?)。
他甚至巧妙地引入了经济学中的 “Alchian-Allen 效应(阿尔钦-艾伦定理)”,瞬间拔高了讨论的理论深度,完美解释了算力成本上升为何会促使企业溢价购买最顶尖的模型。

这个科技访谈更像是一份极高价值的投资研究报告。它理清了未来 5-10 年全球科技竞争的真实底层逻辑。对于投资人、AI行业创业者、科技大厂中高层,甚至是政策制定者来说,这篇访谈是必须逐字逐句精读的“生存指南”。

00:00:00 – 为什么今天的 H100 比 3 年前更值钱

00:24:52 – 英伟达早早锁定了台积电的产能;谷歌正面临挤压

00:34:34 – 到 2030 年,ASML 将成为人工智能算力扩展的首要制约因素

00:55:47 – 我们难道不能直接使用台积电的旧晶圆厂吗?

01:05:37 – 中国何时能在半导体领域实现对西方的规模超越?

01:16:01 – 即将到来的巨大内存紧缺

01:42:34 – 在美国扩展能源供应不会成为问题

01:54:44 – 太空 GPU 在本十年内不会实现

02:14:07 – 为什么没有更多的对冲基金在进行 AGI 交易?

02:18:30 – 台积电会把苹果从 N2 工艺中踢出去吗?

02:24:16 – 机器人与台湾风险


核心观点


  • • 资本支出的前瞻性 :巨额的年度资本支出并非全部投向当年算力,很大一部分是为未来几年(至 2029 年)的电力、土地和关键设备预付定金。
  • • 供应链的终极瓶颈 :尽管电力和数据中心建设是短期难题,但长期来看,ASML 生产的 EUV 光刻机和先进内存(HBM)的生产能力才是制约 AI 规模化增长的物理上限。
  • • 模型效用与财务逻辑 :随着模型能力的提升(如 GPT-5.4),单块 GPU 的产出价值在增加,这可能推翻传统的硬件快速折旧论调。
  • • 电力方案的灵活性 :通过“表后处理”、燃气轮机、甚至船舶发动机等多元化手段,电力瓶颈在资本推动下比芯片瓶颈更容易通过人类创造力解决。
  • • 地缘政治与产业安全 :台湾在先进制程上的核心地位构成了“衔尾蛇”式的悖论,地缘政治动荡将对全球 AI 算力的边际增长造成毁灭性打击。
  • • “资本支出具有极强的前瞻性,科技巨头正在为二零二九年的电力、土地和关键设备预付定金,而非仅仅购买当年的算力。”
  • • “极紫外光刻机的生产能力是制约人工智能规模化增长的终极物理上限,这种人类制造的最精密机器无法在短时间内实现产量飞跃。”
  • • “如果模型效用持续提升,算力芯片的价值将随时间推移而上升,这将彻底推翻传统的硬件快速折旧论调。”
  • • “电力瓶颈可以通过燃气轮机、船舶发动机等多元化手段解决,人类的创造力在能源领域比在半导体物理极限面前更有发挥空间。”
  • • “台湾在先进制程上的核心地位构成了‘衔尾蛇’式的悖论:没有台湾芯片,全球就无法制造出生产芯片的工具。”

资本支出背后的时间博弈:预付未来的入场券

当前的算力竞赛中,数字往往令人窒息。四大科技巨头今年的资本支出预测高达六千亿美元,但这并不意味着这些投入会立即转化为即时的算力产出。迪伦·帕特尔指出, “很大一部分资本支出实际上是用于前期准备,包括二零二八年和二零二九年的涡轮机预付款、数据中心建设费用以及购电协议的首付款。”

这种前瞻性的布局是为了确保在未来几年内实现超高速的规模化扩张。对于人工智能实验室而言,融资额的激增也是为了覆盖日益增长的推理成本。以某头部人工智能实验室为例,其收入的快速增长意味着需要匹配海量的推理能力。 “仅仅为了维持收入增长,他们可能就需要在一年内增加数个吉瓦的推理能力,这在供应链极度紧张的背景下是一项极其艰巨的挑战。”

算力获取的策略分化:激进与保守的代价

图片

在获取算力的路径上,不同的科技巨头展现了截然不同的战略。一些公司倾向于签署极其激进的长期合同,通过多元化的供应商渠道——包括新兴的云服务商、能源公司甚至从未涉足数据中心领域的跨国企业——来锁定未来的计算资源。

相比之下,另一些公司则表现得更为审慎。 “这种保守策略虽然避免了破产风险,但也可能导致在节点发生变化时错失增长机会。”  这种算力缺口迫使保守者不得不转向低质量供应商,支付更高的溢价,甚至面临必须通过收入分成来换取临时算力容量的窘境。

价值逻辑的重构:算力芯片为何“越老越香”?

长期以来,市场普遍认为算力硬件具有极高的折旧率。然而,帕特尔提出了一个反传统的视角:模型效用的提升正在延长硬件的经济寿命。 “如果模型足够强大,算力芯片的价值会随着时间推移而上升。因为单块芯片产出的模型价值在增加,这使得两年前的芯片在今天的市场价值可能比刚发布时更高。”

这种动态平衡取决于我们能从芯片中榨取出的价值。如果人工智能技术持续进步,即便是在旧款芯片上运行更高效的新一代模型,其产生的经济效益也将覆盖硬件的折旧成本。 “最终决定芯片价格的不是替代品是什么,而是今天能从这块芯片中榨取出多少价值。”

物理极限的终点:极紫外光刻机与供应链瓶颈

尽管电力和数据中心建设是当前的短期难题,但长期来看,半导体供应链的最底层——极紫外光刻机的产能,才是真正的制约因素。这种由荷兰公司生产的、人类历史上最复杂的机器,其每年产量极其有限。

“对于单个吉瓦的算力需求,大约需要三点五台极紫外光刻机来处理数百万次的工艺流程。”  帕特尔解释道。即便到本十年末,全球这类核心工具的总量也只能满足有限的算力增量。更深层的危机在于,整个供应链存在严重的“减一”规划倾向——由于不完全相信人工智能的爆发式增长,供应链上的每一个环节都在采取折中方案,这导致了严重的生产力滞后。

内存饥渴:人工智能对消费电子的“掠夺”

人工智能对高带宽内存的需求正在对传统消费电子市场产生剧烈的冲击。由于制造这种特殊内存所需的晶圆面积是普通内存的数倍,为了供应人工智能,供应链不得不“摧毁”手机和电脑的市场需求。

“内存价格的持续上涨将导致智能手机和电脑的性能无法实现逐年提升,甚至可能因为成本过高而被迫减产。”  帕特尔预测,未来几年内存紧缺的情况将持续恶化,这将导致终端消费者不得不为电子产品支付更高昂的代价,甚至可能引发公众对人工智能占用过多社会资源的抵触情绪。

地缘政治悖论:台湾芯片的“衔尾蛇”困境

图片

在全球半导体版图中,台湾的战略地位无可替代。然而,这种集中度也带来了一个被称为“衔尾蛇”的悖论:全球半导体制造工具的生产高度依赖于台湾制造的芯片,而没有这些工具,台湾也无法生产芯片。

“地缘政治的动荡对全球算力边际增长的影响将是毁灭性的。”  帕特尔强调。如果台湾的产能受到干扰,不仅是美国,全球的经济增长都将面临大规模萎缩。在这种背景下,中国正致力于建立完全垂直的本土供应链,试图在长期博弈中通过规模化生产和全产业链整合来实现赶超。

通往2030的崎岖之路

我们正处于人工智能浪潮的起始阶段,但通往终极智能的路径并非坦途。从资本的豪赌到物理层面的光刻挑战,每一个节点的突破都需要整个人类供应链的协同进化。正如帕特尔所言,在这个算力受限的世界里,最重要的竞争不仅是算法的优劣,更是谁能最先解决那些看似枯燥却又无比真实的物理约束。这场关于算力、电力与权力的深度博弈,将决定未来十年的全球科技走向。


图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

天空之城原创整理

资本支出与算力上线的时间表

Dwarkesh: 这是我的室友教我半导体知识的节目。也是目前这套设备的告别演出。在你用过之后,我不能再用这个了。我得离开这儿。Dwarkesh 不会用别人剩下的东西。Dylan 是 SemiAnalysis 的 CEO。Dylan,我有一个迫切想问你的问题,如果你把 Amazon、Meta、Google、Microsoft 这四大巨头加起来,根据你最近公布的数据,他们今年的总资本支出预测是 6000 亿美元。
考虑到租赁算力的年度价格,这相当于接近 50 吉瓦的电力需求。显然,我们今年并没有新增 50 吉瓦的装机容量。推测这些支出是为未来几年即将上线的算力买单。我有一个关于如何思考这些资本支出何时上线的时间表的问题。对于那些实验室也有类似的问题,OpenAI 刚刚宣布他们筹集了 1100 亿美元。Anthropic 刚刚宣布他们筹集了 300 亿美元。看看他们今年即将上线的算力,你应该告诉我具体是多少,但总计不是还有 4 吉瓦吗,他们今年将拥有这些算力?
感觉 OpenAI 和 Anthropic 今年租赁算力的成本,即维持其算力支出,大约在每吉瓦 100 亿到 130 亿美元之间。单单这些融资额就足以覆盖他们今年的算力支出。而且这甚至还没有包括他们今年将获得的收入。先帮我理清一下,大型科技公司的资本支出(CAPEX)投入使用的时间节点是什么时候。第二,如果一个 1 吉瓦的数据中心年成本约为 130 亿美元,那么这些实验室筹集这么多资金是为了什么?

Dylan Patel: 当你谈论这些超大规模云服务商(hyperscalers)的资本支出时,大约在 6000 亿美元的数量级,再看看整个供应链的情况,总规模大约在 1 万亿美元左右。其中一部分,是直接用于今年上线的计算资源,芯片以及其他部分资本支出确实是在今年支付的, 但也有很大一部分是用于前期准备的资本支出。
当我们谈论今年在美国大约增加 20 吉瓦的增量时。这是新增的容量,其中一部分并不是今年才支出的。有一部分资本支出是在前一年就已经支出的。 当你看到 Google 有 1800 亿美元(现金)时,很大一部分是用于 2028 年和 2029 年的涡轮机预付款。其中一部分用于 2027 年的数据中心建设。其中一部分用于购电协议、首付款以及所有其他为更遥远的未来所做的准备,这样他们才能实现这种超高速的规模化扩张 ,这适用于所有的超大规模数据中心服务商以及供应链中的其他参与者。
今年大约部署了 20 吉瓦,其中很大一部分属于超大规模数据中心服务商,也有部分不是,而所有这些公司的最大客户都是 Anthropic 和 OpenAI。Anthropic 和 OpenAI 的需求大致在 2 吉瓦、2.5 吉瓦和 1.5 吉瓦左右。他们试图进行更大规模的扩展,看看 Anthropic 在过去几个月里所做的事情,增加了40亿、60亿美元的收入。如果我们简单地画一条直线,他们每个月会再增加60亿美元的收入。人们可能认为这很看跌,他们应该加快步伐。
这意味着他们在接下来的10个月里将增加600亿美元的收入,按照媒体至少在上次报道中显示的 Anthropic 当前毛利率计算,600亿美元的收入意味着他们在大约600亿美元的收入中,有400亿美元用于推理的计算支出。400亿美元的计算支出,按每吉瓦约100亿美元的租赁成本计算,意味着他们仅仅为了增长收入就需要增加4吉瓦的推理能力。 而且这还是假设他们的研发训练集群规模保持不变,Anthropic 需要在今年年底前达到远超5吉瓦的规模。这对他们来说真的很难实现,但并非不可能。

算力获取的博弈:Anthropic 与 OpenAI 的不同策略

Dwarkesh: 如果 Anthropic 在今年年底前无法达到 5 吉瓦的算力规模,但为了同时满足超出预期的收入需求(未来甚至可能更多),以及确保其模型在明年达到足够优异水平所需的研发和训练需求,它又确实需要这部分算力。那么,这些算力将从哪里来?

Dylan Patel: Dario 在上你的播客时表现得非常保守。他当时的态度是, 我不会在算力上疯狂投入,因为如果我的收入增长速度或节点发生变化,我不想因此破产。他想确保在扩展业务时保持审慎。现实是,他在这种激进策略上确实错失了机会,比如对比 OpenAI 那种“让我们直接签下这些疯狂合同”的做法。 而 OpenAI 到今年年底时所获得的算力资源远超 Anthropic。那么 Anthropic 要怎样才能获得这些算力呢?
他们不得不转向那些之前不会考虑的低质量供应商,从最优角度看,Anthropic 至少在历史上倾向于选择 Google 和 Amazon 这样最优质的供应商,而这些公司也一直是全球最大的企业。现在是 Microsoft,他们正在扩大供应链,并转向其他新兴参与者。 OpenAI 在接触众多参与者方面一直比较激进。他们从 Microsoft 获得了海量的算力资源。他们同时也与 Google 和 Amazon 合作,此外还有 CoreWeave 和 Oracle 提供的巨额算力,甚至还找了一些意想不到的公司,比如从未建设过数据中心的 SoftBank Energy。 他们一生中从未建过数据中心,但现在正在为 OpenAI 建设。所以他们还接触了 Nscale 等许多其他公司,从这些渠道获取算力容量。
对于 Anthropic 来说这就成了一个难题,因为他们对待算力非常保守,不想盲目扩张,去年下半年很多金融领域的恐慌在于,人们认为 OpenAI 签署了所有这些协议,但他们根本没有足够的资金来支付。Oracle 的股价要暴跌了。CoreWeave 的股价要暴跌了。所有这些公司的股价都暴跌了,信贷市场也陷入了疯狂,因为人们认为最终买家根本付不起这笔钱。现在的情况是,他们筹集了大量的资金。他们有能力支付这笔费用。Anthropic 要保守得多。 他们的态度是,我们会签署合同,但我们会坚持原则,故意将预期目标定得低于我们可能达到的水平,并保持保守,因为我们不想冒破产的风险。

算力缺口下的备选方案与市场价格波动

Dwarkesh: 在紧急情况下不得不获取计算资源意味着什么?是因为你不得不选择类似 neoclouds 这样的服务商,还是说他们的计算机性能更差?具体是在哪些方面表现得更差?是不是因为他们是在最后一刻才介入,导致你不得不支付原本不必支付的毛利给中间商?究竟是谁建立了闲置容量,使得 Anthropic 和 OpenAI 能够在最后一刻获得资源?简单来说,OpenAI 获得的具体优势究竟是什么?如果它们到2027年时最终达到了相似的算力规模,那么它们今年结束时是否会拥有不同的吉瓦(gigawatts)容量?如果是的话,具体是多少吉瓦?Anthropic 和 OpenAI 在今年年底时将分别拥有多少。

Dylan Patel: 关于获取过剩算力,超大规模云服务商(hyperscalers)确实存在容量,而且并非所有的算力合同都是长期的,比如五年期的,有些在2023年、2024年甚至2025年投入使用的 H100 算力,并不是签署的五年期协议, OpenAI 的绝大多数算力都是通过五年期协议签署的,但还有许多其他客户签署的是一年期、两年期、三年期或六个月的按需付费协议。 随着这些合同陆续到期,市场上谁是最愿意支付高价的参与者?
我们已经看到 H100 的价格出现了大幅波动并持续走高,人们甚至愿意以超过 2 美元的价格签署长期协议,我见过一些 AI 实验室——出于原因我在这里稍微模糊一点——签署了高达 2.40 美元的价格,为期两到三年,用于获取 H100 资源。 如果你考虑一下利润率,Hopper 发布时成本是 1.40 美元,或者说分摊到五年建设周期中,而现在两年过去了,你签署的却是为期两到三年、价格为 2.40 美元的协议。这些利润率要高得多,因此,现在你可以挤掉所有其他供应商,无论是 Amazon、CoreWeave、Together AI 还是 Nebius,又或是其他任何厂商。
这些所谓的“新云厂商”(neoclouds)是指那些拥有更高比例 Hopper GPU 的公司。总体而言,原因在于第一,他们对获取这些资源更为激进;第二,他们倾向于签署短期协议——当然不是指 CoreWeave,但其他公司往往倾向于签署短期合约。如果我想要 Hopper,市面上确实还有一些可用容量。此外,尽管像 Oracle 或 CoreWeave 大部分关于 Blackwell 的容量都已经签署了长期协议,但任何即将在本季度上线的新产能其实也早已售罄。
在某些情况下,他们甚至未能达到预期的销售数字,因为不仅是这两家公司,其他厂商也面临着一些数据中心建设的延期。比如 Nebius 和其他所有人,包括 Microsoft、Amazon、Google。但除了这些超大规模云服务商(hyperscalers)外,还有许多新云厂商拥有尚未售出的建设中容量,或者原本打算分配给内部使用、但未必专注于超级 AGI 的算力,他们现在可能会转而将其出售。以 Anthropic 为例,他们并不一定非要直接掌握所有计算资源,Amazon 可以拥有算力并提供 Bedrock 服务,或者 Google 可以拥有算力并提供 Vertex 服务,亦或是 Microsoft 可以拥有算力并提供 Foundry 服务,然后与 Anthropic 进行双向收入分成,反之亦然。 本质上,你是说 Anthropic 要么必须支付这 50% 的收入分成溢价,要么必须承担如果当初提前购买算力本不必支付的临时现货算力成本。
这其中存在一种权衡。与此同时, 有整整四个月的时间,每个人都在说,OpenAI,我们不会和你签署协议。听起来很疯狂,因为你们没有钱。现在每个人都在说,OpenAI,我们一直都很信任你。 我们可以签署任何协议,因为你们筹集到了所有这些资金。但你并不会因为筹集到了这些资金就去签署任何协议。Anthropic 在这方面受到了限制。目前算力的增量买家还不是很多,因为 Anthropic 在这里率先实现了其收入足以证明其合理性的功能能力。

模型效用、折旧周期与财务影响

Dwarkesh: 这很有趣。因为否则的话,拥有最强的模型是一种价值极速折旧的资产,三个月后你就没法再拥有最强的模型了。但关键在于,这之所以重要,是因为你可以签署这些协议,从而提前锁定计算资源,并获得更优惠的价格。顺便问一下,这是否也暗示了至少直到最近,人们还一直在强调 GPU 的折旧周期问题?
那些看空者,比如 Michael Burry 之流,曾说人们声称这些 GPU 的寿命有四到五年。也许是因为技术进步太快之类的原因,对这些 GPU 采用两年折旧周期才合理,这会增加特定年份内报告的摊销资本支出。这可能使得建设所有这些云服务在财务上显得没那么有利可图。但事实上,你指出的可能是折旧周期甚至比五年还要长,因为如果我们现在在使用 Hopper,而且如果 AI 真的取得突破性进展,到了 2030 年,我们发现“该死,我们得把 7 纳米晶圆厂重新开起来”,或者我们不得不回去使用 A100,再次启动 A100。那么实际上,折旧周期会变得异常长。这是你所说内容中一个有趣的财务影响。

Dylan Patel: 这里面还有几条线索值得深入探讨。其一,GPU 的折旧情况如何,我还没回答你之前的问题,比如 Anthropic,我认为到今年年底,他们能够达到约 5 吉瓦的规模,或许会更多一些,这既包括他们自身的需求,也包括通过 Bedrock、Vertex 或 Foundry 提供的产品服务。我认为他们完全能够做到。达到 5 到 6 吉瓦,这远远超出了他们最初的计划。情况大致如此,根据我们的数据,OpenAI 的规模也差不多,甚至可能会稍微高一点,还要再高一些。
但话说回来,GPU 的折旧周期是怎样的呢?Michael Burry 曾说这是 3 年或更短。看待这个问题有两种视角。从机械层面来看,存在一个 GPU 的 TCO 模型,即总拥有成本,我们会据此预测 GPU 的定价,并核算集群的总成本。这里面涉及很多成本,包括数据中心成本,网络成本。智能运维(smart hands)人员在数据中心更换设备的费用。备件成本,实际的芯片成本。服务器成本。所有这些林林总总的成本被汇总在一起,并附带一些折旧周期。其中还包括一定的信贷成本。最终你会得出结论,这就是计算方式:部署 H-100 的成本为每小时 1.40 美元,这是基于五年大规模部署的估算。如果你的折旧期是五年。那么如果你签了一份为期五年、每小时2美元的合约,我们的毛利率大约是35%。会比这个数字略高一点。但如果合约价格定在1.90美元,毛利率大致就是35%。然后你假设到了第五年,它彻底失效了。
在某些情况下,人们提出的论点是:如果你没有签署长期合约,因为 NVIDIA 每两年性能就会提升三到四倍,而价格仅上涨两倍或50%,那么 H-100 的价格——当然,它在2024年市场价值可能是每小时2美元,毛利率为35%,但到了2026年,当 Blackwell 实现大规模量产并实现每年数百万片的部署规模时,它的价值实际上已经降至每小时1美元了。而当2027年 Rubin 实现大规模量产时,即便它今年开始出货,明年还未达到大规模量产,但随着每年数百万片芯片部署到云端,性能又会提升3倍,价格则上涨50%或2倍。Hopper 就只值每小时70美分了。因此,GPU 的价格将会持续下跌。
另一个视角则是你从芯片中能获得什么效用,因为如果你能制造无限的 Rubin 或无限的最先进芯片,那么情况确实会如你所说。随着新芯片的推出以及性能价格比的提升,Hopper 的价格将跌至现货或短期合约价格水平。 但由于你在半导体供应、部署时间表以及所有这些方面都受到极大限制,最终决定这些芯片价格的因素并不是:我今天能买到的替代品是什么?实际上是:我今天能从这块芯片中榨取出的价值是多少 ,让我们以 GPT 5.4 为例。GPT 5.4 的运行成本比 GPT4 低得多,且拥有更少的活跃参数。从那个维度来看,它小得多。
作为更稀疏的 MOE 架构,相比于 GPT4 这种较粗颗粒度的 MOE,由于在训练、RL、模型架构等方面,以及数据质量等诸多方面都有了巨大进步,这些都使得 GPT 5.4 比 GPT4 优秀得多,且服务成本更低。当你观察 H-100 时,它在每块 GPU 上能提供的 5.4 Token 服务量要高于你在其上运行 GPD4 的效率,它正在以更高的质量产出更多的模型 Token。显然对于 GPD4 来说,其 Token 的最大潜在市场规模(TAM)是多少?也许是几十亿美元,也许是几百亿美元,技术的普及需要时间。对于 GPD 5.4 而言,这个数字可能超过 1000 亿,但普及存在滞后性,且面临竞争,其他人也在获取相关技术,而且所有人都在持续进步。 如果进步停止了,现在 H-100 的价值就建立在 GPD 5.4 能从中获得的价值上,而不是 GPD 4 能从中获得的价值上。 还有这些实验室所做的利润空间之类的东西,他们处于竞争激烈的环境中,所以他们的利润率不可能无限增长。 你会有这种非常有趣的动态,即 H-100 今天的价值比三年前更高。这太疯狂了。

AGI 的劳动价值与 Mercury 财务效率工具

Dwarkesh: 从把这种趋势向前推演的角度来看,这也很有趣。如果我们开发出了真正的AGI模型,如果我们真的把人类放进了服务器,就像在H-100上以浮点运算为基础那样,关于大脑能进行多少次浮点运算的说法都是些模糊不清的数字。但就浮点运算而言,有人估计H-100的性能约为1E15次浮点运算,这与一些人估计的人脑浮点运算能力相当。显然,在内存方面,人脑要强大得多。H-100大约有80GB内存,而大脑可能拥有PB级的存储空间。

Dylan Patel: 你真的有PB级的数据?兄弟,列举出一PB的零和一给我看看。给我列出一个字符串。

Dwarkesh: 这恰恰就是重点所在。

Dylan Patel: 我们只是拥有了有史以来最优秀的稀疏注意力机制。

Dwarkesh: 就某种压缩后的信息量而言,可能达到了拍字节级别,它是一种极其稀疏的 M-O-E。试想一下, 如果我们拥有一位每年能创造六位数价值的人类知识工作者。因此,如果一台 H-100 能产生接近这个数值的价值,如果我们把这些视为服务器上的人类劳动力,那么 H-100 的价值就在于它可以在几个月的时间内收回成本。
当我采访 Dario 时,我表达的观点并非认为奇点将在两年后到来,因此 Dario 急需购买更多算力。尽管他确实有足够的收入去购买更多的算力。但我想要表达的观点是,鉴于 Dario 的言论,鉴于他所说的我们距离拥有天才级数据中心还有两年时间,肯定不会超过五年。数据服务器天才们本应赚取数以万计的美元营收。他一直发表关于在计算资源上采取更保守策略的言论,或者用你的话来说,即在计算投入上比OpenAI表现得更不激进,这确实令人费解。这个观点被忽略了,因为人们都在嘲讽我一个播客主持人竟然试图去说服一家市值数千亿美元公司的CEO,跟他说:“为什么不放手一搏呢?”我真正想表达的是,他在内部的言论存在前后不一致。能把这件事理清楚挺好的。

Dylan Patel: 回到之前那种观点, 如果模型足够强大,GPU的价值会随着时间推移而上升。是的。随着我们越来越接近那个临界点,目前只有OpenAI和Anthropic持有这种观点。随着未来不断推进,实际上每个人,即便是使用开源模型的人,也会开始意识到每个GPU的价值在飞速增长。从这个意义上讲,现在就应该投入计算资源。 但有趣的是,以Anthropic的行事风格来看,坊间流传着一个梗,说他们存在承诺问题,甚至有点“多重伴侣”倾向。所以,这并非针对Dario,这只是一个梗而已。

经济学效应与模型溢价:Alchian-Allen 效应

Dwarkesh: 这就解释了一切。顺便提一下,经济学中有一个有趣的效应叫做 Alchian-Allen 效应,其核心观点是:如果你增加不同商品(其中一种质量较高,另一种质量较低)的固定成本,那么在边际效应上,这将促使人们选择高质量的商品。举个具体的例子,假设口感更好的苹果售价为 2 美元,而口感较差的苹果售价为 1 美元。现在假设你对它们征收进口关税。那么现在,优质苹果的价格变成了 3 美元,普通苹果变成了 2 美元,这是因为它们的价格都增加了 1 美元,还是说应该按 50% 的比例增加?不,因为它们的价格确实都增加了 1 美元。整个效应在于,如果对两者施加了同样的固定成本,那么它们的相对价格,即两者之间的价格差和价格比率,就会发生改变。之前更贵的那一款价格是另一款的2倍,而后者仅为1.5倍。
如果将其应用于AI领域,那是否意味着, 如果GPU变得越来越贵,计算成本将会有固定的增长。是的。结果就是,这将推动人们愿意为稍好一点的模型支付更高的溢价。因为计算逻辑是,反正我都要投入这么多钱用于计算。我不如多付一点钱,确保我得到的是最好的模型,而不是稍微差一点的模型。

Dylan Patel: Hopper 从2美元涨到了3美元。如果 Hopper 能生成100万个 token 的 Opus,同时能生成200万个 token 的 Sonnet,那么随着 GPU 价格从2美元涨到3美元,Opus 和 Sonnet 之间的价格差其实已经缩小了。

Dwarkesh: 我们所看到的,目前所有的交易量都集中在最顶尖的模型上,所有的营收也都来自这些最顶尖的模型。而在一个算力受限的世界里,通常会发生两件事,第一,那些已经锁定算力、不存在交付顾虑的公司,签订了五年期的算力合同,从而锁定了一个巨大的利润优势,因为他们以五年前、三年前或两年前的成交价格锁定为了期五年的算力。然而,如果你现在正处于五年期合同的第三年,而其他人的两年期或三年期合同已经到期,现在你试图以现代定价购买算力时,考虑到模型价值的定价,价格将会高出很多。因此在某种意义上,早期做出承诺的人通常拥有更好的利润空间。
在市场中,长期合同所占的比例要远大于那种可以在最后一刻增加的短期弹性容量合同。与此同时,利润到底流向了哪里呢?因为模型变得更有价值了。云厂商能够有多大的……定价调整空间?看一下 Coreweave,他们目前 90% 以上算力的平均期限都在三年以上。因此他们最终陷入了一个困境,就是他们实际上无法灵活定价。但他们每年都在增加比以前多得多的容量,仅今年一年,Meta 增加的容量就相当于他们在 2022 年为所有用途(包括服务 WhatsApp、Instagram、Facebook 以及进行 AI 计算)所拥有的全部计算和数据中心容量,他们今年单单就增加了这么多。
你提到的 Meta 正是在这样做。Coreweave、Google 和 Amazon,所有这些公司都在逐年增加惊人的算力,而这些新增算力都是按新价格进行交易的。 只要我们处于某种起飞阶段,你就已经被锁定了,OpenAI 从去年的 600 兆瓦增加到了 2 吉瓦,今年从 2 吉瓦增加到了 6 吉瓦以上,明年又要从 6 吉瓦增加到 12 吉瓦,所有成本都集中在这些新增的算力上,而不是之前的长期合同中。 那么,谁掌握着收取利润率的筹码呢?是信息提供商,现在云服务玩家、新一代云厂商或超大规模数据中心运营商可以赚取利润空间了吗?他们可能赚不到。但当你向上游看时,谁拥有了所有的内存和逻辑产能呢?
很大程度上是在 NVIDIA 手中。他们已经签署了大量长期合同。他们目前手握约 900 亿美元的长期合同,而且现在正在与内存供应商商谈三年期的协议。显然 Amazon 和 Google 通过 Broadcom 以及他们自己的渠道,Amazon 直接参与其中,还有 AMD 这些公司,这些企业掌握着主动权,因为他们已经锁定了产能。而 TSMC 并没有涨价,但内存供应商在某种程度上正在大幅提价,所以他们可能会再次将价格翻倍或翻三倍。与此同时,他们也在签署这些长期协议。究竟是谁能够累积利润额呢?潜在的可能是云厂商,也可能是芯片供应商和内存供应商,直到 TSMC 或 ASML 做出改变,表示‘不,我们要大幅提高收费’。与此同时,模型供应商还能获得高得离谱的利润空间吗?至少在今年,我们将看到模型供应商的利润率大幅提升,因为他们的产能受限严重,必须通过抑制需求来应对,如果不抑制需求,他们根本无法持续目前的增长节奏,Anthropic 也是如此。

半导体上游的垄断:内存与逻辑芯片

Dwarkesh: 让我们来探讨逻辑芯片和内存的问题。Nvidia 具体是如何做到锁定了这两者如此大比例的份额的?根据你的数据,到 27 年时,Nvidia 将占据 N3 晶圆产能呈现出的 70% 以上,或者在这一水平附近。我不太记得在 SK-Hynix 和 Samsung 等厂商的内存份额数据了。如果看看 neocloud 业务及其与 Nvidia 的协作方式,或者 RL 环境业务及其与 Anthropic 的协作方式,你就会明白。在这两种情况下,Nvidia 都在刻意分化互补行业,以确保自身拥有尽可能大的杠杆作用。所以他们会向各个 neocloud 分配资源,以此确保没有单一主体能够掌握所有的计算能力。同样地,Anthropic 或 OpenAI 在与数据提供商合作时,他们会表示,不,我们要建立一个规模巨大的产业生态,这样就不会被任何单一的数据环境供应商所束缚。我感到好奇的是,在 3 纳米工艺上,未来将会有 Traneum 3、TPUV7 以及其他潜在的加速器。为什么 TSMC 要把所有 market share 拱手让给 Nvidia,而不是试图去分割市场呢?

Dylan Patel: 这里有几个关键点。关于 3 纳米工艺,回顾去年,绝大多数的 3 纳米产能都被 Apple 占据了。Apple 正在转向 2 纳米工艺。内存价格正在上涨,因此 Apple 的出货量可能会下降,因为随着内存价格的上涨。 他们必须在削减利润率或转型之间做出选择。 由于他们有长期合同,这中间存在一定的时间滞后。Apple 很可能会减少需求或更快地转向 2 纳米工艺,而目前 2 纳米工艺主要仅适用于移动端芯片。未来,AI 芯片也将向该工艺迁移。所以 Apple 在这方面具有一定的优势。此外,Apple 也在与其他第三方供应商接洽,因为他们正逐渐在 TSM 的产能分配中受到挤压。这是因为 TSM 在高性能计算(HPC)、AI 芯片等领域的利润率高于移动端芯片。因为他们在 HPC 领域的优势比在移动领域更大。
当你审视 TSM 在这里的考量时,会发现什么?他们正在为研发 CPU 的公司提供非常好的产能分配,当你考虑 Amazon 的 Tranium 和 Graviton 时,这两者都采用了 3 纳米工艺;Graviton 是他们的 CPU,而 Tranium 是他们的 AI 芯片,TSMC 相比于 Tranium,更倾向于为 Graviton 提供产能分配。 作为一家保守且不愿过度追逐增长周期的公司,倾向于先向更稳定、增长率较低的市场进行配置,然后再将所有增量产能分配给高增长市场。 当你观察像 AMD 这样的公司时,会发现 TSM 在其 CPU 上获得的产能分配远比 GPU 更令人兴奋,Amazon 的情况也同样如此。
而 Nvidia 则有些独特,因为他们有 CPU,他们制造交换机,制造网络设备,制造 NVLink,制造所有这些不同的 InfiniBand、以太网以及各种不同的产品和网卡(NICs)。到今年年底,随着 Rubin 的发布以及该系列中的所有芯片——其中 GPU 是最重要的一个——大部分产品都将采用 3 纳米工艺。然而,Nvidia 依然获得了大部分的供应。当你审视市场时,会发现像 TSM 等公司,他们预测市场需求的方式有很多种,但更重要的是市场信号。 市场发出了信号:我们明年需要这么多产能。我们需要这么多产能。我们会签署不可取消、不可退货的协议。我们甚至可能支付定金 。
NVIDIA 比 Google 或 Amazon 更早做到了这一点。在某些情况下涉及到 Google。Amazon 曾遇到过障碍,其中一个芯片推迟了几个季度,即 Traneum,所有这类事情都发生了。在这种情况下,出现了一种巨大的压力,这些人正在推迟,但 NVIDIA 想要更多产能,我们正在与供应链的其他环节确认,是否有足够的产能,他们去找所有的 PCB 供应商,问他们:Victory Giant 的产能足够吗?PCB 的供应足够吗?这是 NVIDIA 最大的 PCB 供应商之一,他们是一家中国公司。所有的 PCB 都来自中国,基本上都来自他们。他们会问:你们的 PCB 产能足够吗?各位内存供应商,谁拥有所有的内存产能?Nvidia 有。
当你以同样的方式观察时, 有谁像 AGI-I-pilled 那样,愿意在长期时间维度上以在常人看来极其荒谬的水平购买算力?尽管如此,他们仍愿意支付相当可观的利润率并立即签署协议,因为他们认为未来的供需比例会失衡。 半导体供应链也发生了同样的情况,Jensen 并不相信软件会被完全自动化,是加速计算,而不是 AI 芯片,

Dwarkesh: 是 AI 芯片,但他就是这么称呼它的。

Dylan Patel: 有一个更广泛的术语,AI 包含在其中,还有物理建模和模拟。

Dwarkesh: 他只是没有采纳那种主要的使用场景。

Dylan Patel: 他采纳了,但他不像 Dario 或 Sam 那样是 AGI 的坚定信仰者。当 Google 或 Amazon 在去年第三季度时,他看到了更多的需求,原因很简单,可以看到所有的数据中心建设。他想占有这个市场份额。我们追踪了所有的数据中心,很多数据中心可能是归这一方或另一方的,Google 和 Amazon,尤其是 Google,尽管 TPU 在部署上更具优势,但仍然必须部署大量的 GPU,因为没有足够的 TPU 来填满其数据中心。他们无法快速获取这些芯片。

Google 的失策与产能错配

Dwarkesh: Google 好像向 Anthropic 出售了 100 万颗芯片,是叫 V7s 还是 Ironwoods?你刚才说目前乃至未来,最大的瓶颈在于逻辑内存,也就是制造这些芯片所需的资源。而 Google 拥有 DeepMind。这是第三家重要的 AI 实验室。既然这是巨大的瓶颈,为什么他们要把芯片卖给别人,而不是直接提供给 DeepMind?

Dylan Patel: 这又是这类问题的一个体现,DeepMind 的员工会觉得这太荒谬了。我们为什么要这么做?但 Google Cloud 的团队和 Google 的高管们有着不同的考量。基本上,你我都了解计算团队。有一个人,实际上他们两个都来自Google,是Anthropic计算团队的核心成员。他们察觉到了这种供需错位。他们协商达成了一笔交易。并且在Google意识到之前,他们就获得了这些计算资源的使用权。
根据我们发现的数据,事件的脉络是这样的: 在第三季度初,在大约6周的时间里,我们观察到Anthropic的容量出现了显著增长。在那6周内,容量增长了数倍 ,当时有多项请求。Google甚至不得不去向TSM解释他们为何需要如此突然地增加产能,因为这一切发生得太快了。但 其中很大一部分产能,增加是为了卖给 Anthropic。 因为 Anthropic 比 Google 更早看到了这一点。然后 Google 拥有 Bard 和 Gemini,这使得他们的用户指标直线飙升。Google 的领导层当时就觉得。接着他们开始发表声明,说我们必须每隔多久将算力翻倍,是六个月吗?我不记得他们说的具体数字了。但他们清醒多了。然后他们说,TSM,我们需要更多。而对方的回应是,我们明年的产能已经全部售罄了。我们可以商量明年的事。我们或许能在26年再提升5%到10%左右。我们重点要投入的是27年,各大实验室之间存在信息不对称。
我不知道这是否就是通过观察供应链中所有晶圆订单数据,以及诸如 Anthropic 和 FluidStack 等公司签署的数据中心协议等情况所构建出的叙事。情况很明确,Google 把事情搞砸了。这一点从 Google 的 Gemini ARR 数据就能看出来,第一季度到第三季度他们几乎一无所获,第三季度稍微好一点,一旦他们开始转向之后。但到了第四季度,他们的 ARR 达到了约50亿。是指年度经常性收入或者类似的概念。
Anthropic 在其 ARR 爆发式增长之前,确实存在投入顾虑。尽管 Google 拥有更多的信息不对称优势,且能预见未来的发展方向,但 Google 会比 Anthropic 更保守 ,而且 Google 当时的 ARR 甚至更低。他们当时有点不太愿意去做,后来才意识到应该付诸行动。此后,Google 在追求 AGI 方面变得极其激进,在具体行动上表现得非常明显。他们收购了一家能源公司。他们正在为购买涡轮机支付订金。他们正在购买比例惊人的供电土地。他们正在与公用事业公司接洽,并商谈长期协议。他们在数据中心和电力方面做得非常激进,Google 在去年年底觉醒了,但他们花了一些时间。

2030 年的供应链极限:从电力回归芯片

Dwarkesh: 你认为到明年年底,Google 将拥有多少吉瓦的电力容量?我感觉每年阻碍我们扩展 AI 计算能力的瓶颈都在不断变化。几年前是 CoWoS,去年是电力。你会告诉我今年的瓶颈是什么。但我更想了解五年后,究竟是什么在制约我们部署奇点。

Dylan Patel:  最大的瓶颈是算力。而对于这一点,交付周期最长的供应链并非电力或数据中心。半导体供应链本身,主要瓶颈又从电力和数据中心切换回了芯片。 而在芯片供应链中,存在着多种不同的瓶颈,有内存。有来自 TSMC 的逻辑晶圆。还有晶圆厂本身。晶圆厂的建设需要几年时间。两到三年,而数据中心只需不到一年,我们看到 Amazon 建造数据中心的速度最快只需 8 个月,因此,由于建筑和实际制造芯片的晶圆厂的复杂性,交付周期存在巨大差异。还有那些工具,它们的交付周期也非常长。
随着我们规模的扩大,瓶颈已经发生了转移,不再是供应链目前无法处理的问题(即 CoWoS、电力和数据中心),因为这些项目的交付周期原本较短 ,CoWoS 是一种更简单的封装工艺。电力和数据中心比实际的芯片制造要简单得多。产能确实在移动设备或 PC 芯片与数据中心芯片之间进行了一些转移,但这可互换。
然而,CoWoS、电力和数据中心供应链必须从头开始,但现在移动设备领域已经没有多余的产能了。曾经占据半导体行业大部分份额的 PC 行业,也难以再向 AI 转移产能,NVIDIA 现在是 TSMC 最大的客户,而 NVIDIA 也是最大的内存制造商 SK Hynix 最大的客户, 这种将资源从普通大众(即个人电脑和智能手机)手中剥离并向 AI chips 倾斜的过程,我们现在该如何扩大 AI chips 的产能呢?这正是目前最大的瓶颈所在。 当我们展望 2030 年时,瓶颈就是这些。

EUV 光刻机:人类制造的最精密机器

Dwarkesh: 如果能根据“我们无法生产超过一定数量的 EUV machines”这一事实,推算出 2030 年绝对的吉瓦级功率上限,那将是非常有趣的。

Dylan Patel: 要进一步扩展算力,今年和明年会面临不同的瓶颈,但最终到 2028 或 2029 年,瓶颈将落到供应链的最底层,也就是 ASML,ASML 制造着世界上最复杂的机器,即 EUV tool。3到4亿美元。目前,他们每年大约能生产 70 台。明年,这一数字将达到 80 台。即使在供应链极度扩张的情况下,到本十年末,它们也只能勉强超过 100 台。那么这意味着什么呢? 到本十年末他们能制造出 100 台这样的设备,而现在是 70 台。这如何转化为 AI 计算能力呢?
我们看到了来自 Sam Altman 以及供应链中许多其他人士提供的所有这些数字,吉瓦,我们究竟增加了多少吉瓦?我们也看到 Elon 说,太空中有 100 吉瓦。一年。所有这些数字的问题,或者说对这些数字的挑战,不在于电力,也不在于数据中心。关键在于芯片的制造,假设要生产吉瓦级别的 NVIDIA Ruben 芯片,Ruben 是在 GTC 上发布的,我相信就在本期播客上线的那一周。如果要制造出吉瓦规模的数据中心容量,且使用 NVIDIA 即将于今年年底推出的最新芯片,你需要几种不同的晶圆技术,你需要大约 55000 片 3 纳米晶圆,大约 6000 片 5 纳米晶圆,以及大约 170000 片 DRAM 晶圆,也就是内存。
在这三个类别中,每一类都需要不同数量的 EUV。当你制造晶圆时,有成千上万个工艺步骤,包括材料沉积和去除。但最关键的一步——至少在先进逻辑芯片中占芯片成本的 30%——并不在晶圆上放置任何东西。你需要先在晶圆上涂覆光刻胶,这是一种化学物质,当它暴露在光线下时会发生化学变化。然后将其放入 EUV 光刻机中,以特定的方式对其进行光照。它对其进行构图,因为存在所谓的掩模,这就是一种模板。用于设计。
当你观察晶圆时,比如目前领先的 3 纳米晶圆大约有 70 层左右的掩模,但其中有 20 层是最先进的 EUV,如果每千兆瓦需要 55,000 片晶圆,而每片晶圆需要进行 20 次 EUV 工艺,那么你就可以进行计算了。 对于单个千兆瓦,大约需要 200 万次 EUV 工艺流程。 再加上其余的部分,最终在 5 纳米工艺和所有存储芯片上,总共会达到 200 万次。
这些设备非常复杂。当你考虑它在晶圆上是如何运作时,它在进行步进扫描,并在整块晶圆上重复数百次,或者数十次。当你讨论需要多少次 EUV 工艺时,是指整块晶圆以某种速率进行曝光。晶圆方面,一台 EUV 设备大约每小时可以处理 75 片晶圆,而且该设备的正常运行时间约为 90%,我需要大约 3.5 台 EUV 设备来完成 Gigawatt 所需的 200 万次 EUV 晶圆处理。 3.5 台 EUV 设备足以满足 Gigawatt 的需求。 思考这些数字很有意思,因为我们讨论的是,Gigawatt 的成本是多少?大约需要 500 亿美元,而 3.5 台 EUV 设备又要花费多少呢?大约是 12 亿美元,这个数字相当低。数据中心方面的经济资本支出(CAPEX)大约是 50 吉瓦。
在之上构建的代币(tokens)规模甚至更大, 可能价值 1000 亿美元的 AI 供应链价值,被这 12 亿美元无法快速扩展供应链的工具设备所束缚。

英伟达的杠杆:从 10 亿机器到 1600 亿产出

Dwarkesh: 你最近写过一篇文章提到,在过去三年里,TSM 的资本支出(CapEx)达到了 1000 亿美元。所以大概是 30、30、40 的比例。如果你考虑一下,其中只有一小部分被 NVIDIA 用于它所采用的三纳米制程,或者之前用于其芯片的四纳米制程。但 NVIDIA 将其转化为了——它的上季度财报营收大约是 400 亿美元?所以是 400 亿美元乘以 4。也就是 1600 亿美元。 仅 Nvidia 一家就将 CapEx 中一小部分 1000 亿美元的投资,转化为单年 1600 亿美元的产出,而这些设备将在多年而非仅仅一年内折旧。 当你深入到供应链中的 ASML 时,情况会变得更加严峻,仅仅是用价值 10 亿美元的机器来生产 1 吉瓦的产能。当然,这些机器的使用寿命不止一年,所以它的作用远不止于此。
如果不仅计算当年销售的机器,还要计入往年累计的设备,到 2030 年会有多少台这样的机器?这对于 Sam Altman 所说的希望在 2030 年实现每周 1 吉瓦产能的目标意味着什么?当你把这些数字加总时,这与那个目标相符吗?

Dylan Patel: 这是完全相符的,因为如果你考虑到 TSM 和整个生态系统已经拥有了约 250 到 300 台 EUV 光刻机。再加上今年增加的 70 台,明年增加的 80 台,到 2030 年增长到 100 台的规模。到这个十年结束时,你大约会有 700 个 EUV 工具。700 个 EUV 工具,平均每吉瓦对应 3.5 个工具,假设这些全部用于 AI。 但每吉瓦 3.5 个工具,意味着你拥有相当于 200 吉瓦的 AI 产能。 Sam 想要 50 吉瓦,每年 52 吉瓦。那么他只占了 25% 的份额,显而易见,其中一部分份额会分配给移动设备和 PC,前提是由于某种原因,我们还能拥有消费电子产品,且不会因为价格过高而被挤出市场。他所说的是占据晶圆代工芯片总产能的 25% 市场份额。鉴于仅今年一年,他就能获得 25% 已部署 Blackwell GPU 的使用权,这并没有那么疯狂。

Dwarkesh: 令我感到惊讶的是,ASML 是什么时候开始出货 EUV 工具的?是在 7 纳米制程开始的时候。所以我不太确定具体是什么时候。但你是说到了 2030 年,他们仍在使用最初于 2020 年出货的机器。所以 这意味着在世界上技术最先进的行业中,你用了 10 年时间都在使用同一台最重要的机器。

Dylan Patel: ASML 出货 EUV 工具大约已经有十年了,但它真正进入大规模量产是在 2020 年左右。这些工具已经不再是原来的样子了。那时候的工具吞吐量甚至更低。围绕它们有各种各样的技术规范,称为覆盖(overlay),我之前提到过你正在将各层堆叠在一起,你会进行一些 EUV 光刻,还会进行一系列不同的工艺步骤,包括沉积材料、蚀刻材料、清理路径,在进行下一层 EUV 之前,你可能要经历几十个这样的步骤。有一个规范叫作覆盖(overlay),它的意思是,你完成了所有这些工作,你在晶圆上画出了这些线条。现在我想画出这些点来连接这些金属线,还有通孔,接着上面的一层是另一组垂直排列的线条。现在你是在连接相互垂直的导线。你必须确保它们能够精准地落在彼此上方。
套刻精度(overlay)是一项由 ASML 快速改进的指标。晶圆吞吐量也同样经由 ASML 得到了飞速提升。此外,设备价格虽然有所上涨,但涨幅并未超过设备性能的提升幅度,最初的 EUV 设备价格约为 1.5 亿美元,而随着时间的推移,放眼 2028 年,其价格已达到约 4 亿美元。但设备的性能也提升了不止一倍,特别是在吞吐量和套刻精度方面——即在经历了无数道工序之后,仍能精确对齐后续层级的堆叠能力。这就是 ASML 在以极快的速度进行改进。

供应链的克制:为什么 ASML 不大幅提价?

Dwarkesh: 值得一提的是,ASML 也许是世界上最慷慨的公司之一,他们拥有这种核心枢纽(lynchpin)地位。

Dylan Patel: 目前没有任何竞争对手能与之抗衡。也许到本年代末,中国将拥有一些 EUV 设备。但除此以外,没有其他人拥有任何接近 EUV 的技术。然而,他们并没有疯狂地提高价格和利润率,我们一直交流的其他一些人,例如 Leopold,他们会说,让我们提高价格,因为他们有能力这样做。利润空间就在那里。你可以获取这份利润。就像 Nvidia 获取利润那样。 内存厂商正在获取利润,但 ASML 从未在提高价格时超过他们对工具性能的提升幅度。
他们始终为客户提供了净收益。并不是说该工具处于停滞状态。这些工具已经很老了。你可以对它们进行一定的升级,而且新的工具也即将问世。为了简洁起见,在这个播客中,我们忽略了诸如每台工具的覆盖层(overlay)精度或产能(throughput)方面的技术进步。

Dwarkesh: 你提到我们今年生产60台这类机器,随后几年分别是70台、80台。如果 ASML 决定将其资本支出(CAPEX)翻倍甚至翻三倍会怎样?是什么阻碍了他们在2030年之前生产超过100台?为什么你如此确信即使在五年后,你仍能相对确定他们的产能情况?

Dylan Patel: 这里有几个因素,ASML 并没有决定“孤注一掷”地以尽可能快的速度扩大产能,总体而言,半导体供应链并没有这样做,它经历过繁繁荣与萧条。没什么人——虽然最近有一些参与者算是觉醒了——但总体而言,并没有人真正预见到每年对 200 吉瓦 AI 芯片的需求,或者说在半导体供应链中每年投入数万亿美元的规模。他们没有被 AI 这一套说服,他们不相信 AI 的潜力。 我们今年将达到一万亿美元的规模。真的没人能真正理解这一点。在供应链方面,我们不断被告知我们的预测数字太高了。 而当最终证明我们是对的时候,他们又会说,但你们对下一年的预测数字还是太高了。总之,ASML 的设备主要由四个核心部分组成,它包含光源,也就是由位于圣迭戈的 Cymer 制造的部分;还有掩模版台,是由康涅狄格州威尔明顿的团队制造的,还有晶圆台和光学系统,也就是透镜之类的部件。
而这两部分是在欧洲制造的,当你审视这四个领域时,会发现它们都是极其复杂的供应链。首先,它们并没有尝试进行大规模扩张;其次,当它们尝试扩张时,时间滞后非常长,这是人类制造过的最复杂的机器,没有之一,尤其是在具备任何量产规模的情况下。光源是做什么的?它会滴下这些锡滴。它会用激光以完美的精度连续三次击中这些锡滴。第一次击中锡滴使其膨胀开来。第二次击中使其扩展成完美的形状,随后以超高功率进行轰击,锡滴受到足够的激发从而释放出 13.5 纳米的 EUV 光。
它会被置于一个基本上负责收集所有光线并将其引导至镜头组的装置中,接着是镜头组,正如你所提到的,它由 Carl Zeiss 以及其他一些厂商提供,但 Zeiss 是其中最关键的部分。他们同样也没有尝试去扩大生产能力,他们会说,我们因为 AI 增长了很多。我们从 60 增长到 100,我们需要达到几百的规模。
这些工具中的每一个,都有 18 个这样的透镜,或者说反射镜。它们是多层反射镜,是由钼和钌完美层叠在一起构成的,很多层堆叠在一起,然后光线从中完美地反射出来。当我们想到透镜时,它就是某种形状并能聚焦光线。这是一种既是反射镜又是透镜的设备。它非常复杂。在这种超薄沉积堆叠中,任何关于完美层的缺陷都会破坏它。任何曲率问题也是如此。
扩大生产规模确实存在很多挑战。这相当于手工打造的,因为你们每年并不是在制造数以万计的产品。 你们制造的是数千个,一年里,每台工具制造 18 个,你仍然处于数百个工具或一千个的量级,对于这些透镜和投影光学元件来说,数量大致在一千左右。你再进入掩膜版工作台阶段,这也是非常疯狂的部分。这个装置的移动加速度达到了 9G。它会产生 9G 的加速度偏移,因为当你跨过晶圆进行步进时,工具会运作,而晶圆工作台是与之互补的。
你将这两部分对齐。你通过透镜获取的所有光线都是聚焦的。这是掩模版。这是晶圆。当你进行通过时,掩模版向一个方向移动。晶圆在扫描 26 乘 33 毫米的晶圆区域时向相反方向移动,然后停止。它会平移到晶圆的另一部分并重复此过程。这一切仅需几秒钟,它们每个都以 9G 的加速度向相反方向移动。 每一个这样的设备都是化学、制造、机械工程和光学工程方面的奇迹,因为你必须将所有这些部件对齐并确保它们完美无缺。 所有这些环节都涉及极高水平的计量工作,因为你必须对一切进行完美测试;如果任何环节出错,良率就会归零,因为这是一个经过极其精细调校的系统。
它的规模非常庞大,你们是在荷兰 Eindhoven 的工厂里进行建造的。将其拆解,通过多架飞机运往客户现场。在当地进行重新组装和再次测试。这个过程需要耗费许多许多个月。供应链中存在着如此多的环节,无论是 ZEISS 制造的镜头和投影光学元件,还是 ASML 旗下的子公司 Cymer 制造的 EUV 光源。而每一个环节都有其自身复杂的供应链,ASML 曾评论过,他们的供应链中拥有超过 10,000 家单位,即独立的供应商。

Dylan Patel: Zeiss拥有众多的供应商,X, Y, Z公司也拥有如此多的供应商。你是在谈论两个物理上正在移动的物体,它们的大小分别是这么大和这么大,晶圆的大小,而且它必须精确到,个位数纳米甚至更小的水平,因为整个系统,套刻,层与层之间的偏差必须控制在3纳米左右。如果套刻精度是3纳米,这意味着每个单独部件的物理运动精度必须比这个数值更小,在大多数情况下,它必须达到亚1纳米级别,因为这些误差会累积。
不可能像打个响指就能增加产量,对于电力这样简单的供应链,从零增长到百分之2的电力增长,尽管中国已经达到了百分之30,这对美国来说都非常困难,那是一个非常简单的供应链,其中涉及的人员极少,却能制造出复杂的产品。在美国,大概有 10 万名电工或从事电力供应链的人员,甚至更多。当你看到 ASML 的员工时,人数却少得惊人。Carl Zeiss 可能只有不到 1000 人在从事这项工作。而所有这些人都是极其专业化的。你不能随便找人来培训。
你不可能让整个供应链在瞬间就协调一致并行动起来, Nvidia 必须付出巨大努力,才能让整个供应链交付出今年所需的产能。 尽管当你去和 Anthropic 交流时,他们会说,我们缺乏 TPU、缺乏算力资源、缺乏 GPU。当你去和 OpenAI 交流时,他们也会说,我们缺乏这些东西,所以 OpenAI 和 Anthropic 很清楚他们需要 X。Nvidia 对 AGI 的追求没那么激进,他们正在建设的规模是 X 减去 1。当你沿着供应链向下看,每个人都在做减去 1 的规划。在某些情况下,他们采取了折中方案,因为他们还不相信 AGI,你最终会面临这种鞭策反应的滞后性,这种对于 AI 的信念感,以及提升生产力的渴望,周期太长了。
等他们终于意识到“我们需要快速提升生产力”时,他们以为自己理解了,AI 意味着我们不仅要实现从 60 到 100 的增长,还要算上所有工具都在变得更好、更快,源动力从 500 瓦提升到 1000 瓦,以及供应链中所有其他方面的技术进步,再加上生产力的扩张。但如果你仔细推敲一下数据,Elon 想要的是什么?他想要到 2028 年实现每年 100 吉瓦的太空产能。Sam Altman 想要在本年代末实现每年 50 到 52 吉瓦的产能,大概 Anthropic 也需要同样的规模。然后,Google 有这种需求。你审视整个供应链。供应链根本不可能建立足够的产能,让每个人在算力方面都能获得他们想要的东西。

算力架构的真实演进:不只是 Flops

Dwarkesh: 过去几年里,关于数据中心供应链,人们一直在争论某种特定的瓶颈,并认为因此 AI 算力无法超过 X 规模。但正如您所写的那样,如果电网是瓶颈,那我们只需在现场进行表后处理,使用燃气轮机等设施即可。如果行不通,人们还有各种其他的替代方案可以依靠。您认为在半导体供应链中是否也会发生类似的情况?如果 EUV 成为瓶颈,那么,我们为何不回到 7 纳米工艺,像中国目前所做的那样,利用 DUV 设备通过多重曝光技术来生产 7 纳米芯片呢?
如果你观察像 A100 这样的 7 纳米芯片,显然从 A100 到 B100 或 B200 已经取得了很大进展,但这些进展中有多少仅仅是数值上的提升?假设保持 FP16 数值不变,从 A100 到 B100,B100 的性能略高于 1 petaflop,而 A100 大约为 300 teraflops。在保持数值不变的情况下,从 A100 到 B100 有大约 3 倍的提升。其中一部分是制程改进,另一部分仅仅是加速器设计的优化,这些我们未来完全可以再次复制。制程从 7 纳米提升到 4 纳米带来的实际影响非常小。假设每月有 15 万片 3 纳米晶圆,最终 2 纳米也会有相当的产量。但 7 纳米的产量也差不多,那么,如果你拥有所有这些旧晶圆,考虑到制程原因,每片晶圆的比特密度可能会减少 50% 左右。引入7纳米晶圆似乎也没那么糟,那又能为你提供另外50或100吉瓦的电力。告诉我为什么这种想法很天真。

Dylan Patel: 我们可能会疯狂到这种程度,以至于这种情况真的发生了,因为我们只是需要增量算力,而且这些芯片带来的更高电力成本等开销是值得的。这也不太可能,单单进行比较,其中一些比较是不公平的,例如,从具备312 TFLOPS算力的A100到具备约1,000甚至可能是2,000 FP16算力的Blackwell,再到具备约5,000 FP16算力的Rubin,这并不是公平的比较,因为这些芯片的设计目标截然不同。对于A100,Nvidia优化的重点就是FP16和BFloat16数值精度。当你审视Hopper时,他们对这些指标并不那么看重。他们关心的是FP8。当你审视Rubin时,他们对FP16和BFloat16也不那么看重了。他们主要关心的是FP4和FP6,这就是数值精度问题。这就是他们设计搜索功能、设计其芯片的目的所在。
让我们重新设计一下。让我们在 7 纳米工艺上制造一种新的芯片设计。当然,我们可以做到。它针对现代的数值计算进行了优化。 性能差异仍然会比你提到的浮点运算次数(flops)差异大得多,通常,人们很容易将问题简化为每瓦浮点运算次数或每美元浮点运算次数,但这并不是公平的比较。
以 Kimi K1、Kimi V2.5 或 DeepSeek 为例。当你观察这两个模型并查看它们在 Hopper 对比 Blackwell 上、在使用高度优化软件的情况下的表现时,你会得到截然不同的结果,而这其中大部分差异并不归因于浮点运算次数。很大程度上是因为数值表示,因为这些模型实际上是 8 位的。这不像 Blackwell 和 Hopper,它们都针对 8-bit 进行了优化。Blackwell 在这里并没有真正利用其 4-bit 的优势。性能差距要大得多。
缩小制程工艺并将晶体管做小是一回事,且每块芯片都有一定数量的 flops。但你忽略了主要的制约因素,这些模型并不是在单块芯片上运行的。它们一次在数百块芯片上运行,如果你看看 Deepseek 的生产部署,到现在已经有一年多了,他们当时运行在 160 块 GPU 上。
他们将模型拆分到 160 块 GPU 上。每次跨越从一块芯片到另一块芯片的界限时,都会产生效率损耗,因为你现在必须通过高速电气 SerDes 进行传输,这会带来延迟成本和功耗成本。所有这些动态因素都会造成损害。随着制程节点的不断微缩,单颗芯片内的计算能力得到了提升。目前,芯片内部的数据传输速度已达到每秒数十TB,甚至数百TB的量级,而芯片间的数据传输速度仅在每秒1TB左右。
即便芯片在物理空间靠得非常近,由于能放置的芯片数量有限,仍然必须将芯片置于不同的机架中。机架间的数据传输速率大致在每秒数百Gb的量级。约每秒100GB。这就形成了一个巨大的层级:在芯片内部,我可以实现超高速通信。在机架内部,通信速度则会下降一个数量级。而在机架外部,通信速度会再次下降一个数量级。 一旦突破了芯片的物理边界,性能就会出现损耗。当你对比 Hopper 和 Blackwell 时,即便两者使用的都是整机柜的芯片,Hopper 的速度也明显更慢,因为在每个处理域内,例如这些晶体管或处理单元之间每秒数十 TB 的通信量,你所能调用的性能是有差异的。
这些处理单元之间每秒 TB 级的传输速率要高得多。当你观察 Deepseek 和 Kimi k2.5 在每秒 100 token 的推理任务时,Hopper 与 Blackwell 之间的性能差异大约是 20 倍。并非像浮点运算性能差异所显示的那样只有 2 到 3 倍,尽管它们是在相同的工艺节点上制造的。这仅仅是网络技术上的差异。以及他们所投入研发的方向不同。你可以将其中一些(架构特性)反向移植回去。但当你审视 Rubin 以及他们在 3 纳米工艺上所做的工作时,有些东西即便是你为 7 纳米工艺重新设计一款芯片,也无法完全在 A100 上实现。确实只有某些架构上的改进是可以移植的。性能差异并不仅仅体现在浮点运算次数(flops)的差异上。这种差异是累积的,涵盖了单芯片浮点运算能力、芯片间的网络速度、单芯片与整个系统所具备的浮点运算能力总量,以及单芯片和整个系统的内存带宽等多个方面。

先进封装与单芯片多裸片趋势

Dwarkesh: 所有这些因素都在共同发挥作用。今年和去年,B200 在单芯片上集成了两个裸片(dies),因此无需通过 NVLink 或 InfiniBand 即可在单芯片上获得相应的带宽。明年,Rubin Ultra 将会在单芯片上集成四个裸片。是什么阻碍了我们继续这样扩展呢?例如,单芯片上究竟可以集成多少个裸片,同时还能保持每秒数十太字节的带宽?

Dylan Patel: 即便是 Blackwell 架构内部,在芯片内部通信与跨芯片通信时,性能也存在差异。这些界限显然比在整个芯片之外进行通信时要小得多,但每个裸片之间以及封装内部的情况依然存在区别。当你扩展芯片数量时,确实会产生一定的性能损耗。
那么,先进封装的规模究竟能达到多大?NVIDIA 所采用的方式是 CoWoS,Google 以及 Broadcom、MediaTek,还有 Amazon 的 Trainium,所有这些芯片都在使用这种名为 CoWoS 的技术。你可以回顾一下 Tesla 在 Dojo 上所做的事情,Dojo 是一款整片晶圆大小的芯片。他们在那上面集成了 25 颗芯片。他们无法在上面放置 HBM。它可能仍然是运行卷积神经网络最好的芯片。只是它在处理 Transformers 时表现不佳,因为芯片的结构、内存、算术运算以及所有这些规格参数都不太适合 Transformers。它们非常适合 CNN。Dojo 芯片是围绕此进行优化的,它们制造了一个更大的封装。
当你把封装做得越来越大时。你就会面临其他约束,网络速度、内存带宽、散热能力,所有这些问题都会开始显现出来。 你会看到单封装芯片数量增加的趋势线。你完全可以在 7 纳米工艺上实现这一点。Huawei 在他们的 Ascend 910C 或 D 上就是这样做的。他们最初只用了一颗,后来又增加到了两颗。他们正专注于提升封装规模,因为在这一领域,他们的进步速度可以超过其他方面。 但在那些无法继续缩小制程的工艺技术领域则进展较慢。这也是你在尖端芯片上同样能做到的事情 ,你在 7 纳米上所做的一切,在封装方面,很可能也可以在 3 纳米上实现。

中美博弈:2030 年的半导体转折点?

Dwarkesh: 如果我们在 2030 年进入这样一个世界:西方拥有最先进的工艺技术,但并未实现大规模量产。而 China,他们确实是一个半导体强国。他们正在进行大规模量产。哪一年会出现一个转折点,即我们在工艺技术上的优势已经足够消退,而他们在规模上的优势已经足够增长。此外,他们拥有将整个供应链数字化并整合在一个国家的优势,而不必依赖德国、荷兰等地零散的供应商,这意味着中国在实现大规模生产的领先能力方面将更具优势。

Dylan Patel: 迄今为止,中国仍然没有完整的本土半导体供应链,到2030年,他们有可能实现这一点。到目前为止,中国所有的7纳米和14纳米产能都使用 ASML 的设备,而且他们从 ASML 购买和进口的数量很大。但重点在于, ASML 的绝大部分收入,尤其是 EUV 领域,全部来自中国以外的市场。向所谓的西方国家以及台湾、日本等倾斜。

Dwarkesh: 但他们正在努力制造自己的 DUV 和 EUV 设备。

Dylan Patel: 问题在于,他们能以多快的速度推进并提升产量以及质量?迄今为止,我们还没有看到这一点。 目前,我非常看好他们能够在未来五到十年内实现这些目标,真正扩大生产规模,真正进入高速发展阶段。 他们有更多的工程师致力于此。他们有更强烈的意愿为解决这一问题投入资本。

Dwarkesh: 那么到2030年,他们是否能拥有完全国产化的 DUV?

Dylan Patel: 绝对肯定的。DUV是的。

Dwarkesh: 并且到2030年实现完全本土化的EUV?

Dylan Patel: 他们会拥有可用的工具。他们还没法大规模制造,他们算是让它运转起来了,但接下来还有量产地狱。比如ASML在10年代初就具备了一定能力的EUV运作。当时这些工具的精度还不够。它们尚未实现高产出,也没有实现高产量制造。不够可靠,而且他们必须提升产量,这些都需要时间,量产地狱是需要时间的,这就是为什么又花了5到7年时间才让EUV进入晶圆厂的大规模生产,而不仅仅是在实验室里运作。

Dwarkesh: 那么到2030年,他们需要制造多少台DUV工具?中国。

Dylan Patel: 目前要深入观察这条供应链确实存在一定的挑战。但在某些情况下,他们从日本供应商那里采购产品;如果他们想要实现供应链的全面本土化,就不能再购买这些镜头,或是从日本供应商那里采购投影光学元件或平台。他们需要建立内部研发制造能力。很难预测他们最终能达到什么程度。但他们每年能够制造出大约 100 台 DUV 光刻机并非完全不可能,尽管 ASML 目前每年的 DUV 光刻机产量已达数百台。
没有哪家公司拥有能够每月生产一百万片晶圆的制程节点,Elon 说他想要实现这一点。 中国显然会去做,TSM 并不打算那样做。存储芯片制造商或许也能达到这个规模,即每月一百万片晶圆,但不是在单一晶圆厂内完成。想到这种规模确实令人难以置信,且要让整个供应链为此实现整合也充满挑战。

Dwarkesh: 中国何时能够实现本土自主生产,使其规模超过西方其他国家总和?如果你将所有深层因素及模型的输入汇总起来,他们何时能够规模化地应用EUV光刻机,何时能够实现规模化生产?
如果你对AI的发展持有长远预期,比如以2035年为界——从宏观角度看这并不遥远——我们是否应该预见到一个中国在半导体领域占据主导地位的世界?如果出现了一种能够带来数十万亿甚至数百万亿美元经济增长,以及海量token输出的变革性事物,会发生什么?而这一切如果发生在2035年呢?这对西方与中国之间的博弈意味着什么?

Dylan Patel: 当你把时间跨度拉得那么长时,问题就变得非常具有挑战性了,我们关注的重点在于追踪每一个数据中心、每一座晶圆厂、所有的工具设备以及它们的流向。但这些事物的时间滞后相对较短,我们只能根据土地购买、许可证申请、涡轮机采购等情况,对数据中心容量做出相对准确的估算。而且我们掌握这些资源的所有去向。但展望到2035年,情况会发生翻天覆地的变化。误差范围会变得非常大,以至于很难做出预估。
如果人工智能的起飞或发展时间线足够缓慢,那么中国当然有能力实现大幅追赶 ,我们正处于一个阶段,即三到六个月前,甚至可能直到现在,中国模型展现出了前所未有的竞争力。Opus 46 和 GPD 5.4 确实已经拉开了距离,差距进一步扩大了,一些新的中国模型也会随之出现。随着我们从销售提供完整推理链等内容的 Token,转变为销售自动化白领工作,自动化软件工程师,给他们发送请求,他们把结果给你,而在后端有大量你不曾看到的思考过程。
从美国模型中提炼技术应用到中国模型将变得更加困难;其次,各大实验室所拥有的算力规模——OpenAI 去年以大约 2 吉瓦的算力结束,Anthropic 今年将达到2 吉瓦以上,到明年年底,它们都将达到约 10 吉瓦的容量。中国 AI 实验室算力的扩展速度远没有那么快。 当你无法将这些实验室的成果提炼到中国模型中时,再加上 OpenAI、Anthropic、Google 等以及 Meta 都在参与的这场算力竞赛,它们最终会达到一个模型性能开始出现更大分化的地步。
还有所有这些花费在数据中心等方面的资本支出,Amazon,2000 亿,Google 1800 亿。所有这些公司都在投入数千亿美元的资本支出。今年美国在数据中心方面的资本支出总额接近一万亿美元,最终的问题是,这里的资本回报率到底如何?至少如果我们看 Anthropic 的收入,在一月份他们增加了约 40 亿美元,而在月份较短的二月份,他们增加了约 60 亿美元。我们拭目以待他们在三月和四月的表现。考虑到算力限制正是制约其增长的瓶颈,Claude Code 的可靠性相当低,因为他们受到了极大的算力限制。如果这种情况持续下去,那么这些数据中心的投资资本回报率将会非常高。
在某个节点,美国经济将会在今年和明年增长得越来越快,这正是得益于所有这些资本支出,以及这些模型及其下游供应所产生的全部收入。 China 目前还没有做到这一点,他们还没有建立起能够用于投资模型、实现模型能力,进而大规模部署这些基础设施的规模。当你观察像 Anthropic 这样的公司时,假设其年度经常性收入(ARR)为 200 亿美元。据 The Information 此前报道,其利润率至少低于 50%。那么,这意味着其运行这些模型所需的计算成本约为 130 亿至 140 亿美元,而这对应着价值 500 亿美元的资本支出(CAPEX)。这是为了让 Anthropic 产生当前营收而由某方投入的资金。
如果 Anthropic 的营收再次增长 10 倍,那么 China 就没有足够的算力来支撑这种规模的部署。我们正处于一种“快速起飞”的状态,这并不是说我们在讨论什么戴森球(Dyson sphere)之类的遥远时间节点。更准确地说,是营收正以如此高的速度复合增长,以至于它已经开始影响经济增长了。这些实验室所汇集的资源增长速度非常快,而中国目前还没有做到这一点。所以在那种情况下,美国以及西方国家正在产生分歧。
问题的另一面在于,这些基础设施投资的回报平平。也许它们并没有预期的那么好。也许 Google 想要将自由现金流降至零,并计划明年投入 3000 亿美元用于 CAPEX 的想法是错误的。而且,华尔街那些看空的人以及不了解 AI 的人可能是对的,如果是这种情况,那么美国就在建设所有这些产能。它并不能带来真正巨大的回报。中国能够建立起完全垂直的本土供应链,而不像美国、日本、韩国、台湾、东南亚和欧洲等国家共同构建的那种非垂直供应链。在某个节点上,中国能够实现超越我们的规模化发展。如果 AI 达到特定能力水平所需的时间比你播客上的绝大多数嘉宾所认为的要长的话……

Dwarkesh: 就好比若是短期时间表,美国赢;若是长期时间表,中国赢。

Dylan Patel: 我不知道“短期时间表”具体意味着什么?你不必非得相信 AGI 就能认同美国胜出的时间表。

内存紧缺:AI 对消费电子的“掠夺”

Dwarkesh: 让我们回到内存的话题,华尔街的人和业内人士或许已经理解了这件事的重大意义,但普通大众可能还没意识到这有多重要。正如你所提到的,我们现在面临着内存紧缺的问题。之前我曾问过,我们能通过 EUV 工具解决这个问题吗?通过回归到 7 纳米制程。那么关于内存,我想问一个类似的问题。HBM 是由 DRAM 制成的,但其每晶圆面积的比特数比制造它的 DRAM 少 3 到 4 倍。未来有可能出现这种加速器吗?你可以直接使用普通的 DRAM 而不是 HBM。这样一来,我们就能从现有的 DRAM 中获得更大的容量。如果我们拥有能够自主执行任务的 Agent,而这并非那种同步的聊天机器人应用,那么你就不一定非得需要极高、那种低延迟的需求了。你可以接受低带宽,因为将 DRAM 堆叠起来制成 HBM 的原因就是为了获得更高的带宽。那么,是否有望转向非 HBM 的加速器,本质上实现与高速云计算相反的做法,即采用低速计算模式,并实现这一目标?

Dylan Patel: 归根结底,那些愿意为代币支付最高价格的增量购买者,最终往往也是对价格最不敏感的人。而且, 在资本主义社会中,算力应该分配给价值最高的商品,而私营市场正是通过支付意愿来决定这一点的。 当然,Anthropic 可以发布一个慢速模式,他们可以发布 Claude Slow Mode,并使每美元可获得的代币数量显著增加。他们或许能将 Opus 的价格降低 4 到 5 倍,而速度仅降低约 2 倍。推理吞吐量与速度之间的曲线在 HBM 上就已经存在了。然而他们并没有这样做,因为根本没有人想用慢速模型。此外,对于这些代理任务,模型能够以数小时的时间跨度运行固然很好,但问题在于,如果模型运行得更慢,那几个小时就会变成一天,或者反之亦然,如果模型运行得更快,那几个小时就会缩短为一小时。
然而,并没有人真的愿意接受那种长达一天的等待期,因为价值最高的任务同时也具有一定的时间敏感性,虽然确实可以使用DDR,但这里面有几个颇具挑战性的问题。首先,你仍然受到限制,芯片的核心约束之一,即使芯片本身具有一定的尺寸,所有的IO引脚都在芯片的边缘,你经常会看到芯片的左右两侧是HBM。从芯片到HBM的IO位于侧面,而顶部和底部则是与其他芯片连接的IO,因此,如果你将HBM换成DDR,那么边缘上的这些IO会产生显著的影响。带宽会显著降低,但每个芯片的容量会显著增加。

Dwarkesh: 你制造的东西更少了,你真正关心的指标是每片晶圆的带宽,而不是每片晶圆的比特数。因为限制浮点运算能力的因素正是数据的存入和取出,即下一个矩阵的读取。而对于这一点,你只需要更高的带宽。

Dylan Patel: 主要是为了输出权重,以及存入和取出KV cache。

Dwarkesh: 没错。在许多情况下也是如此。

Dylan Patel: 这些 GPU 并没有以满内存容量运行。这显然是一个系统设计层面的问题,模型、硬件、软件和代码的设计,比如,我应该设置多少 KVCache?我应该在芯片上保留多少?在进行工具调用或其他操作时,我应该卸载多少数据到其他芯片并在需要时进行调用?我应该将此任务并行化到多少个芯片上?显然,这些问题的搜索空间非常广阔,这就是为什么我们会有像 Inference X 这样的项目,它是一个开源模型,用于在各种八种不同的芯片和模型上搜索推理的最优解。 关键在于你并不一定总是受到内存容量的限制。你可能受到计算操作的限制,可能受到网络带宽的限制,可能受到内存带宽的限制,也可能受到内存容量的限制。 如果将其简化,大概存在四个限制因素,且每一个因素都可以进一步细分。但在这种情况下,如果你切换到 DDR,没错,你每个 DRAM 晶圆产生的比特数是原来的 4 倍,但突然之间,制约因素发生了巨大变化,你的系统设计也发生了巨大变化。你的速度变慢了,那市场会变小吗?或许有可能。但同时,现在突然之间,所有这些触发器都浪费了,因为它们只是闲置在那里等待内存。我并不需要那么多容量,因为我无法真正增加批处理大小,否则 KV cache 读取的时间会更长。

Dwarkesh: HBM 和普通 DRAM 之间的带宽差异是多少?

Dylan Patel: HBM 4 的 HBM 堆栈,我们还是以 Ruben 中使用的产品为例,因为那正是我们一直作为参考基准的,它是 2048 位。连接区域大约 13 毫米宽。其内存传输速率约为每秒10 giga transfers。因此,一组HBM 4在宽度约为13毫米或11毫米的区域上是2048位。这就是你在芯片上占用的边缘线(shoreline)。在这条边缘线上,你有2048位以每秒10 giga transfers的速率进行传输。将这些数值相乘,然后除以8,将位转换为字节。每个HBM堆栈的带宽大约是每秒2.5 terabytes,当你观察DDR时,在同样的区域内,其位宽可能只有64或128位。而DDR5的传输速率在每秒6.4 giga transfers到大约8000 giga transfers之间。所以你的带宽要低得多,计算方式是64乘以8000再除以8。你现在的速率是每秒64 GB。即便按慷慨的128解读,乘以8次千兆传输,同样的边缘长度下你得到的也只有每秒128 GB,而对比之下则是每秒2.5 TB。单位边缘面积的带宽存在一个数量级的差异。如果你的芯片是正方形,或者尺寸为26乘以33,也就是单个晶圆裸片的最大尺寸,那么你的边缘面积是有限的。然后在这个芯片内部,你放置了所有的计算单元。你可以做些尝试来改变现状,增加S-RAM、增加缓存。

Dwarkesh: 那么问题来了,要在哪里摧毁需求才能腾出足够的空间给AI?情况尤其糟糕,正如你所说,如果获取同样用于HBO的比特需要多出4倍的晶圆面积,那么为了给AI腾出一个比特,你就必须摧毁4倍的笔记本电脑、手机或其他设备的消费者需求。这对于未来一两年意味着什么?我记得你在通讯中提到,2026年 Big Tech 的资本支出中有 30% 将用于内存?

Dylan Patel: 在 6000 亿左右的支出中,你是说有 30% 仅仅是投向了……而且显然 Nvidia 在这中间存在一定程度的利润叠加。如果你将其拆解,并把他们的利润率分别应用到内存和逻辑芯片上。他们大约三分之一的资本支出都花在了内存上。

Dwarkesh: 随着内存紧缺问题的加剧,未来一两年我们应该有何预期?

Dylan Patel:  内存紧缺的情况将会持续恶化。而且价格还会持续上涨。这会对市场的不同领域产生不同的影响,这引出了一个问题,人们会越来越讨厌AI吗?因为现在智能手机和PC的性能将无法实现逐年的增量提升。它们的表现反而会逐年变差。

Dwarkesh: 如果你查看iPhone的物料清单,内存占比是多少?如果内存价格翻倍或出现其他涨价情况,iPhone的性价比会受到多大程度的影响?

Dylan Patel: 据我所知,iPhone配备了12GB的内存。每个G的成本,过去大约是三到四美元,所以总共是50美元。但现在内存价格翻了三倍。假设现在DDR的成本是每G 12美元。那么现在面临的是150美元对比50美元,Apple的成本增加了100美元。此外,Apple还有一定的利润空间。他们不会仅仅为了承担成本而牺牲利润。所以现在成本增加了100美元。这仅仅是DRAM的部分。NAND闪存也面临类似的市场情况。iPhone的成本可能增加了150美元。Apple要么必须将成本转嫁给消费者(A选项),要么就必须自己承担(B选项)。Apple不会过度压缩自己的利润空间。也许他们会承担一小部分成本。这意味着终端消费者要为一部 iPhone 多支付 250 美元。
现在的问题是,去年的内存定价与今天相比如何?虽然 Apple 感受到压力会有一定的滞后,因为他们往往与多家内存供应商签订了为期三个月、六个月或一年的合约。Apple 还是会受到相当大的冲击。不过他们并不会真正做出调整。直到下一代 iPhone 发布。但这属于高端市场。那一年只有几亿部手机的销量,Apple 每年能卖出多少部手机,两三亿部吗?市场的主体是中低端市场,曾经每年智能手机的销量是140万部。现在我们大概处于110万部的水平。但我们的预测是,今年可能会下降到80万部左右。明年大概会降到60万或50万部。我们参考了一些数据点,这是来自我们在亚洲、新加坡和香港的分析师提供的中国市场数据。在台湾,他们一直在追踪这些数据,发现 Xiaomi 和 Oppo 正在将中低端智能手机的产量削减一半。对于售价1000美元的智能手机,BOM(物料清单)成本增加150美元,或者说对于售价1000美元的 iPhone,BOM成本增加150美元,Apple 还能拥有较大的利润空间。
但如果我们看那些小尺寸手机,内存和存储占 BOM 的比例要大得多。而且利润率更低。因此,挤压利润空间的能力更弱了。而且他们通常倾向于不对存储器签署长期协议。之所以这很重要,是因为如果智能手机出货量减半,这种减半会发生在中低端机型上,而不是高端机型。并不是说存储容量的供应量也减半了,目前消费者占了存储需求的一半以上,即使你因为减半的结构而将智能手机出货量减半,也是如此,低端机型的削减幅度会超过一半,而高端机型的削减幅度则不到一半,即使高端手机价格上涨一点,我们还是会购买那些价格超过1000美元的手机。而且 Apple 的出货量下降幅度不会像低端智能手机供应商那样大。
个人电脑市场也是如此,这对市场造成的影响相当剧烈,DRAM 被释放出来,转向了 AI 芯片,因为 AI 芯片厂商更愿意签订长期合同,更愿意支付更高的利润空间等等,他们从终端用户或其他方面获取的利润要大得多。这可能会导致人们更加讨厌 AI,因为他们很快就会开始表现得像在 PC 的各个 Subreddit 板块和 PC 圈的 Twitter 上,到处都是那些猫咪跳舞的视频。大家会说,这就是为什么内存价格翻倍了,而且你买不到新的游戏 GPU,或者说你买不到新的台式机。当内存价格再次翻倍时,情况会变得更糟,尤其是 DRAM。另一个相当有趣的动态是,不仅是 DRAM,NAND 也在涨价。NAND 的价格也在上涨。过去几年里,这两个市场的产能扩张都非常缓慢。NAND 几乎是零增长。但 对于智能手机而言,流向手机和 PC 的 NAND 占比要高于流向手机和 PC 的 DRAM 占比。因此,当你抑制需求时,主要是针对 DRAM 的需求,你会释放出更多的 NAND,使其能够被分配并流向其他市场。 所以 DRAM 的价格涨幅会比 NAND 更大,因为你从消费端释放了更多的资源。你已经为 AI 生产了更多的内存。

Dwarkesh: 是因为 SSD 正被大量用于数据中心吗?

Dylan Patel: 用量没有 DRAM 那么大。它们的需求量也会增加,因为它们确实有一定的用量,但并不像 HBM 那样需求紧迫。

Dwarkesh: 有一点我是在读了你的一些简报后才意识到的,那就是基本上阻碍未来几年逻辑芯片微缩的瓶颈,与阻碍我们生产更多存储晶圆的因素非常相似。制造存储芯片确实需要完全相同的设备,即 EUV 光刻机。可能有人现在会问:我们为什么不能直接多生产一些内存呢?

Dylan Patel: 目前的制约因素未必是 EUV 设备,或者说明年的情况也不一定是这样,但当我们进入本年代后期时,它们就会成为主要的制约因素。约束主要在于这一点。他们从物理层面确实还没有建造晶圆厂,所以在过去三到四年里,这些供应商确实没有建造新的晶圆厂。这是因为内存价格当时非常低。他们的利润率很低。他们在 2023 年的内存业务上是在亏钱的。所以他们当时的想法是,我们不会建造新的晶圆厂。后来市场随着时间推移缓慢复苏,但也从未真正达到极佳的状态。直到去年。
在 2024 年,我们一直在反复强调,推理能力意味着长上下文,这意味着巨大的 KV cache,这意味着你需要大量的内存需求。 我们已经讨论这个问题大约一年半到两年了。那些了解 AI 的人,当时就非常看好大内存技术,你已经看到了那种动态变化。但现在它终于在价格上体现出来了。这么显而易见的事情,竟然花了这么久才实现,长上下文、KV cache 变得更大了。你需要更多的内存。而对于加速器来说,它们一半的成本都在内存上。显然,他们肯定会开始疯狂地投入其中。但这花了一年时间才真正反映在内存价格上。
一旦内存价格反映出来,内存供应商还需要六个月到三个月的时间来开始建设晶圆厂。而这些晶圆厂需要两年时间才能建成。因此,直到 27 年底或 28 年,我们都没有能够安装这些设备的合适晶圆厂,取而代之的是,你已经看到了一些非常疯狂的举措来获取产能,Micron 从一家台湾公司手中买下了一座生产落后制程芯片的晶圆厂,Hynix 和 Samsung 也在采取一些相当疯狂的手段,试图扩大其现有晶圆厂的产能,这些举措同时也对经济产生了极其深远的连锁反应。为什么我们不能建设更多的产能呢?原因就是没有地方放置这些设备,而且不仅仅是 EUV,DRAM 和逻辑芯片还涉及其他设备,

Dylan Patel: N3制程中,EUV光刻技术占晶圆最终成本的30%左右,也就是28%左右的成本。当你审视 DRAM 时,这一比例大概在百分之十几。虽然比例在上升,但目前仍处于百分之十几的水平。因此,DRAM 中 EUV 所占的成本比例要小得多。虽然这些工具的供应链不像 ASML 那样复杂,但它们同样构成了瓶颈。所以你会看到 Applied Materials、Lam Research 以及所有其他公司也在大幅扩张产能。你根本没有地方去安装这些设备,因为最复杂的环节在于设施本身。人们建造的最复杂的建筑是晶圆厂,而建造一座晶圆厂需要两年时间。

洁净室之争:Elon Musk 的极速基建

Dwarkesh: 我最近采访了 Elon,他的整个计划是——他们要建造这个超级工厂(gigafab),达到某种 10 的幂次规模,并且他们要建造那些洁净室。假设他们建造了那些洁净室。第一,你认为这是Elon Coe能比人们目前常规建造速度快得多就能完成的事情吗?这并非关于建造终端工具。这仅仅是关于建造设施本身。仅仅建造无尘室并极速完成,其复杂程度如何?如果这是我们今年或明年的瓶颈所在,那么这是否属于Elon那种“快速行动”风格能够大幅提速的事情?第二,两年后我们不再受限于无尘室空间,而是受限于工具设备,那么这(指无尘室建造速度)还重要吗?

Dylan Patel: 任何复杂的供应链一样,这需要时间,且约束条件会随时间推移而发生变化。即使某样东西不再是约束条件,也不意味着该市场就不再具备利润空间,当我们展望未来几年时,这是一个巨大的瓶颈。但这并不意味着能源领域没有飞速增长,也不代表那里没有余地。只是它并非最关键的瓶颈。 在晶圆厂领域,洁净室是今年和明年的最大瓶颈。随着时间推移,到了28、29、30年,这些制约因素依然存在。
关于 Elon,他拥有极强的能力去汇聚物质资源和极其优秀的人才来打造产品。 他招募到顶尖人才的方法,就是尝试去构建最疯狂的事物,在 AI 领域,这种方法并不奏效,因为所有人都在致力于开发 AI,每个人都雄心勃勃。 但在诸如我们要去往火星、我们要制造能自主降落的火箭,或者我们要制造全自动驾驶电动汽车这类事情上,是奏效的,又或者是我们要制造人形机器人,这些方法,能够招募那些认为这是世界上最重要问题的人去致力于解决它,因为他是唯一一个真正为此付出巨大努力的人。在半导体方面,他想建造一座月产能达到100万片晶圆的晶圆厂。目前还没有人拥有规模如此巨大的晶圆厂。这就是他所陈述的,他想要实现每月100万片的晶圆产量。
他很有可能招募到许多非常出色的人才,并让他们投身于这项英雄式的、近乎疯狂的任务,去尝试建造一座月产能100万片晶圆的工厂。第一步是建造无尘室。他有一种思维方式,关于删除事物的思维方式。(环境)脏一点也可以。没问题。晶圆厂内所有的空气每三秒钟左右就会被置换一次。就是那么快。而且每单位空间里的微粒极少,他能够建造出那样的洁净室。这可能需要一到两年时间。起初,速度不会非常快,但随着时间推移,工艺会变得越来越快。但真正复杂的部分是开发工艺技术以及制造晶圆。这需要大量的知识积累。这再次说明,它极昂贵的工具和供应链之间最复杂的集成。这是由 TSM、Intel 或 Samsung 完成的。而其中另外两家公司的表现并不那么出色。它们极其复杂。

颠覆的可能性:光刻技术的替代方案

Dwarkesh: 如果到了 2030 年,人们突然遭遇某种彻底的颠覆,你会感到多惊讶?我们不再使用 EUV。我们使用的是某种效果更好、生产起来简单得多且更具事实依据的技术。我们能以大得多的规模进行生产。如果突然出现了一些完全意想不到的情况,那么上述讨论可能都不适用了。

Dylan Patel: 对于那种非常简单且易于扩展的技术,我给出的可能性极低。目前有一些公司正在致力于开发类似粒子加速器或同步加速器的设备,用以产生 13.5 纳米(即 EUV)甚至 X 射线这种波长更短的光,例如 7 纳米左右的波长,并将其应用于光刻工具中。但这些设备本质上就是大型粒子加速器,专门用于产生这种光。构建这种系统非常复杂。所以目前有几家公司在做这件事。这可能会对行业产生超越 EUV 的巨大颠覆。 我不认为我们会神奇地造出一种全新的、直接且超级简单的设备,并能实现大规模量产,尽管目前确实有人在尝试此类方案。

Dwarkesh: 我之所以这么问,是因为如果你回想一下 Elon Musk 过去的创业历程,火箭技术在那时看来也是极其复杂的。

Dylan Patel: 和 Elon 比起来,我不过是个只会夸夸其谈的门外汉,我又构建出了什么呢?为了在未来能够构建出更大的内存,我们能否像制造 3DN 那样制造 3D RAM,然后再回归使用 DUV?目前大家的期望是,所有关于 3D RAM 的路线图都仍将使用 EUV,因为你需要更精确的套准(overlay)。毕竟当你进行后续处理步骤时,由于一切都是垂直堆叠的,且层数叠加更多,你需要确保对齐精度。你希望节距(pitch)能更紧凑,以及实现所有这些目标。大家仍在尝试这样做。关于 EUV,3D 技术能做的是,它会考量单次 EUV 曝光到底能产出多少比特,如果你进行这类计算,你会发现如果转向 3D RAM,这个数字将大幅提升。这就是人们所期望的。但目前,每个人的路线图大体上都是从当前的所谓 6F 单元转向 4F 单元,最后在本年代末或下个年代初实现 3D RAM。
所以仍然有大量的研发、制造和集成工作需要完成。这极有可能发生。这也将需要对晶圆厂进行大规模的设备重组,晶圆厂内设备的分布情况是非常不同的,光刻机是唯一没有那么大差异的设备。但相对于不同类型的化学气相沉积、原子层沉积、干法刻蚀,或者具有不同化学特性的各种刻蚀腔体而言,它们的数量差异很大;对于不同的工艺节点,你需要所有这些不同种类的设备。 你不能在短时间内直接将逻辑晶圆厂转换为 DRAM 晶圆厂,或者反之亦然,也不能在 NAND 晶圆厂和 DRAM 晶圆厂之间随意切换。 同样地,现有的 DRAM 晶圆厂仅仅是从 1B 或 1-alpha 节点升级到 1-beta 或 1-gamma 节点,就需要大量的设备重组,因为现在他们必须增加 EUV 设备,并改变使用 EUV 时的沉积和刻蚀化学堆栈,而且必须引入 EUV 光刻机。此外,当你转向 3D DRAM 时,将会发生更大的转变。因此,这些晶圆厂在设备方面需要进行大量的重新配置。这会带来巨大的颠覆,导致 EUV 的整体需求降低。但正如我们一直以来所见,EUV 或光刻技术在晶圆成本中所占的比例最初呈上升趋势。
在 2014 年左右,光刻技术约占晶圆成本的 16% 或 17%。在过去的 15 年里,这一比例已经上升到了 30%。对于 DRAM 而言,它也曾处于 10% 到 15% 左右的水平,现在已趋向于 15% 到 20% 的高位区间。而在我们实现 3D RAM 之前,它很可能会跨越到 20% 以上的区间。但如果我们转向 3D RAM,从 EUV 占晶圆总成本的比例来看,它又会大幅下降。

游说荷兰:获取算力期权的逻辑

Dwarkesh: 你并不太在意成本占比,而更在意它造成了多大的瓶颈。

Dwarkesh: 如果你是 Jensen 或 Sam Altman 之类的人,如果你能从扩大 AI 计算规模中获益良多,那么有一种说法是他们会去找 TSMC。然后说,为什么我们不能做 X、Y 和 Z?你在这里提出的观点是,TSMC 做什么并不重要。即使你有 Intel 和 Samsung 在建设更多的晶圆厂,从长远来看,你仍然会受到 ASML 以及其他设备制造商和材料供应商的制约。所以首先,这种解读正确吗?其次,为什么像 Silicon Valley 的人现在就应该去荷兰游说 ASML,他们是否应该去游说 ASML 制造更多的工具,以便在 2030 年时拥有更多的 AI 计算能力?

Dylan Patel: 这是一个有趣的动态,我们在 2023、2024 和 2025 年都看到了,那些比别人更早预见到能源瓶颈的人,不对称地转向了 Siemens、Mitsubishi,当然还有 GE。GE Vernova,他们买断了涡轮机产能,现在因为能源问题,他们能够为在各地部署这些涡轮机收取高额费用。同样的道理,这也可以用于 EUV,只是 ASML 不会轻易相信任何想要购买 EUV 工具的无名小卒。这些涡轮机的成本比 EUV 设备低得多,而且产量也大得多,特别是一旦你涉及到工业燃气轮机,或者不仅仅是联合循环机组,还有那些更便宜、更小型、效率相对较低的机组时,人们会为这些设备支付定金。确实有人可以这样做,有人应该去荷兰说:我付给你10亿美元,你给我两年后购买10台 EUV 设备的权利,这样我就能在两年后排在首位了。然后在这两年里,你四处走动,等待所有人意识到:糟了,我的 EUV 设备不够用。接着你再尝试以溢价卖掉你的期权。
但你实际上所做的只是在说:ASML,你们太蠢了。你们在这些设备上的利润赚得不够多。这部分利润我要赚走。问题在于,ASML 甚至会同意这一点吗?

Dwarkesh: 他们不会,不过确实存在一种可能性,即他们至少能从中获得需求信号,从而提高产能。

Dylan Patel: 我同意。

Dwarkesh: 你的意思是,即便他们想提高产能,考虑到供应链的限制也难以实现。

Dylan Patel: 但这恰恰是这样一个市场:如果他们无法提高产能,就像 TSM 无法如此迅速地扩大生产,而需求又在疯狂飙升,那么显而易见的解决方案就是进行套利,因为你我都清楚,实际需求远高于他们的预测及其建造能力。 你可以通过锁定产能来进行套利,然后进行类似远期合约的操作,等其他人意识到糟糕了,一切都乱套了且产能严重不足时,再将其卖出。 然后你就会获得这种激励空间。即 ASML 和 TSM 本应收取的利润空间。但问题在于,我不知道 ASML 和 TSM 是否会同意这一点。

电力瓶颈:并非芯片那样的死局

Dwarkesh: 让你问问关于电力的问题。你认为电力可以被任意规模化。但在这些数字之外。如果我没记错的话,关于你那篇讨论电力的博文,关于如何增加电力,你的意思是 Giavernova、Mitsubishi 和 Siemens 能够生产燃气轮机,大约是 60 吉瓦每年。虽然还有其他能源来源,但它们的重要性不如这些燃气轮机。我假设其中只有一小部分用于 AI。如果到 2030 年我们拥有足够的逻辑芯片和内存来实现每年 200 吉瓦的规模。你认为这些事物的发展路径是否正朝着每年超过 200 吉瓦的目标增长?

Dylan Patel: 这是关键 IT 容量,这一点很重要,值得一提。当我谈论这些吉瓦时,我指的是关键 IT 容量,即服务器接入电源后所消耗的电量。但在整个链条中存在损耗,传输过程中存在损耗。转换过程中也存在损耗。存在冷却等方面的损耗。因此,你需要将这个系数调高,比如从今年的20吉瓦或十年后的200吉瓦,调高20%到30%。然后还要考虑容量系数,涡轮机并不会以100%的功率运行。
如果你看一看 PJM,这是美国最大的电网,覆盖范围大约在中西部,以及东北部一带。PJM 在他们的模型中会评估,涡轮机到底需要多少容量?我们需要有大约20%的冗余容量。此外,在那20%的冗余容量中,我们所有的涡轮机只以90%的功率运行,因为为了可靠性,它们会被降额使用。因为设备故障、维护等各种各样的原因。由于所有这些因素,能源的铭牌容量总是远高于最终的关键IT容量。
但这不仅仅是涡轮机的问题,如果你只是通过涡轮机发电,那很简单、枯燥且容易,我们毕竟是人类,而资本主义要有效得多。 那篇博客的重点在于,虽然只有三家公司在生产联合循环燃气轮机,但我们能做的还有很多,我们可以做衍生产品,我们可以利用飞机发动机并将其旋转。也将它们转变为涡轮机。 市场上甚至出现了新的进入者。比如 Supersonic 正在尝试这样做,他们正在与 Crusoe 合作。而且市场上还存在其他所有的相关方。有中速往复式发动机,就是那种旋转运作的发动机,就像任何柴油发动机那样,大约有 10 家公司以这种方式制造发动机,比如 Cummins,我来自佐治亚州,人们过去常说,伙计,你那车里装的是 Cummins 发动机,就像在谈论 RAM 卡车那样。汽车制造业正在走下坡路。这些公司都拥有产能,可以进行规模化调整并将其转化为数据中心电力,把所有这些往复式发动机都用上。它不像联合循环发电那样清洁。如果你愿意的话,可以把它们从柴油动力改装成燃气动力。
这些旋转式发动机,船舶发动机怎么样?所有这些用于大型货轮的发动机。Nebius 正在为 Microsoft 在 New Jersey 的数据中心做这件事,他们正在运行这些船舶发动机来发电。Bloom Energy 正在做燃料电池。我们看好他们已经有一年半了,因为他们有极强的提高产能的能力,而且即便其成本比联合循环(这是效率成本最优的选择)稍高,但产能提升的回本周期非常快。还有太阳能加储能电池,随着这些成本曲线持续下降,它们也可以投入使用。还有风能。当然了,关于那些降额运行的情况,当你安装风力涡轮机时,你可能会说,我只预期它能达到最大功率的15%,因为一切都太棒了。但如果你加上电池呢。
另一件事是,电网的规模设定是基于——我们不能在用电高峰期切断电力,比如夏天最热的那一天。那是一种比平均水平高出10%、15%、20%的负荷峰值。如果你部署了足够的公用事业级电池,或者安装了每年仅运行一小段时间的调峰电厂,那么突然之间,这些电厂可以是燃气电厂、工业燃气轮机、联合循环电厂,也可以是我提到的任何其他电源。它们也可以是电池。 那么突然之间,你就为数据中心释放出了美国电网20%的容量。因为大多数时候这些容量都是闲置的,它们真正存在的作用仅仅是为了应对那个峰值 ,也就是那一两天,全年可能也就只有那么几天、几个小时会出现这种峰值。因此,你只需要有足够的容量来应对那种峰值负载,然后你突然就完成了所有转移。而如今,数据中心仅占美国电力的百分之三到百分之四。到2028年,这一比例将达到10%。如果你能像这样释放美国20%的电网容量,并没有那么疯狂。而且美国的电网是太瓦级别的,而不是几百吉瓦级别的,所以我们可以增加更多的能源。这些事情将会充满挑战。其中涉及大量艰巨的工程问题。人们必须承担许多风险。人们必须使用许多新技术。
但 Elon 是第一个做到这种表后燃气(behind the meter gas)应用的人。从那时起,我们看到人们为获取电力而采取的各种方案出现了爆发式增长。虽然这些方案并不简单,但人们终将能够实现它们。而且它们的供应链比芯片供应链要简单得多。

Dwarkesh: 很有意思。他在采访中指出,他所关注的那款特定涡轮机的特定叶片,其交付周期已经排到了 2030 年之后。你的观点是,还有很多其他获取能源的方式。那就仅仅追求低效率好了。没关系。

Dylan Patel: 联合循环燃气轮机的资本支出约为每千瓦1500美元。你的意思是,采用比这昂贵得多的技术,或者其他成本正在降至这一水平的技术,使其具备竞争力,这都是合理的。成本甚至可以高达每千瓦3500美元,所以它的成本可能是联合循环的两倍。而基于TCO,GPU的总成本每小时仅上涨了几美分。确实如此。再说一次,因为我们一直在讨论 Hopper 的定价,原来的 1.40 美元现在变成了,电力价格翻倍,好的,原本 1.40 美元的 Hopper 现在成本变成了 1.50 美元。就像是,我并不在意,因为模型的进步速度如此之快,以至于它们的边际效用远高于那几十分的能源成本增加。

Dwarkesh: 那么你是说电网的 20%,那么冬季呢,其中 20% 可以通过公用事业级电池直接上线,从而增加你认为可以放心地接入电网的容量。

Dylan Patel: 那里的监管机制并不简单。那大约是 200。

Dwarkesh: 或者说是吉瓦,假设这种情况真的发生,你刚才提到仅从不同的天然气发电来源,即那些不同类型的发动机和涡轮机来看,它们总共能在十年内释放出多少吉瓦的电力?

Dylan Patel: 我们在一些数据中进行了追踪,仅天然气发电领域就有超过 16 家不同的发电设备制造商,所以,联合循环发电的涡轮机制造商确实只有三家,但我们正在追踪 16 家不同的供应商,并且掌握了他们所有的订单。结果显示,针对各类数据中心的订单量高达数百吉瓦。 随着本年代接近尾声,我们预计新增电力容量中约有一半将采用表后(behind the meter)模式。 从实际情况来看,表后模式的成本几乎总是高于电网接入模式,但接入电网往往面临诸多问题,如许可审批、互联排队等各种障碍。因此,尽管成本更高,人们最终还是选择了表后模式。至于他们在表后模式下具体采用什么技术,范围非常广泛。可能是往复式发动机。可能是船舶发动机。可能是航空衍生型燃气轮机。也可能是联合循环机组,尽管联合循环并不太适合表后模式。也可能是 Bloom Energy 燃料电池。

Dwarkesh: 可以是太阳能加电池,可以是这些选项中的任何一种——你是说这些方案单独拿出来都能达到几十吉瓦的规模吗?

Dylan Patel: 它们中的每一个单独拿出来都能达到几十吉瓦,而整体加起来则能达到几百吉瓦。

Dwarkesh: 那么单凭这一点就应该绰绰余……

Dylan Patel: 电工的工资可能又要翻两到三倍,会有很多新人进入这个行业,也会有很多人因此赚钱,但我并不认为这是主要的瓶颈。

Dwarkesh: 目前在 Abilene,Caruso 正在为 OpenAI 建造的 1.2 吉瓦数据中心,那里大约有 5000 人在工作,或者说在高峰期时有这么多人。如果你把规模扩大到 100 吉瓦,虽然我确信随着时间推移效率会提高,但建造 100 吉瓦的容量大约需要 40 万人。如果你考虑一下美国的劳动力规模……大概有 80 万名电工。我不知道它们是否都能以这种方式相互替代。建筑工人有数百万之多。但如果我们处在一个每年新增200吉瓦电力的世界里,我们最终会面临劳动力短缺吗?还是说你认为这实际上并不是一个真正的制约因素?

Dylan Patel: 劳动力在其中是一个巨大的制约因素。人们必须经过培训。同样,我们可能会开始以这种方式引进最高技能的劳动力,如果一个在欧洲从事发电厂拆除工作的顶尖电工,现在来到美国从事数据中心建设,负责高压电力以及数据中心内部的电力输送,这在逻辑上是说得通的,人形机器人或许会开始发挥作用,或者至少机器人技术会开始介入,但 减少人力需求的主要因素将是模块化,并在亚洲的工厂进行制造。 尽管这对美国而言不幸,但对于韩国、东南亚,在很多方面也包括中国,这些地区将会越来越多地生产并运送数据中心的预制模块,这些模块会被直接运抵目的地,或许在今天,你们是通过运输服务器或机架,然后将其插入从不同地方运来的组件中;但现在,你们可以直接将其运送到工厂并进行整体集成,构建一个2兆瓦的电力模块。
这个模块将高压电力转换为直接输送到机架的电压(甚至是直流电),而不是传统的交流电和高压电,或者在散热方面,你们可以直接运输一个已经预装好大量冷却子系统的全集成化装置。由于管道工目前也是一大制约因素,此外,与其只处理单个机架还要安排人员去连接复杂的电源和电力线路,不如直接采用滑撬式底座,将整排服务器在工厂集成后直接运抵现场。如今,单个机架的功率可能达到120或140千瓦,但随着我们进入下一代,例如使用 Nvidia 的 Khyber 等技术,功率将接近1兆瓦。如果你处理的是整排设备,它将把机架、网络、冷却系统以及电源柜全部集成在一起。
所以现在当设备进场时,你们需要铺设的线缆大幅减少了,无论是光纤网络还是电源线,通过某种力量实现互联,以及减少需要连接的底层设施,这二者之间存在一种平衡,这可以大幅减少数据中心的工作人员数量,从而使构建这些设施的能力得到极大提升。在这个过程中,会出现一些新事物,有些人会更快地转向新事物,而有些人则会慢一些,Crusoe 和 Google 一直在讨论这种模块化,正如 Meta 以及其他许多公司所做的那样,大家都在谈论这种模块化,虽然有些公司在实施时会比较迟缓,但归根结底,那些更快转向新事物的人可能会遇到更多延迟,而动作较慢的人则会面临劳动力问题。因此,市场中总会出现错位,因为这是一个非常复杂的供应链。最终,它依然简单到我们能够在所需的时间尺度内,通过资本主义和人类的创造力来解决它。

Dwarkesh: 这是需要解决的重大问题。Elon Musk 非常看好太空 GPU。如果你认为电力在地球上并不是一种限制。我想它们之所以有意义的另一个原因是,即便如此,地球上依然有足够的燃气轮机或其他设备来构建它。Elon 随后论点是,你无法获得在地球上建设数百吉瓦(GW)电力设施的许可。你认同这个观点吗?

Dylan Patel: 从土地方面来看,美国确实很大。数据中心并不占用那么多空间。你可以解决那个问题。在许可方面,空气污染许可证是一个挑战,但 Trump 政府已经让这一切变得容易多了。你如果去德克萨斯州,就可以省去很多繁文缛节。Elon 在孟菲斯处理了很多这类复杂事务,还要在边境另一侧建设发电厂,以及为 Colossus 1 和 2 号机组所做的所有这些事情。但在德克萨斯州中部,你可以有更多的操作空间,不是吗?

Dwarkesh: 考虑到 Elon 住在德克萨斯州,你为什么不直接去德克萨斯州呢?

Dylan Patel: 部分原因在于,他们在一段临时时期内过度依赖了电网供电,因为他们当时认为自己需要更多的电力供应。

Dwarkesh: 他们提到了一家连接到当地电网的铝精炼厂。

Dylan Patel: 那是一家被稀释了的家电工厂。那个工厂停产了。但我认为他们可能更多地依赖了电网供电。他们可能更多地考虑了水资源接入和天然气接入。事实上,我认为他们买下那里时就知道天然气管道就在旁边,并且打算接入它。水资源方面也是如此。那涉及到了一系列不同的制约因素。那可能是一个更容易找到电工之类人员的区域。但我不敢确定他们为什么选择了那个地点。如果时光能够倒流,Elon 本会选择德克萨斯州的某个地方。但由于他所面临的监管方面的挑战,审批确实是一个难题,但美国幅员辽阔,拥有50个州,事情总会完成的。还有许多小型司法管辖区,你只需根据承包商类型的不同,在六个月到一年的临时期间内,将你所需的所有工人运送过去即可。根据承包商类型的不同,甚至可以缩短至三个月。让工人入场并安置在临时住所,支付高昂费用,因为相对于 GPU、电力(或者说不是电力,而是 GPU 以及网络等等)以及它将产生的 Token 的最终价值而言,劳动力成本是非常低廉的。 所以所有这些投入都有充足的盈利空间来支付成本。所以我认为这没问题,而且现在人们的布局也正在多元化,澳大利亚、马来西亚、印度尼西亚、印度。 这些地方的数据中心正在以快得多的速度兴建。但目前仍有70%以上的AI数据中心位于美国,而且这种趋势仍在持续。所以我认为人们正在摸索如何建设这些设施。在得克萨斯州、怀俄明州或新墨西哥州人烟稀少的地方,处理许可审批和官僚程序,比起将设备送入太空,难度大约要小得多。

太空 GPU 的物理局限性

Dwarkesh: 除了考虑到能源仅占数据中心总拥有成本的一小部分而导致其经济论据缺乏说服力之外,还有什么呢?你对此持怀疑态度的其他原因是什么?

Dylan Patel: 是这样,显然 在太空中电力基本上是免费的。

Dwarkesh: 这就是进行这项事业的原因。

Dylan Patel: 这就是原因所在。

Dwarkesh: 但除此之外还有所有其他反面论点,这是因为即使电力成本翻倍,其占 GPU 总成本的比例依然很小。主要的挑战在于,这也是我们所见到的分散情况,即我们有 Cluster Max,它评估了所有的 Neocloud,我们测试了超过 40 家云公司,包括超大规模云厂商(hyperscalers)和 Neocloud。除了软件之外,这些云平台之间最大的区别是什么?

Dylan Patel: 在于它们部署和管理故障的能力,即便在今天,GPU 的可靠性也极其糟糕,大约 15% 部署的 Blackwell 需要进行 RMA(退货授权)处理。你必须将它们拆卸下来,有时可能只需要重新插拔,但有时必须将其拆下并寄回给 Nvidia,或者更准确地说,是由负责这些 RMA 等事务的合作伙伴来处理。

Dwarkesh: 你如何看待 Elon 的那种论点,即一旦度过初始阶段,它们实际上就不会频繁发生故障了?

Dylan Patel: 确实,但现在你已经完成了这些工作,你测试了所有设备,将它们拆解、装箱、运输、送上太空,然后再重新上线,这需要花费几个月的时间, 如果你的论点是,GPU 的有效使用寿命为 X 年,如果一个 GPU 的有效使用寿命是五年,而(处理故障)需要额外花费三个月,可能甚至是六个月,那么这相当于你集群有效使用寿命的 10%。由于我们的算力受到极大的限制,理论上这些算力在拥有的前六个月里价值最高 ,因为我们现在比未来受到更多的约束;现在的算力既能有助于未来研发出更好的模型,也能即刻转化为收入,进而用于筹集更多资金以实现进一步发展,诸如此类。当下永远是最重要的时刻。因此,你的算力部署可能会被推迟六个月。区分这些云服务商的关键在于,我们看到如今在地球上有些云服务商需要六个月才能完成GPU的部署,我们也看到有些云服务商所花的时间远少于六个月,那么问题来了,太空在其中发挥什么作用?我不明白如果要在地球上对它们进行全面测试、拆解,然后再运送到太空,怎么可能比直接把它们放在测试地点所需的时间更短。

Dwarkesh: 没错。所以我想要问的问题是关于太空通信的拓扑结构。目前,Starlink卫星之间的通信速度为每秒100吉比特。你可以设想一下,如果使用为此优化过的光学卫星间激光链路,速度还能进一步大幅提升。而这最终竟然非常接近 InfiniBand 的带宽,大约是每秒 400 GB,但那是单 GPU 的带宽,不是单机架的。

Dylan Patel: 我明白了。那么将其乘以 72。而且,那还只是 Hopper 架构的情况;当你转向 Blackwell 和 Rubin 时,性能会再提升两倍,然后再提升两倍。

Dwarkesh: 但在推理过程中,实际上发生了多少计算量?是不同的扩展单元(scale up)在协同工作,还是仅仅是在单个扩展单元内处理一批数据?

Dylan Patel: 很多模型可以放入一个扩展域(scale up domain)内,但很多时候你需要将它们拆分到多个扩展域中。我认为,随着模型变得越来越稀疏,至少这是大趋势,你确实需要让每个 GPU 只与少数几个专家(experts)进行通信。如果当今领先的模型拥有数百甚至上千个专家,那么即使我们在未来不断进步,你也会希望在数百或数千个芯片上运行此任务。所以这就导致了一个问题,那就是你现在需要在通信层面将所有这些卫星连接起来。

Dwarkesh: 那这会很困难。因为我设想如果存在这样一种世界,即你可以在单一的纵向扩展规模上进行批量推理,那么这或许还比较可行。但如果不行,情况就会棘手得多。

Dylan Patel: 将这些航天器联网本身就是一个难题。而且你不能让卫星无限大,比如,制造超大型卫星存在许多物理学上的挑战,不是吗?所以这就是为什么你需要卫星之间的内部互联,这些互联是……比集群更昂贵,比如网络成本占总成本的 20% 或 15%。 突然之间,你现在制造的就变成了太空激光,而不是那种可以通过百万级产量制造、配备可插拔收发器的简单激光器,而且这些设备本身也非常不可靠。 顺便说一句,相比 GPU,它们更不可靠,在整个集群的生命周期内,你必须一直拔掉插头、进行清理,为了各种随机的原因拔掉、重插。这些东西就是没那么可靠。所以你不仅有那个问题,还有这个问题。比如,你用的是一种更昂贵、更复杂的空间激光器来进行通信,而不是使用这种已经实现超大规模产量的可插拔光收发器。
好,总而言之,这对空间数据中心意味着什么?实际上,空间数据中心并不会因为那种“嘿,我们有能源优势”的说法而受到限制。它实际上只是受限于同样的竞争资源。到本十年末,我们每年只能制造 200 吉瓦的芯片。那么,为了获得那种产能,我们打算做些什么呢?无论是在陆地上还是在太空中,这其实并不重要,因为你可以构建那种能力。我认为人类的能力和容量可以达到这样一个阶段:我们全球范围内每年增加 1 太瓦时的各类能源。在某个节点,我们确实会跨越鸿沟,或者说太空数据中心变得具有现实意义,但这不会是在这十年内,这要遥远得多,只有当能源制约真正成为巨大瓶颈,当空间、土地和许可成为更大的瓶颈,并不断蚕食越来越多的经济领域时,才会发生。

Dwarkesh: 而芯片不再是瓶颈,因为芯片本身就是最大的瓶颈。

Dylan Patel: 所以,你希望芯片一旦制造完成,就能立即投入 AI 运算。因此,人们正在采取许多措施来不断提升这一速度,无论是数据中心的模块化,还是机架的模块化——即你只需在数据中心现场安装芯片,而其他一切组件都已预先接线并随时可用。所以,人们正在做这些事情来缩短时间,而这些是在太空中无法实现的。 归根结底,在一个芯片受限的世界里,最重要的就是让这些芯片尽快投入 Token 的生产。 等到 2030 年左右,当半导体行业,以及 ASML、ZEISS 以及所有其他供应商,如 Lam Research、Applied Materials 和晶圆厂制造商,经历周期波动并最终能够生产足够的芯片时,情况或许会大不相同。实际上,我们正在对每一个指标进行优化。
优化能源成本的10%或15%是有意义的,或者当我们转向使用 ASICS,且 Nvidia 的利润率不再是70%以上时,情况亦是如此。也许这些能源成本占到了集群和晶圆厂建设成本的30%,以及所有这些支出。这些都是关于数据中心建设的事情。这些才是需要优化的地方。但这并不是,Elon 不会靠取得20%的增长来获胜。Elon 从来不会那样获胜。Elon 的获胜方式是他孤注一掷,并实现10倍的增长,这就是 SpaceX 的意义所在。这也是 Tesla 的意义所在。这正是他所有成功的核心所在,这并非是为了追求那百分之20的收益。所以我认为,随着地球资源变得越来越紧张,太空数据中心最终可能会带来10倍的增长收益。但这不会在这个十年内实现。

功率密度与冷却技术的挑战

Dwarkesh: 我认为仅仅为了建立对地球土地资源规模的直观认知——显然,芯片本身,特别是如果我们进入一个每个机架功率达到兆瓦级世界的话,这甚至都不是一个随机因素。

Dylan Patel: 这也是另一回事,关于功率密度,如果芯片和制造是制约因素的话,目前大约是每平方毫米1瓦。

Dwarkesh: 是的。

Dylan Patel: 针对AI芯片等产品。一种简单的方法是将其提升至每平方毫米2瓦特。当然,你可能无法获得2倍的性能提升。你可能只会获得20%的性能提升,而这需要更特殊的冷却方式,它需要更复杂的冷板和非常复杂的液冷系统,或者可能需要诸如浸没式冷却之类的技术,但在太空中,实现更高的每平方毫米瓦特数非常困难,而在地球上,这些问题都已经得到解决。而其中一项改进能让你获得更多的tokens。

Dwarkesh: 也许每片制造出的晶圆能多获得20%的tokens。

Dylan Patel: 这在产量上是一个巨大的提升。

Dwarkesh: 所以,你说的毫米是指晶圆面积(die area)吗?

Dylan Patel: 是指晶圆面积。指晶圆的平方毫米面积。

Dwarkesh: 这对空间利用更好,因为如果你能让每毫米运行更多的瓦特,芯片就会运行得更热,而芯片越热……我想这是一个计算机芯片工程的问题。但根据 Stefan-Boltzmann law,冷却效果与温度的四次方成正比。所以如果你能运行一个非常热的芯片,因为它有很大的提升空间。你无法让它运行得更热。

Dylan Patel:  你只能增加它的密度。问题在于,要从如此高密度的区域导出热量,意味着你必须放弃标准的液体冷却方式。 从风冷和液冷转向更先进的液冷形式,甚至是浸没式冷却,以达到更高的功率密度。而在太空中,这比在地球上要困难得多。是的。

横向扩展域与参数扩展之谜

Dwarkesh: 也许现在有必要解释一下什么是横向扩展(scale-up),以及它在 Nvidia、Traneum 和 TPU 之间分别是什么样子的。所以我刚才提到芯片内部的通信速度是非常快的。

Dylan Patel: 位于同一机架内的芯片间通信速度很快,但仍有极限。其量级在TB级别。而远距离通信则在GB级别,即几百GB的量级,因此,随着距离增加,即计算跨越地理范围甚至全国时,通信速度会衰减至每秒几GB的量级。扩展域指的是这种紧密耦合的区域,芯片在此区域内能以每秒TB级的速度进行通信。对于Nvidia而言,此前这意味着一台H-100服务器拥有8个GPU,且这8个GPU能通过NVLink以每秒TB级的速度相互通信。而NVL72实现了机架级的扩展。这意味着机架内的全部72个GPU都能以每秒TB级的速度相互连接。这不仅实现了代际间速度翻倍,其最重要的创新还在于将该域内的节点数从8个提升到了72个。
当我们审视Google时,会发现其扩展域完全不同,这始终是数千量级的。在 TPUV4 上,他们拥有规模为 4000 个芯片的 pod。到了 V8 或者 V7,他们拥有 7000,抱歉,应该是 8000 到 9000 这一量级的 pod。此处相关的一点是,这与 NVIDIA 的情况不同,二者并非完全对等。Google 采用的是一种环面拓扑结构,因此,每个芯片连接六个相邻节点。而不像 NVIDIA,其 72 个 GPU 是全互联的,因此它们(NVIDIA)之间每秒可以传输数 TB 的数据到该扩展应用 pod 中的任意其他芯片,而 Google 的架构则需要通过芯片中转。这意味着如果 TPU1 需要与 TPU76 通信,它必须经过多个芯片的中转。而在进行这种操作时,总会产生一定的资源阻塞。所以,因为那一个 TPU 只连接了其他 6 个 TPU。因此在拓扑结构和带宽上存在差异,且两者各有权衡和优势,Google 能够拥有一个大规模的横向扩展域。但随之而来的权衡是,你必须在芯片间跳转才能从一个芯片到达另一个芯片。你只能与 6 个直接相邻的节点通信。所以存在这样的权衡。
而 Amazon 则改变了他们的横向扩展域。实际上,他们处于 NVIDIA 和 Google 之间,试图构建更大的横向扩展域。他们在一定程度上尝试实现全互联,即使用交换机,这也是 NVIDIA 的做法;但同时,他们在一定程度上也使用了像 Google 那样的环面拓扑结构。 随着我们向下一代发展,这三者都在越来越多地向 Dragonfly 拓扑结构靠拢,这意味着其中既包含部分全互联元素,也包含部分非全互联元素。 这样你既可以将扩展规模提升至数百或数千个芯片,又能在芯片间跳转时避免资源争用。

Dwarkesh: 相关问题。我听到有人声称,参数扩展缓慢的原因,以及直到现在我们才看到 OpenAI 和 Anthropic 推出越来越大的模型,是因为最初的 GPT-4 拥有超过一万亿个参数。直到现在,模型才开始再次接近这一规模。我还听过一种理论。其原因是 NVIDIA 的纵向扩展一直没有足够的内存容量。那么,这个说法具体是指什么?假设你有一个运行在 FP8 下的 5T 模型。那么就是五万亿字节。没错。然后你还有 KV cache。假设它的大小是一样的,假设对于一个批次来说它是一样大的。好的,假设它的大小是一样的。所以你需要 10 GB,抱歉,是 10 TB。才能运行起来。

Dylan Patel: 单次前向传播,没错。

Dwarkesh: 而且只有在 GB200 和 NVL72 的配置下,你才拥有具备 20 TB 容量的 NVIDIA 扩展系统,在此之前它们的规模要小得多。反观 Google,他们拥有那些巨大的 TPU pods,虽然并非全互联架构,但我认为其单次扩展的容量依然高达数百 TB。那么这是否解释了为什么参数扩展速度一直很慢?

Dylan Patel: 我认为部分原因是容量和带宽限制,但同样地,当你构建一个更大的模型时,部署它的能力也会变慢,比如在最终用户的推理速度方面。这其实并不重要。 真正重要的是 RL。在这些模型和实验室计算资源分配上,我们所观察到的是,分配计算资源的方式主要有几种。你可以将其分配给推理,即你可以将其分配给开发,即构建下一个模型,你也可以将其分配给研究。 而在开发方面,具体来说,你可以将其分摊到预训练和RL之间,那么当你思考时,到底发生了什么?
嗯, 模型方面,你从研究中获得的计算效率提升是非常巨大的。 事实上,你希望将大部分计算资源投入到研究中,而不是用于开发。因为,所有这些研究人员都在不断产生新想法、进行尝试、测试,并持续推进,将缩放定律的帕累托最优曲线推得越来越远。至少根据我们的经验观察,模型成本每年降低 10 倍甚至更多,这意味着在相同的规模下成本降低了 10 倍。或者要达到新的前沿领域,所花费的成本是相同甚至更多的,所以你不想进行训练,不想在预训练和基于强化学习的后期处理(post-en an RL)上分配过多资源。你实际上是想把大部分资源用于研究。
而在中间阶段,则是一种类似于开发周期的过程。如果你预训练了一个五万亿参数的模型,现在你必须花费所有这些时间,在这些强化学习(RL)中你需要进行多少次部署(rollouts)?而对于万亿参数模型与五万亿参数模型而言,这些部署的规模是五倍。五倍之大,这意味着如果你想进行同样数量的部署,也许更大的模型样本效率更高。假设它的样本效率是两倍。现在你需要两点五倍的强化学习时间来让模型变得更聪明。
或者你可以让较小的模型进行两倍时间的强化学习,你仍然会拥有50%的性能,或者你仍然会发现大模型有25%的差距,大模型的样本效率是两倍并且进行了X数量的部署,而小模型参数为一万亿,尽管样本效率较低,但在进行两倍数量的部署后,它完成的速度依然更快。所以你能更快、更早地得到模型,并且已经完成了更多的强化学习,然后你可以利用该模型来帮助你构建后续模型,辅助你的工程师进行训练,并实施所有这些研究构想。
因此,这个反馈循环实际上更倾向于较小的模型。在任何情况下,无论你的硬件配置如何。当你审视 Google 时,Google 确实部署了所有主要实验室中规模最大的生产模型,即 Gemini Pro。它是一个比 GPT-5-4 更大的模型。它比 Opus 规模更大。因此你会发现,Google 之所以这样做,是因为他们拥有单极化的计算资源,几乎全是 TPU。而 Anthropic 则需要应对 H-100、H-200、Blackwell、Trainium 以及各种代际的 TPU,OpenAI 目前主要使用 NVIDIA,但也正趋向于同时引入 AMD 和 Trainium。像 Google 这样的计算集群,能够围绕更大的模型进行优化,并利用大规模域中的 1,000 个芯片来显著提升 RL 速度,从而确保反馈循环能够高效运行。
但归根结底,在独立场景下,你几乎总是希望选择一个能更快完成 RL 并投入研发的小型模型。这样你就能构建下一个项目并获得更高的计算效率收益。 随后这种复合效应体现为:我制作了一个更小的模型,对其进行了更多的 RL,并更早地将其投入到研发中;由于我节省了训练本身的计算开销,我便能将更多的算力分配给研究工作。这种能够以越来越快的速度进行研究的复合效应,可能预示着更快的技术起飞。而这正是这些公司尽可能追求快速起飞所想要的一切。

数据、对冲基金与 AGI 信仰

Dwarkesh: 一个尖锐的问题。你在解释,你让 SemiAnalysis 售卖这些电子表格,你总是说,六个月前或一年前,我们就告诉过人们内存紧缺,现在你又在告诉人们洁净室紧缺,然后未来是工具紧缺。为什么 Leopold 是唯一一个使用你们的电子表格赚取巨额利润的人?其他人都在做什么?

Dylan Patel: 我认为有很多人正以各种方式赚钱。很明显 Leopold 是这样。Leopold 开玩笑说,他是我的客户中唯一一个告诉我我们的预估数据太低的人。其他所有人都在告诉我我们的预估数据太高了。几乎到了令人厌烦的地步。无论是 hyperscaler 在说,那家其他的 hyperscaler。他们的数字太高了,而我们的态度就是:不,就这样了。他们却说:不、不、不、不,这不可能,巴拉巴拉之类的。然后当你与 hyperscalers 或 AI labs 合作时,最终不得不通过所有这些事实和数据来说服他们,实际上,那个数字并不高。确实如此。
但最终,有时他们需要六个月甚至一年后才能意识到这一点。我想其他客户,比如在交易领域也使用我们的数据,我们向很多客户出售数据,我认为我的业务中大约 60% 是来自工业领域。比如 AI labs、数据、数据中心公司。hyperscalers、半导体公司,整个 AI 基础设施的供应链。但我们大约 40% 的收入来自对冲基金,而且,我不会评论我们的客户是谁,但我认为很多人都在使用这些数据。关键在于你如何解读它?还有,你认为什么是超越这一点的?我不得不说,Leopold 几乎是唯一一个总是告诉我数据偏低的人。有时他估得太高了。有时我估得太低了,但总的来说,我认为其他人也在做同样的事情。你可以检查某些数据,可以在整个领域观察对冲基金,查看它们的 13 F 报告,就会发现他们持有的资产其实可能与 Leopold 的并不完全一致。
因为这始终是一个关于什么才是最受限因素的问题。什么是那件最超出预期的事情?这正是你真正想要利用的市场低效之处。 从某种意义上说,我们的数据表明,通过提供关于正在发生之事的底层基础数据,可以让市场变得更加高效。相较于其他方式更加准确,但我认为许多基金确实是基于现有的信息进行交易的。而且我不认为 Leopold 是唯一一个这样的人。但我认为他是对于整个,或者说对于整个 AGI 的起飞最有信念的人。

Dwarkesh: 这些赌注并不是关于 2035 年会发生什么。你所做的这些赌注,至少从我们可以看到的包括 Leopold 在内的不同基金的公开回报率中可以看出,是关于已经发生过的事情。去年的情况,以及去年的那些事,都是可以使用你的电子表格预测出来的,所以,与其说是关于什么,不如说是关于买入未来一年的电子表格。

Dylan Patel: 它们不仅仅是电子表格。还有报告,以及对数据的 API 访问。这里有大量的数据。

Dwarkesh: 你明白我的意思吗?这并不是指某种疯狂的奇点事件。这更多是关于,你相信存在内存紧缺吗?

Dylan Patel:  一个简单的逻辑是,只有当你相信 AI 将会以某种巨大的方式腾飞时,你才会相信存在内存紧缺。 关于内存紧缺,其中很大一部分预设前提是,至少对于像湾区那些考虑基础设施的人来说,这是显而易见的。随着上下文窗口的扩大,KV cache 会激增,因此你需要更多的内存;然后你需要进行计算,并且还必须对供应链有深入了解,比如正在建造哪些晶圆厂、正在建造哪些数据中心、需要多少芯片以及所有这些相关事项。因此,我们非常紧密地跟踪所有这些不同的数据集。但归根结底,这需要有人完全相信事情会朝着这个方向发展。比如我认为一年前,如果你告诉别人存储器价格会翻四倍,而智能手机销量会下降40%。在那之后的一两年里,人们会觉得你疯了。那种情况从未发生过。但还是有少数人相信这一点。而这些人确实进行了存储器交易,人们确实参与了。我不认为 Leopold 是唯一一个购买存储器相关公司股票的人。我认为有很多人都在购买存储器相关公司。他当然在规模布局和处事方式上比一些人,甚至大多数人都要做得更好,我不想评价具体是谁的收益或是什么情况。但他确实做得很好。但其他人也做得非常出色。哇,我正试着表现得这样,哇,你让我有生以来第一次变得这么圆滑了。

Dwarkesh: 你表现得很好。我觉得这太搞笑了,你看,我正在扮演外交家的角色,而平时我的风格通常都很辛辣。

快速问答:Apple、华为与 2 纳米竞争

Dwarkesh: 或许来一轮快速问答作为收尾。如果说内存逻辑等领域中,N3工艺主要用于AI加速器,而N2工艺目前则主要由Apple使用,那么TSMC能做到这一点吗?未来,我想AI也希望采用N2工艺。如果NVIDIA、Amazon和Google提出要支付高额费用来争抢N2产能,TSMC会把Apple挤掉吗?

Dylan Patel: 我认为其中的挑战在于芯片设计周期非常漫长。所以这通常需要一年以上的时间。而目前处于2纳米工艺的设计至少还需要一年多才能投产。实际发生的情况是,Nvidia和其他公司会提出预付产能费用。并要求TSMC为他们进行产能扩张。届时Apple会参与其中,也许TSMC会获取一点利润,但不会太多,他们不会完全把Apple踢出局。他们会采取的做法是:当Apple下单X时,他们可能会说,我们预计你们实际只需要Y或者X减去1。所以我们要给你的就是 X 减 1。而在那种弹性产能上,Apple 有点被套住了。尽管传统上,Apple 总是在一年内多订约 10%,然后再削减 10%。有些年份,他们会刚好用掉那 10% 的余量。业务量总是在波动,基于季节性和宏观经济因素。所以我认为 TSM 不会把 Apple 踢出去。 我认为 Apple 在 TSM 营收中的占比会变得越来越小,因此 TSM 也就没那么有必要去迎合他们的需求了。 TSM 最终可能会开始要求他们:你们得提前两年预订明年的产能了。而且你必须预付 CAPEX,因为 Nvidia、Amazon 和 Google 都是这么做的。

Dwarkesh: 我想知道是否有必要列出具体数字,我手头没有关于到底有多少份额是留给 N2 的数据。或者未来几年 Apple 掌握的 N2 产能占比会如何,对比 AI 方面的需求?今年 Apple 占据了大部分将要进行晶圆制造的 N2 产能。

Dylan Patel: AMD 有少量份额。他们正试图尽早制造一些 AI 芯片和 CPU 芯片。只有少量。但大部分产能还是 Apple 的。随着我们进入下一年,当其他人开始扩大产能时,Apple 的占比依然会接近一半左右。但随后占比会急剧下降,就像 N3 那样。是一半,我们拭目以待。当我提到 N2 时,这包含了作为 N2 变体的 A16。随着时间推移,这些制程节点将占据绝大部分份额。同样有趣的是,传统上 Apple 一直是首个采用先进制程节点的厂商。实际上,这还是首次在 2 纳米节点上 Apple 没能做到第一,当然,Huawei 除外,Huawei 在 2020 年及之前曾与 Apple 并列第一,但那时他们都在制造智能手机。现在在 2 纳米节点上,AMD 正试图制造一款 CPU 和 GPU 小芯片(chiplet),并利用先进封装技术在与 Apple 相同的时间框架内将其整合。对于 AMD 而言,这是一个巨大的风险,可能会导致潜在的延迟,因为这是一项全新的制程技术。这很难。
但归根结底,这是一场他们为了实现比 NVIDIA 更快的规模化并试图超越对方而进行的豪赌。随着我们向前发展,实际上,当我们迈向 A16 节点时,那里的第一位客户甚至不是 Apple,而是 AI。随着我们的推进,这种情况会变得越来越普遍。Apple 不仅不会是第一个采用新节点的客户,也不会是新节点产量的主要贡献者。到时候,他们就和任何普通客户没什么两样了。 由于 TSMC 的资本支出规模不断膨胀,而 Apple 的业务增长速度却未能跟上,因此 Apple 作为其客户的重要性正变得越来越低。 同时,他们也会削减订单,因为供应链中的各个环节都在挤压他们的成本,无论是封装、材料、DRAM 还是 NAND。这些环节的成本都在增加。他们很可能无法将所有成本转嫁给消费者,因为消费者的购买力并没有那么强。最终导致了一个困境:他们不再是像历史上那样,作为 TSM 最亲密的合作伙伴与 Apple 维持那种关系了。

Dwarkesh: 你认为如果 Huawei 能够获得 3 纳米工艺,他们是否会拥有比 Ruben 更出色的加速器?有可能,是的。

Dylan Patel: 我认为 Huawei 在 7 纳米 AI 芯片方面也是先行者。他们不仅是首个推出 5 纳米移动芯片的公司,也是首个推出 7 纳米 AI 芯片的公司。Huawei Ascend 的发布时间大约比 TPU 早两个月,比 NVIDIA 的——我想应该是 V100 还是 A100?应该是 A100——早了大约四个月。所以,这仅仅是向一种工艺的演进。这并不意味着软件方面也能达到同样水平。这并不意味着硬件设计,以及所有这些其他方面。但可以说, Huawei 是世界上唯一一家各个环节都具备的公司,Huawei 拥有顶尖的软件工程师。Huawei 拥有顶尖的网络技术。事实上,这在历史上是他们最大的业务,而且他们在 AI 和人才方面也取得了突破。
此外,超越 NVIDIA 的不仅是这些,他们实际上拥有更优秀的 AI 研究人员,而且超越 NVIDIA 的是,他们拥有自己的晶圆厂。更进一步超越 NVIDIA 的是,他们拥有自己的终端市场,可以销售 Token 之类的产品。Huawei 的倾向是,他们能够招揽到最顶尖、最卓越的人才。NVIDIA 也能做到,但没有达到如此高的集中度。而且 Huawei 在中国拥有更大的资源池。非常有争议的一点是,如果 Huawei 能获得 TSMC 的支持,他们可能会比 NVIDIA 更强大。此外,在一些 NVIDIA 不太容易触及的领域,中国确实具备优势,这不仅体现在规模上,还包括某些光学技术,中国在这些方面其实非常擅长。因此,我认为非常合理的一个推测是,如果 2019 年 Huawei 没有被禁止使用 TSMC,那么 Huawei 当时就已经超过 Apple 成为 TSMC 最大的客户了。而且 Huawei 在网络、计算、CPU 以及所有这些领域都拥有巨大的份额,他们本会持续扩大领先优势,很可能成为 TSMC 的最大客户。这太疯狂了。

人形机器人与计算的集中化

Dwarkesh: 我最后想问你一个比较随机的问题。Elon 采访的另一部分内容是关于机器人的。那么,如果人形机器人(humanoids)的发展速度超乎预期,到 2030 年有数百万台人形机器人投入使用,且每一台都需要本地计算能力,你认为这意味着什么?为此需要满足哪些条件?

Dylan Patel: 这其中存在很多困难。比如 VLM 以及人们正在机器人上部署的所有这些技术,即 VLA。但在某种程度上,你并不需要让机器人具备所有的智能。这样做效率会更高,不是吗?因为在服务器和云端,你可以进行批量处理以及诸如此类的操作。所以你可能想要做的是:许多规划和长视距任务由云端能力更强的模型在极高的批处理量下决定。然后它将指令推送给机器人,机器人再在后续的每个动作之间进行插值,或者接收类似“拿起那个杯子”的指令,接着机器人上的模型就能拿起那个杯子。就像在拿起物体的过程中,它会感知到重量和力度等因素可能需要由机器人上的模型来确定,但并不是所有事情都需要像“去操作机器人”这样。或者像“那是副耳机”。实际上,我是云端的超级模型。我知道这些耳机是 Sony XM6s,虽然这并不是一个植入式广告。

Dwarkesh: 我当时就在想,这家伙为什么这么卖力地推销这个东西?它就放在桌子上。当我们一起进入 Studio 时,它就挂在他的脖子上。

Dylan Patel: 我就想,他是不是收了 Sony 的钱?很遗憾没有。它可能会说,头带很柔软。以及它的重量和所有这些参数。然后机器人上的模型可以不必那么智能,只需接收这些输入并执行动作即可。它可能会每秒钟,或者每秒10次,从云端模型那里接收指令。这取决于动作的频率。但其中很多工作可以卸载到云端,否则,如果你在设备端完成所有处理,我认为成本会更高,因为你无法进行批量处理。第二,你在设备端无法拥有像云端那样强大的智能,因为云端的模型体量会大得多。第三,我们正处于半导体短缺的世界,任何你部署的机器人都需要尖端芯片,因为机器人对功耗的要求非常严苛,你需要它保持低功耗且高效。 突然之间,你占用了本应用于 AI 数据中心的电力和芯片,转而把它们用在机器人身上。所以,如果你部署数百万台人形机器人,那么那 200 吉瓦的电力需求就会变得更紧张。

Dwarkesh: 我认为这一点非常有趣,因为人们可能没有意识到未来智能在物理意义上会是多么集中。就人类而言,目前我们的计算能力,即 80 亿人的计算能力,是存在于我们的头脑中,存在于我们个人身上的。而在未来, 即使是有物理形态的机器人出现在现实世界中,显然知识性工作也会通过数据中心以集中化的方式完成,这些数据中心拥有成百上千,甚至数百万个实例。 但即便对于机器人技术而言,你所预见的未来也是一种更趋向于集中式思考和集中式计算的形态,这种形态驱动着世界上数百万台机器人运行。所以我认为,关于未来有一个很有趣的事实,大家可能还没有意识到。

Dylan Patel: 我认为 Elon 意识到了这一点,这就是为什么他要为他的芯片寻找不同的供应渠道,他与 Samsung 签署了一项大规模协议,在德克萨斯州生产他的机器人芯片。因为他认为,我个人觉得他认为,Taiwan 的风险巨大。正因如此,考虑到资源在 Taiwan 的集中度,他在德克萨斯州拥有机器人芯片,同时也拥有一个独立的供应链,不会受到像在 Taiwan 那样的限制。毕竟除了 Nvidia 即将发布的新款 LPU 之外,真的没人在 Samsung 生产 AI 芯片。他们下周要发布了,但我们是在发布前的一周录制的。

Dwarkesh: 本周就会发布。这一集会在周五播出。这一集播出时间会更早。

Dylan Patel: 太酷了。所以他们要发布这款新的 AI 芯片。下周要发布,它是基于 Samsung 代工的,但这算是 Nvidia 最近的动态。除此之外,那里的 AI 需求只有这一项,而在 TSM,所有产品都在激烈竞争。所以, 他不仅实现了地缘政治上的多元化,也为他的机器人实现了供应链的多元化。而且他并没有与数据中心天才们那种无限的支付意愿进行那么激烈的竞争。

地缘政治风险:台湾芯片的“衔尾蛇”悖论

Dwarkesh: 最后一个问题。关于 Taiwan。如果我们认为工具是最终的瓶颈。如果情况到了某种地步,比如被封锁之类的,仅仅通过制定一个计划将 TSMC 的每一位工艺工程师空运出来,能在多大程度上降低 Taiwan 在 AI 半导体供应链中的风险?还是说你实际上仍然需要运出 EUV 工具?但这每一台工具都需要好几飞机的运量,这在现实中可行吗?

Dylan Patel: 如果你把所有工艺工程师都运走了,且假设局势严峻到必须摧毁晶圆厂,那么现在 Taiwan 的所有晶圆厂就无人掌控了,这可是个巨大的风险,这些工具本身就使用了大量在 Taiwan 制造的半导体, 所以这就像是一种“衔尾蛇”式的悖论:因为没有 Taiwan 生产的芯片就造不出工具,而没有 Taiwan 的工具你就无法使用这些芯片。 尽管在某些环节存在多样化布局,而且光刻工具本身并不使用超先进制程的芯片,但归根结底,确实存在某种程度的“衔尾蛇”困境。

Dwarkesh: 仅仅把所有工程师运走并炸毁晶圆厂,就意味着 中国 将拥有比世界其他地区更强大的半导体供应链,在垂直整合方面,既然你们已经排除了台湾,并且现在掌握了所有的专有技术,但你们必须在亚利桑那州或其他地方为 TSMC 复制这一切,而要建立起 TSMC 多年来积累的所有产能,将需要很长时间。

Dylan Patel:  因此,你们极大地拖慢了美国以及全球的 GDP,不仅仅是增长放缓,你们还让 GDP 出现了大规模萎缩,这将导致更大的问题,而且你们增加算力的边际能力几乎归零 ,假设到本十年末发生某些针对台湾的情况,原本每年新增数百吉瓦的产能,现在 Intel 和 Samsung 加起来可能只有 10 吉瓦或 20 吉瓦。这简直微不足道。

Dwarkesh: 现在你们突然间在 AI 领域引发了一些疯狂的动态变化。当然,你们拥有所有现有的产能,但这些现有产能与正在扩张的产能相比,简直相形见绌。好的,Dylan,非常精彩。非常感谢你参加这次播客。

Dylan Patel: 谢谢邀请。