SemiAnalysis的这个报告已经出来两天,但周末一直比较忙,只能拖到今天才来写了。这篇TPU分析报告引起的争议是不小的,下面我们结合报告内容,再加上自己的分析,来看下这个报告的内容,后面还会给出国内谷歌的链的更新情况。
首先说一下国内外的一个通病,就是拉一踩一,最近谷歌链火了,在提谷歌的时候就非要踩一下英伟达。这是完全没有必要的,英伟达现在依然是绝对的老大,CUDA依然是很强的护城河。
TPU的技术表现已明确引发竞争对手的高度关注,奥特曼公开表示,由于谷歌Gemini模型的强势表现抢占了行业焦点,OpenAI正面临阶段性挑战。英伟达也发布公关声明以稳定市场预期,强调其在该领域仍保持领先优势。
近几个月来,谷歌DeepMind、谷歌云(GCP)与TPU形成的技术生态协同效应显著,实现了多项关键进展:TPU产能规划大幅上调,Anthropic宣布部署规模超1GW的TPU计算集群,Gemini 3、Opus 4.5等具备业界领先水平的模型均基于TPU完成训练,且Meta、SSI、xAI、OpenAI等头部机构已陆续加入TPU采购队列,客户清单持续扩容。
与此同时,以英伟达GPU为核心的供应链则面临市场份额分流压力。首先是很多人认为,英伟达通过投资现金流紧张的AI初创企业,人为构建了“循环经济”模式,本质上是通过复杂流程实现资金的内部转移。该观点虽存在认知偏差,但已明显触动英伟达的核心利益,而英伟达也给出了下面的回应。
NV回应的翻译:
首先,英伟达的战略投资在其营收中占比极小,相较于全球私募资本市场每年约 1 万亿美元的融资规模,这一占比更是微乎其微。2024 财年第三季度及前三季度,英伟达对私营企业的投资额分别为 37 亿美元和 47 亿美元,占同期营收的比例仅为 7% 和 3%。此外,英伟达战略投资组合中的企业主要通过第三方融资机构筹集资金,而非依赖英伟达自身。
其次,英伟达在战略投资方面保持完全透明:相关投资在资产负债表中列示为长期资产及有价证券,在利润表中计入其他收入与支出,并在现金流量表中反映为投资活动现金流量。
第三,英伟达战略投资组合中的企业营收正快速增长,这既表明其盈利路径清晰,也反映出市场对人工智能应用的潜在需求强劲。值得注意的是,这些企业的营收主要来自第三方客户,而非英伟达内部。
SA认为,更符合商业逻辑的解释是:英伟达为巩固其在头部AI实验室的核心供应商地位,选择以股权投资为核心策略,而非采取降价措施;后者将直接导致毛利率下滑,并引发投资者恐慌。
即便OpenAI尚未实际部署TPU,其已通过该技术的潜在替代效应,使整个实验室的英伟达GPU集群成本降低了约30%。这一案例充分印证了TPU在“性能-总拥有成本(TCO)”维度的显著优势,即便未实际启用,仅通过释放采用意向即可实现供应链成本优化。
傅里叶的猫:这里的30%指的是 NVIDIA 为留住客户而降低 GPU 相关定价、提供折扣或优化合作条款,我是没有想到NV会优惠的,因为按照前几天财报会上的说法,云端GPU已全面售罄,说明NV产品现在依然是供不应求,那就不应该降价才对。
与Anthropic的合作
长期以来,TPU技术栈的性能已能与英伟达AI硬件相抗衡,但此前主要服务于谷歌内部业务负载。延续谷歌的典型策略,即便2018年已通过谷歌云(GCP)向客户开放TPU使用权限,其始终未推动该技术的全面商业化。这一局面正迎来根本性转变。
近几个月,谷歌已调动全技术栈资源,通过两大路径向外部客户开放TPU能力:一是依托GCP提供云端服务,二是以商业供应商身份直接销售完整TPU系统。这家搜索巨头正凭借自身强大的自研芯片设计能力,打造差异化云服务竞争力。与此同时,这一战略与头部客户Anthropic的需求高度契合——后者正持续推进供应链多元化,降低对英伟达的依赖。
谷歌云首席执行官托马斯·库里安在双方谈判中发挥了核心作用,为推动TPU应用突破谷歌内部业务边界,谷歌早期便在Anthropic的融资轮次中进行大额投资,甚至同意放弃投票权,并将持股比例上限设定为15%。这一合作策略的落地更得益于Anthropic团队的技术基础,该实验室中不乏前DeepMind的TPU技术人才,这使得Anthropic能够在包括TPU在内的多类硬件平台上完成Sonnet与Opus 4.5模型的训练。目前,谷歌已为Anthropic建成一座大型专用设施。
除通过GCP租用谷歌数据中心的TPU算力外,Anthropic还将在自有设施中部署TPU系统。这一合作模式标志着谷歌正式以硬件供应商的身份,与英伟达展开直接竞争。
双方约定的100万个TPU将分两阶段落地,具体规划及合作链路如下:
第一阶段:40万个TPUv7 Ironwood直供:此阶段合作涉及40万个TPUv7 Ironwood型号芯片,组装为成品机柜后的价值约100亿美元,将由博通直接供应给Anthropic。Anthropic也是博通最新财报电话会议中提及的第四大客户。针对物理服务器的管理工作,Anthropic选择外包给金牌级ClusterMax(这是SemiAnalysis自己搞的云服务商测评平台)云服务提供商Fluidstack,由其负责现场部署、布线、老化测试、验收测试及远程运维。而数据中心基础设施则由TeraWulf与Cipher Mining提供支持。 第二阶段:60万个TPUv7通过GCP租用:剩余60万个TPUv7将通过GCP以租赁形式提供给Anthropic。据SA估算,此部分合作对应的已签约订单(RPO)金额约420亿美元,占谷歌云第三季度披露的490亿美元未交付订单增量的绝大部分。
未来几个季度内,谷歌与Meta、OpenAI、SSI及xAI等机构的潜在合作,将为谷歌云带来更多已签约订单及直接硬件销售收入。
尽管面临来自内部业务及外部客户的双重旺盛需求,谷歌TPU的部署进度仍未达预期。相较于其他仍需极力维系与黄仁勋合作关系的超大规模科技公司,谷歌对自身硬件供应链的掌控力更强,但其TPU部署的核心瓶颈在于电力供应。
目前,其他超大规模科技公司已加速扩建自有数据中心,并锁定了大量托管机房资源,而谷歌在这一领域的推进相对迟缓。SA认为,核心症结在于合同与行政流程的制约:每新增一家数据中心供应商,谷歌均需与其签订主服务协议(MSA),这类协议涉及数十亿美元规模的多年期承诺,必然伴随复杂的行政流程。而谷歌内部流程尤为繁琐,从初步接洽到最终签署MSA,往往需要长达三年的时间。
为突破上述瓶颈,谷歌采取了一项具有产业影响力的变通策略:不再直接与数据中心供应商签订租赁协议,而是通过提供“信用担保”的方式介入, 即当Fluidstack无法支付数据中心租金时,谷歌将作为“表外欠条(IOU)”的承担方介入清偿。
以Fluidstack为代表的新兴云服务商(Neocloud)具备灵活敏捷的特点,能够更高效地与转型后的加密矿企等新型数据中心供应商开展合作。这一合作机制也正是我们长期看好加密矿业的核心逻辑,早在今年年初,当IREN、Applied Digital等企业股价处于低位时,SA便已重点提示其投资价值。
加密矿企的核心竞争优势源于行业基本面的契合:当前数据中心行业面临严峻的电力约束问题,而加密矿企已通过电力购买协议(PPA)及现有电力基础设施,锁定了大量稳定的电力资源。SA预计,未来数周及数月内,此类跨界合作协议将持续涌现。
傅里叶的猫:目前在GCP上用TPU的难度还相对较小,但Anthropic还将在自有设施中部署TPU系统,即便是有谷歌工程师的support,到时候也会有他们受的,调试时间会比较长。
在谷歌、Fluidstack与TeraWulf达成合作之前,新兴云市场从未出现过仅以表外“欠条(IOU)”形式参与的合作模式。而此次合作后,SA认为这种模式已成为该领域事实上的全新融资标准模板。这一创新直接解决了新兴云服务商在获取数据中心资源、拓展业务过程中的核心痛点:
GPU集群的经济使用寿命通常为4至5年; 大型数据中心租赁协议期限一般长达15年以上,投资回收期则约为8年。
这种期限错配问题,长期以来给新兴云服务商与数据中心供应商的项目融资带来巨大阻碍。但随着“超大规模科技公司信用担保”模式的兴起,SA认为融资难题已得到有效解决,新兴云行业有望迎来新一轮增长浪潮。
此外,值得注意的是,那些有黄仁勋参与投资的新兴云服务商——如CoreWeave、Nebius、Crusoe、Together、Lambda、Firmus及Nscale等,存在显著的技术选择倾向:其数据中心会刻意规避所有竞争技术,TPU、AMD GPU乃至Arista交换机均在受限范围内。这一市场空白,恰好为“加密矿企+Fluidstack”的组合创造了机遇,使其得以填补TPU托管领域的供给缺口,成为专注于TPU服务的新兴云服务商。未来数月,预计将有更多新兴云服务商面临艰难抉择:是抓住TPU托管这一增长机遇,还是争取获得英伟达最新款Rubin系统的配额。
TPUv7 Ironwood——为何Anthropic等客户对其趋之若鹜?
TPUv7 Ironwood不仅具备性能强劲的芯片,更依托于完善的系统架构,二者结合为Anthropic等客户带来了极具竞争力的性能表现与总拥有成本(TCO)优势。Anthropic大规模采购TPU的举动,正是对该平台技术实力的直接认可。与此同时,英伟达的GPU生态也在向系统级方向加速演进:其GB200系列芯片堪称重大技术突破,推动英伟达从单纯的芯片供应商向具备完整服务器设计能力的“系统级企业”转型。
在探讨GB200在机架级互联领域的创新时,有一个易被忽视的关键点:早在2017年TPU v2版本推出时,谷歌就已实现TPU在机架内部及跨机架的规模化部署能力。
谷歌近期发布的Gemini 3模型,已被公认为当前前沿大型语言模型的标杆。与所有早期版本的Gemini一样,该模型的训练全程基于TPU完成,这一成果为TPU的性能优势及谷歌整体基础设施的竞争力提供了坚实佐证。
当前行业关注点多集中于推理及训练后阶段的硬件需求,但前沿模型的预训练仍是AI硬件领域难度最高、资源消耗最大的核心挑战,TPU平台已成功攻克这一难关。这与竞争对手形成了鲜明对比:自2024年5月发布GPT-4o以来,OpenAI的核心研发团队尚未成功完成新一代前沿模型的全规模预训练工作,这一现状从侧面凸显了谷歌TPU集群所克服的技术障碍之艰巨。
Gemini 3的核心亮点之一,是其在工具调用与智能体能力上的显著提升,尤其在长周期、高经济价值任务中表现突出。Vending Bench评估体系通过模拟自动售货机企业运营场景,测试模型的长期经营决策能力,而Gemini 3在该评估中表现远超同类产品。
此次Gemini 3的发布不仅带来了模型能力的升级,更催生了全新产品。Antigravity便是其中之一,谷歌通过收购前Windsurf首席执行官Varun Mohan及其团队将其纳入麾下,该产品作为谷歌对标OpenAI Codex的解决方案,标志着Gemini正式入局高算力消耗的代码生成领域竞争。
对于一家核心业务并非硬件领域的企业而言,谷歌能悄然发力并在AI硬件最具挑战性的赛道中建立性能优势,无疑是一项令人瞩目的成就。
微架构仍具核心价值
“系统架构比微架构更重要”这一观点的推论是:尽管谷歌长期在系统与网络设计领域突破边界,但TPU芯片本身的微架构创新曾相对有限。不过近年来,随着新一代产品的迭代,TPU的芯片性能已实现跨越式提升。
从设计理念来看,谷歌在芯片层面一直比英伟达更为保守。历史数据显示,同代TPU的峰值理论浮点运算(FLOPs)与内存规格,均显著低于英伟达同期旗舰GPU。这一差异源于三方面核心原因:
可靠性优先的基础设施策略:谷歌内部对基础设施的“RAS特性”(可靠性、可用性、可维护性)高度重视,宁愿牺牲部分绝对性能以换取更高的硬件运行时间。将硬件性能推至极限虽能提升参数表现,但会显著增加硬件故障概率,而系统停机时间与备用硬件投入将直接推高总拥有成本(TCO),毕竟无法使用的硬件,其“性能-TCO比”实则为无穷大。 早期工作负载的特性差异:2023年之前,谷歌的核心AI工作负载是支撑搜索与广告业务的推荐系统模型(RecSys)。这类工作负载的算术强度远低于大型语言模型,意味着数据传输过程中所需的浮点运算量相对更少,无需追求极致的芯片算力。 性能参数的市场定位差异:英伟达、AMD等商业GPU供应商需通过营销峰值理论性能参数吸引客户,因此存在将FLOPs数值最大化的激励;而TPU长期以内部使用为主,无需通过虚高参数对外宣传。
随着LLM时代来临,谷歌的TPU设计理念已发生明显转变,这一点在LLM浪潮后推出的两代产品中体现得尤为显著:TPUv6 Trillium(代号Ghostlite)与TPUv7 Ironwood(代号Ghostfish)均针对大模型需求完成了架构优化。从性能对比来看,TPUv4与v5的计算吞吐量远低于同期英伟达旗舰产品;TPUv6的FLOPs性能已接近H100/H200,但发布时间比H100晚两年;而TPUv7的性能差距进一步缩小,不仅发布时间仅比竞品晚数季度,峰值理论FLOPs也已基本持平。
TPU性能跃升的背后,既有发布策略的调整(从“下一代部署后才官宣上一代”改为“量产阶段即对外披露”),更有核心架构的升级。以TPUv6 Trillium为例,其与TPUv5p采用相同的N5工艺及相近的芯片面积,但通过架构优化实现了峰值理论FLOPs翻倍,同时能耗显著降低。关键创新在于谷歌将每个脉动阵列的规模从128×128提升至256×256,算力提升即源于这一阵列扩容。
值得注意的是,Trillium作为最后一款“E系列”(精简版)产品,仅配备2组HBM3内存。尽管其算力已接近英伟达Hopper架构,但内存容量与带宽仍大幅落后,H100/H200分别配备5组HBM3与6组HBM3E内存,这使得新手用户难以高效使用Trillium。不过对于能够合理拆分模型、充分利用低成本算力的专业团队而言,Trillium的“性能-TCO比”至今仍无可替代。
作为迭代产品,TPUv7 Ironwood在FLOPs、内存及带宽三大核心指标上,已基本追平英伟达同期旗舰GPU,仅正式发布时间比Blackwell晚一年。与GB200相比,Ironwood的FLOPs与内存带宽仅略有差距,内存容量则通过8堆叠HBM3E实现持平;当然,相较于配备12堆叠HBM3E(288GB)的GB300,其内存容量仍存在明显短板。
然而,理论绝对性能仅是参考指标,实际场景中的“性能-TCO比”才是核心竞争力。尽管谷歌通过博通采购TPU时需支付较高溢价,但该成本远低于英伟达全系统(含CPU、交换机、网卡、系统内存、布线及连接器)的利润率。从谷歌的采购视角来看,采用3D环面(3D Torus)架构的Ironwood芯片,其全配置TCO比GB200服务器低约44%。
这一成本优势足以覆盖其在峰值FLOPs与内存带宽上约10%的性能差距。而对于谷歌的外部客户而言,即便叠加谷歌的租赁溢价,TPUv7的每小时TCO仍比GB200低约30%,比GB300低约41%,这一数据也与Anthropic通过谷歌云采购TPU的定价逻辑相符。
傅里叶的猫:关于gemini 3 ,特意咨询过一个谷歌的工程师,他认为这次gemini 3的成功更多是由于谷歌的 modeling 人才以及infra 做得好,TPU并没有起到决定性作用,换句话说,即便是用了NV的卡,gemini 3依然会成功。
Anthropic 为何押注 TPU?
在 AI 算力领域,英伟达 GPU 长期以来都是多数顶尖实验室的首选。但近期 Anthropic 豪掷重金租用 60 万个谷歌 TPU,并计划后续接入更多 TPU 算力的动作。很多人疑惑,在 GPU 生态如此成熟的当下,Anthropic 为何要坚定押注 TPU?这背后其实藏着对算力效率与成本的深度考量,而非单纯的技术跟风。
要搞懂这个选择,首先得跳出一个认知误区,只看理论浮点运算能力(FLOPs)根本不够。理论峰值算力在现实场景中几乎很难达到,真正影响模型训练与推理效率的,是实际有效算力。而这一点,恰恰成了 TPU 突围的关键。
英伟达 GPU 的理论算力看似亮眼,但实际使用中会大打折扣。算上通信开销、内存延迟、功耗限制等因素,GPU 训练时的算力利用率通常只有 30% 左右。它能维持行业优势,核心靠的是 CUDA 生态壁垒和丰富的开源库,这些软件层面的优势能尽量缩小理论与实际算力的差距。但 TPU 正在打破这种平衡,尤其是对于 Anthropic 这类顶级团队来说。
TPU 曾因对外软件工具不完善,导致开箱即用的体验较差,但这对 Anthropic 来说完全不是问题。Anthropic 不仅手握强大的工程团队,还有一批前谷歌编译器专家,他们既吃透了 TPU 的技术架构,又对自家模型的底层逻辑了如指掌。通过定制内核等优化手段,Anthropic 能把 TPU 的潜力充分挖掘出来,实现远超普通用户的模型浮点运算利用率(MFU),进而拿到更划算的每 PFLOP 性价比。
更关键的是,英伟达等厂商的峰值算力存在明显的水分。这些厂商采用动态电压和频率缩放技术,芯片频率会随功耗和温度波动,却偏偏选用偶尔能达到的最高频率来计算理论算力。更有甚者,会用零填充张量做矩阵运算测试来美化数据,这种情况下晶体管无需切换状态,功耗极低,但现实中根本不会有这样的运算场景。实测数据也印证了这一点,即便用非真实负载做测试,Hopper GPU 的算力仅能达到峰值的 80%,最新的 Blackwell 也只有 70% 左右,AMD 的 MI300 系列更是仅在 50%-60% 之间。
而 TPU 的算力标注则实在得多,这让它的实际算力利用率反而能超过 Blackwell。从成本来看,这种优势更明显。站在谷歌的角度,TPU 只要达到 15% 的 MFU,就能和 30% 利用率的英伟达 GB300 打平成本。要是 Anthropic 能把 TPU 的 MFU 优化到 40%,每单位有效训练算力的成本能直接降低 62%。
即便算上谷歌的利润分成,Anthropic 租用 TPU 的成本约为每小时 1.6 美元,其成本优势依然惊人。按 40% 的 MFU 计算,Anthropic 使用 TPU 时,每有效 PFLOP 的总体拥有成本(TCO)比用 GB300 NVL72 低 52%。更值得一提的是,哪怕 TPU 的 MFU 降到 19%,其成本效益也能和英伟达系统持平,这意味着 Anthropic 即便面临一定性能波动,也不会亏掉算力性价比的优势。
除了算力成本,内存带宽这个容易被忽略的点,也让 TPU 加分不少。对于模型推理,尤其是带宽密集的解码环节,内存带宽的重要性不亚于算力。而 TPU 不仅每单位内存带宽的成本远低于 GB300,在处理 16MB - 64MB 这类小消息规模的数据时,内存带宽利用率甚至超过了 GPU。这种优势,能让模型在推理阶段的响应效率大幅提升。
Anthropic 的选择很快就体现出了价值。其推出的 Opus 4.5 不仅创下了 SWE - Bench 测试的新纪录,还直接给出了 67% 的 API 降价。这款模型的 token 效率极高,仅需 76% 的 tokens 就能达到 Sonnet 的最佳分数,用更少的成本就能提供更优的编码服务。而当前 Sonnet 占 Anthropic 的 token 使用量超 90%,Opus 4.5 的普及有望进一步提升其实际收益。
说到底,Anthropic 押注 TPU,从来不是一场冒险的豪赌,而是基于技术特性与商业成本的理性决策。它用自身的技术实力弥补了 TPU 的生态短板,又借助 TPU 的实在性能和成本优势,构建起了超越传统 GPU 方案的算力体系。这场合作或许也预示着,AI 算力的竞争焦点,正从单纯的理论性能比拼,转向更贴合实际需求的有效算力与成本控制的博弈。
在AI算力的商业化赛道上,谷歌正上演着一场精妙的“利润平衡术”。TPU不仅要为Anthropic这类旗舰客户提供具备竞争力的算力方案,更要为谷歌自身锁定可观的盈利空间。这场博弈的背后,藏着TPU生态与GPU市场截然不同的商业逻辑。
谷歌的核心挑战在于“走钢丝”:既要保证自身盈利,又不能让TPU定价失去对客户的吸引力。而Anthropic显然拿到了这场定价游戏的“特惠门票”。据测算,Anthropic获得的TPU租用价格,处于谷歌对外公开报价区间的下限。这种定价并非无的放矢,作为租用60万个TPU、并提前购买40万个TPU v7芯片的超级客户,Anthropic的价值远不止于巨额订单。它能为谷歌的TPU软硬件路线图提供极具价值的反馈,这种深度合作本身就值得谷歌让渡部分短期利益。
不过,谷歌的定价弹性并非无拘无束,一个关键的分利者是博通。作为TPU的联合设计者,博通在TPU芯片这一系统BOM最大组成部分上,赚取着高额利润。即便如此,谷歌仍有充足的利润空间可挖。这很大程度上得益于英伟达GPU市场的定价参照系,英伟达凭借GPU生态优势,能实现高达4倍的加价(对应约75%的毛利率),这种极高的行业利润天花板,为谷歌的TPU定价留下了充足的调整余地。
将TPU业务与其他大型GPU云服务交易对比,谷歌的盈利优势便一目了然。数据显示,TPU v7带来的EBIT(息税前利润)利润率,显著高于行业内多数大型GPU云交易,仅甲骨文云(OCI)与OpenAI的合作能勉强接近。即便扣除博通在芯片层面的利润分成,谷歌通过TPU实现的利润率和投资回报率,也远超竞争激烈、趋于同质化的GPU业务。
这正是TPU为谷歌云赋予的核心竞争力,让其在云服务提供商中形成真正的差异化优势。反观微软Azure等竞争对手,其自研ASIC的计划进展不顺,只能困在租用商用硬件的传统模式中,赚取相对平庸的回报。
说到底,谷歌的TPU盈利逻辑,是生态价值换利润空间的典范。通过绑定Anthropic这类顶级客户共建生态,既巩固了TPU的技术迭代优势,又依托差异化算力方案跳出GPU市场的价格内卷。在博通分利的客观限制下,仍能实现远超GPU业务的盈利水平,这恰恰印证了TPU作为谷歌AI战略核心资产的商业价值。
傅里叶的猫:Anthropic 使用TPU的一个很大优势是他们有很多前谷歌的编译器专家,但对于其他公司,想把TPU用起来,就没这么容易了,cuda依然是NV最大的护城河。
后面的章节是SemiAnalysis分析了TPU system and network architecture,比较偏技术了,我们准备把这部分技术内容专门写一个文章来分析讨论,这里就不写了。
傅里叶的猫:这里我们补充一点,SemiAnalysis的这个文章中没有写,但在hotchips的时候SA提到过关于谷歌这个架构的问题:即使启用OCS,3D环面的爆炸半径也相当巨大,一个芯片故障就会导致整个包含64个TPU芯片的立方体失效。之前没有OCS的情况下,3D环面中一个芯片的故障就会导致整个集群失效。
谷歌如何破解生态短板?
由于笔者对大模型软件的底层技术这块并不熟悉,这个章节的内容就全靠AI来解读了。
在AI算力竞争中,硬件性能是基石,但软件生态才是决定胜负的关键。长期以来,谷歌TPU虽在硬件架构上颇具优势,却因软件策略的“内向性”陷入生态困境。开发者数量远不及英伟达CUDA生态,成为其吸引外部客户的最大短板。如今,谷歌正启动一场颠覆性的TPU软件战略调整,目标直指破解这一核心难题,这场变革或将重塑AI算力的市场格局。
TPU软件团队的“内向基因”由来已久。过去,这些团队的工作重心完全围绕谷歌内部需求,虽然避免了营销团队夸大理论算力的压力,能专注优化内部 workload,但也导致其对外部客户和多元场景漠不关心。这种定位直接造成TPU生态的“先天不足”:相较于CUDA生态庞大的开发者群体,TPU的外部开发者数量寥寥无几,这也是所有非英伟达加速器共同面临的核心困境。
为打破僵局,谷歌彻底修订了面向外部客户的软件战略,不仅重构了TPU团队的关键绩效指标,更在AI/ML生态贡献方式上做出重大调整。其中,两大核心发力点尤为突出:一是全力打造PyTorch TPU“原生”支持,二是重点攻坚vLLM/SGLang的TPU适配。从TPU相关软件仓库的贡献数据中,能清晰看到这场战略转向的落地,3月起谷歌对vLLM的贡献量显著增长,5月官方vLLM TPU统一后端仓库“tpu-inference”正式创建,后续相关开发活动更是密集推进。
在PyTorch支持上,谷歌正在扭转长期以来的次级待遇。过去,谷歌仅将Jax/XLA:TPU栈作为重点,而PyTorch on TPU依赖PyTorch/XLA的惰性张量图捕获,缺乏原生的即时执行模式,更不支持PyTorch原生分布式API和并行计算API(如DTensor、FSDP2等),只能依赖非标准的XLA SPMD API,这让习惯了GPU上PyTorch CUDA原生后端的外部用户难以适应。2024年10月,谷歌工程师Robert Hundt在XLA仓库中悄然宣布,将打造“原生”TPU PyTorch后端,默认支持即时执行,并整合torch.compile、DTensor等核心功能,这一改变很大程度上是为了吸引Meta,后者对采购TPU重燃兴趣,却不愿迁移至JAX生态,同时也能满足偏好PyTorch的开发者需求。
这一调整意义重大。2020至2023年,Meta FAIR的部分团队曾尝试使用PyTorch XLA on TPU,但因体验不佳未获广泛采用,最终Meta在2023年终止了相关合同。而新的原生支持将为熟悉GPU上PyTorch的机器学习科学家提供平滑过渡路径,让他们能轻松切换至TPU,同时享受其更高的性价比优势。此外,谷歌与Meta还在推进TPU自定义内核语言Pallas与PyTorch编译栈的集成,未来开发者可将Pallas内核注册为PyTorch原生算子,进一步提升开发灵活性。谷歌还在幕后推动Pallas与高阶内核开发语言Helion的融合,Helion因贴近PyTorch Aten原生算子,为开发者提供了更简洁的高性能内核编写方式。
在推理生态领域,谷歌正发力抢占CUDA的传统优势阵地。此前,vLLM与SGLang均将CUDA作为一等公民,ROCm仅为二等支持,而谷歌通过独特的集成方式,已宣布为TPU v5p/v6e提供vLLM与SGLang的beta版本支持。目前,这两款工具通过将PyTorch模型代码转换为JAX,借力成熟的JAX TPU编译流程实现适配,未来待原生TPU PyTorch后端落地后,不排除切换至更直接的适配路径。为提升性能,谷歌已将多款优化的TPU内核开源并集成至vLLM,包括分页注意力内核、计算通信重叠的GEMM内核等,但尚未推出MLA友好型内核。
针对TPU的硬件特性,谷歌还对关键算法进行了定制优化。在分页注意力(Ragged Paged Attention v3)上,鉴于TPU不擅长动态地址获取和散射操作,谷歌放弃了GPU上类似虚拟内存分页的技术,转而采用细粒度操作流水线,通过预取下一个序列的查询和KV块,实现内存加载与计算的重叠。在MoE(混合专家模型)内核上,谷歌设计了“全融合MoE”方案,规避TPU排序性能弱的短板,通过按专家逐设备分发令牌、重叠通信与计算,实现了3-4倍的性能提升。TPU的SparseCore(稀疏核心)硬件单元也被寄予厚望,其支持更细粒度的内存访问,能在执行聚集/散射操作和通信时与张量核心计算重叠,不过其可编程性仍在完善中,未来有望进一步优化MoE性能。
当前TPU的推理优化仍有提升空间,例如在分布式预填充解码上,仅支持单主机场景,多主机场景尚未覆盖,也未与VERL等主流强化学习框架完成集成。值得注意的是,近期有基准测试称TPUv6e每美元性能仅为英伟达GPU的1/5,这一结论存在明显局限:一方面,vLLM on TPU刚推出数月,性能优化尚未到位,而谷歌内部Gemini和Anthropic的工作负载已基于定制推理栈实现了更优性价比;另一方面,测试采用了2.7美元/小时的TPUv6e标价,而大型客户实际签约价远低于此。云厂商的标价往往偏高,以便通过大幅折扣吸引客户,真实市场租金需结合合同期限综合判断。
从“服务内部”到“拥抱生态”,谷歌TPU的软件战略转向虽处于初期阶段,但已展现出明确的方向和强大的执行力。通过补全PyTorch与推理生态这两大短板,TPU有望打破CUDA的垄断,吸引更多开发者入驻。对于Anthropic等核心客户而言,软件生态的成熟将进一步释放TPU的硬件潜力;对于谷歌来说,这不仅能巩固其在AI算力领域的竞争力,更能让TPU成为谷歌云差异化竞争的核心抓手,这场软件变革的价值,未来将逐步显现。
Google TPU v8 双轨战略解析及对 Nvidia 市场地位的影响
Google 计划于 2027 年推出的第八代 TPU(TPU v8)系列,摒弃了第四、五代产品中“P 版(完整版)”与“E 版(精简版)”的简单 SKU 划分模式,采用与不同芯片厂商联合研发的双轨策略,形成两款定位差异化的产品形态,其核心差异体现在技术架构与供应链合作逻辑两方面。
傅里叶的猫:就在SemiAnalysis的这个报告发表的当天,国内就传出一份关于TPU v8的纪要,上面写着V8提前到了明年下半年,明年会有50w的出货量。但根据我们自己的调研,目前不是说V8不可以完全26年底前就妥了,而且谷歌现在在犹豫要不要投这么大的资源让他26实现,因为9的升级是比较大的。
TPU 8AX(代号“Sunfish”)
该型号由 Google 与 Broadcom 联合开发,技术路线上延续了上一代 Ironwood 芯片的核心架构,是面向高性能计算场景的主力产品。其核心技术参数包括:采用 N3E 逻辑工艺节点,沿用“2 个计算芯片 + 1 个 I/O 小芯片 + 8 组 HBM3E 内存”的封装结构;内存系统进行关键升级,将 HBM 堆叠高度从 8 层提升至 12 层,并搭载 SK 海力士提供的 9.6Gbps 高引脚速率内存颗粒,最终实现内存带宽较 TPU v7 提升约 30% 的性能突破。从定位来看,TPU 8AX 是 Google 对标 Nvidia 高端加速器的核心机型,其技术迭代聚焦于在成熟架构基础上实现性能稳步提升。
TPU 8X(代号“Zebrafish”)
与 MediaTek 联合研发的 TPU 8X,是 Google 优化供应链成本、推进技术自主化的战略载体。该型号在架构上进行精简设计:仅配置 1 个计算芯片、1 个 I/O 芯片及 6 组 12 层堆叠 HBM3E 内存,且计算芯片工艺从 N3E 切换至 N3P。其核心创新并非技术参数的突破,而是合作模式的重构,Google 试图通过与 MediaTek 的合作,打破 Broadcom 在供应链中的溢价壁垒。
长期以来,Google 虽主导 TPU 计算单元的设计,但 Broadcom 作为合作方,不仅提供 SerDes 等核心 PHY 技术与控制器,还通过“系统级封装(SiP)”整体报价模式,将 HBM 等硬件成本纳入自身成本结构并叠加利润。而 MediaTek 采用的灵活定制化合作模式,为 Google 推进“客户自有工具链战略提供了可能:Google 可逐步掌控芯片设计全流程,仅向合作伙伴支付核心技术增值费用,从而最大限度贴近硬件物料成本(BOM 成本)采购。
不过,技术自主化转型面临显著挑战。由于缺乏 Broadcom 成熟的技术支持,TPU 8X 的流片周期超出预期,直至本季度才完成最终流片。MediaTek 在该项目中的核心贡献集中于 I/O 小芯片(集成自研 224G SerDes 技术)与封装设计,而更关键的价值在于供应链整合,通过这一合作,Google 实现了 HBM 内存的直接采购(主要供应商为 SK 海力士),规避了 Broadcom 供应链中的溢价环节。需注意的是,HBM 内存通常占据芯片封装级 BOM 成本的最大份额,这一供应链优化对 TPU 系列的成本控制具有决定性意义。
傅里叶的猫:关于V7的情况,我们之前在星球就发过这样的信息:
上一代 TPU(Ironwood)已形成对 Nvidia Blackwell 系列的实质性竞争,但 Nvidia 通过新一代 Vera Rubin 加速器的激进升级,重新拉开性能差距。从核心技术指标来看,TPU v8 系列的代际提升相对温和,而 Vera Rubin 在计算性能、内存带宽及网络能力上均实现跨越式突破,具体差异体现在以下维度。
傅里叶的猫:还是我们上面提到的,9的升级是比较大的,而NV这边,vr300的升级是很大的
内存带宽是 AI 加速器的核心性能指标,直接决定大模型训练与推理的效率。Nvidia Vera Rubin 搭载新一代 HBM4 内存,引脚速率突破 10Gbps,单芯片内存带宽达到 20TB/s;而 Google TPU 8AX 仍沿用 HBM3E 内存技术,单芯片带宽仅为 9.8TB/s,不足 Vera Rubin 的 50%。这一差距直接导致在高并行计算场景中,TPU v8 的数据吞吐效率显著低于 Vera Rubin,进而影响整体计算性能。
总拥有成本是企业采购加速器的核心决策依据,也是 TPU 系列长期以来相对 GPU 的核心竞争优势。但 TPU v8 与 Vera Rubin 的对比显示,这一优势正大幅收窄:对于外部客户而言,TPU v8 的单位有效 FLOP 成本优势虽仍存在,但已远不及 Ironwood 对阵 Blackwell 时的显著程度;在内存带宽成本维度,TPU v8 的优势已缩减至微弱水平,基本丧失差异化竞争力。
Vera Rubin 的性能突破并非预设战略,而是 Nvidia 应对竞争威胁的快速反应。该产品最初的设计目标相对保守,额定功率为 1800W,内存带宽目标为 13TB/s;但在 Google TPU 与 AMD 加速器的双重竞争压力下,Nvidia 果断调整技术参数,将功率提升至 2300W,同时将内存带宽目标拉满至 20TB/s。这种“以竞争驱动技术迭代”的策略,是 Nvidia 长期占据市场主导地位的核心能力,行业数据显示,截至目前,Nvidia 在全球 AI 加速器的 FLOPS 出货量上仍保持绝对领先。
Google TPU v8 系列当前面临两大核心问题:其一,供应链周期延误,从芯片设计、制造、机架组装到数据中心部署的全流程周期超出预期,导致产品上市节奏可能滞后于市场需求;其二,技术策略保守,在 2027 年的产品周期内,TPU v8 仍采用 N3E/N3P 工艺与 HBM3E 内存,而同期 Nvidia 已实现“3nm 工艺 + HBM4 内存”的技术组合,AMD 也在推进“2nm 工艺 + HBM4 内存”的研发,甚至 224G SerDes 这一关键 I/O 技术,Google 也要到 2027 年才实现规模化应用,技术代际差距已初步显现。
更为关键的是,TPU 系列的 TCO 优势正被 Vera Rubin 颠覆。SemiAnalysis 数据显示,Nvidia Rubin Kyber 机架解决方案的 TCO 水平,已接近甚至在部分场景中优于 Google TPU v8,这意味着 Google 长期依赖的“内部工作负载成本优势”也可能被瓦解,其市场竞争力将进一步削弱。
Google TPU v8 的性能差距与供应链延误,为 Vera Rubin 系列的市场渗透创造了窗口期。但 Nvidia 的领先地位并非稳固不变,其核心风险集中于执行层面,Rubin 系列(包括 Oberon 与 Kyber 两个子型号)的成功,依赖于研发进度、性能达标率与供应链稳定性的多重保障。若出现研发延误、实际性能未达设计目标或产能不足等问题,Google 仍可能凭借定制化架构与生态适配能力重新夺回优势,AMD 等竞争对手也可能借机实现市场突破。
傅里叶的猫:关于英伟达的VR300,据笔者了解,北美大厂们都收到了high level的设计图纸。说明进度还在NV的计划之内。
谷歌的产业链信息
周末出来的跟谷歌相关的纪要,大部分应该都是跟CLS的人交流的,因为CLS是谷歌服务器代工的大头,所以对很多情况也比较了解。我们再更新一些液冷的信息。
目前谷歌TPU运用液冷的主要是V7及以上,目前V8的情况就像我们上面说的,还不太确定,要看谷歌是否想投入这么大的资源让它明年出来。所以先按下面数据来算,明年谷歌TPU出货超400w,V5仍为100万颗未变。V6从200万颗调整至40万颗,V7 200万颗,V8就看情况了,V7+V8应该会超过250w。
2026年:谷歌TPU V7及以上开始全面运用液冷,单柜液冷价值量在7-8万美金左右,明年谷歌TPU V7及以上预计出货250万颗,64颗单柜,对应差不多4万个柜子,对应28-32亿美金液冷市场空间
2027年:谷歌TPU V7及以上出货量预计超500万颗,且随着技术/功耗等升级液冷单柜价值量可能会提升至9-10万美金,对应70-80亿美金液冷市场空间。
据产业信息了解,柜内液冷器件采购主要由CLS负责,而ywk与CLS合作较为紧密,这促使ywk在谷歌综合份额有望大幅上修,具体的份额信息,可以到星球查看。
知识星球
半导体AI产业交流
对半导体和AI产业有兴趣的读者,可以加下面微信,请备注姓名和所在行业。