速递|谷歌TPU拿下Meta十亿美元大单,豪赌去英伟达化,算力多元策略落地

图片
图片

图片来源:Unsplash

据参与谈判的人士透露,Meta Platforms 已签署协议,将租用谷歌的人工智能芯片——即张量处理单元TPU)来开发新的人工智能模型。一位知情人士称,这项为期多年的交易价值数十亿美元。Meta 也在与谷歌洽谈最早明年为其数据中心购买 TPU 的事宜,不过相关讨论的现状尚不得而知。

这笔交易对谷歌而言是一场胜利,为其赢得又一家知名客户,有助于其打造价值数十亿美元的TPU 销售业务。同时,这对英伟达构成威胁,该公司目前主导着人工智能芯片市场,并一直向 Meta 供应用于人工智能开发的图形处理单元,这一过程被称为训练。

据知情人士透露,除了与Meta 达成协议外,谷歌还与一家未具名的大型投资公司签署协议,共同出资成立一家合资企业,旨在将 TPU 租赁给其他客户。目前谷歌正与其他投资机构洽谈,为更多此类合资项目筹措资金。

这两项举措都表明,谷歌正加紧努力在AI 芯片业务中与英伟达展开直接竞争,包括英伟达占据主导地位的 AI 训练市场。谷歌有望通过销售 TPU 额外获得数十亿美元的收入。

谷歌与Meta 达成协议的消息,是在英伟达宣布与 Meta 达成新协议几天后传出的。Meta 当时表示,未来几年将为其数据中心采购数百万块 GPU。彼时,英伟达的协议引发了对谷歌与 Meta 谈判前景的质疑(The Information 去年曾报道相关谈判),但目前尚不清楚该协议是否产生了实质影响。Meta 决定采购 TPU 的另一个因素,可能是其自身在开发 AI 训练芯片方面遭遇的困境。

据一位听到相关发言的人士透露,谷歌云部门的一些负责人此前曾在内部建议,大力拓展TPU 业务可能帮助公司夺取英伟达约 10%的年收入——过去 12 个月英伟达的年收入约为 2000 亿美元。

据一位曾参与谷歌TPU 策略制定的人士透露,谷歌正在探索多种方式将 TPU 交付到客户手中。两位直接了解相关讨论的人士表示,正因如此,该公司正与私募股权公司洽谈成立合资企业,由合资企业购买其 TPU 后租赁给人工智能客户。

这些合资企业还可能开展云业务并负责TPU 的运维工作。英伟达已采取类似措施为其芯片培育客户群体,包括资助一批被称为"新云"的初创云服务商,这些企业专注于向人工智能客户出租英伟达 GPU

其中一位知情人士透露,作为该计划的一部分,谷歌已与一家大型投资机构签署至少一份条款清单。据悉,由谷歌云资深专家本杰明·特雷纳·斯洛斯领导的小型团队正主导 TPU 融资工作,并与云业务负责人托马斯·库里安保持密切协作。

根据参与相关讨论的人士透露,谷歌的企业发展团队也在与潜在金融机构会面,计划为特殊目的实体筹集资金,用以收购张量处理器(TPU)并租赁给客户。这种操作模式与埃隆·马斯克的 xAI 此前通过风险投资公司 Valor 构建的创新融资方案类似,后者通过类似结构获得了英伟达 GPU 的使用权。该知情人士表示,在谷歌当前讨论的方案中,TPU 可能被用作债务抵押品。

走钢丝般的平衡术

对谷歌而言,管理TPU 业务的扩张如同在钢丝上行走。尽管这家科技巨头正日益与英伟达展开竞争,但其旗下谷歌云部门同时仍是英伟达 GPU 的最大客户之一——这是因为绝大多数人工智能开发者客户需要 GPU 进行技术研发,而谷歌云必须提供搭载英伟达芯片的服务器以维持市场竞争力。为在云服务市场保持优势,谷歌仍需持续获取英伟达的最新芯片供应。

新客户能够使用的TPU 数量也存在不确定性。谷歌自身开发 Gemini 聊天机器人和模型的人工智能团队同样依赖 TPU 推进技术研发,必须确保获得充足的芯片供应以应对 OpenAI 等竞争对手的挑战。台湾积体电路制造公司同时生产 TPU 和英伟达 GPU,这意味着两种芯片实质上在其工厂内争夺产能。

谷歌多年来一直向云客户出租TPU 供其在谷歌云数据中心使用,但去年开始向部分客户(包括 Meta 和大型金融机构)推广在其自有数据中心部署 TPU 的方案。

其推广策略之一在于强调TPU 的成本优势,主张其使用成本低于昂贵的英伟达芯片。尖端英伟达芯片的高昂定价也使得甲骨文等其他云服务商难以通过向 AI 开发者出租英伟达芯片获得可观的毛利率。

英伟达首席执行官黄仁勋清醒地认识到,当前全球最顶尖的两款人工智能模型完全或部分使用了谷歌制造的AI 服务器芯片进行开发,而非英伟达 GPU

谷歌推进TPU 之际,正值部分云服务提供商和客户(包括 OpenAI 和 Meta)去年难以按所需规模部署并运行英伟达最新的 Blackwell AI 芯片,部分原因在于硬件相关的技术故障及其他复杂问题。

直接为其数据中心购买AI 芯片的 Meta 等公司长期以来一直在寻求 Nvidia 的替代方案,以避免受制于单一供应商。一位参与交易谈判的人士表示,Meta 本周宣布了一项大规模协议,将从 Nvidia 的另一家竞争对手超微半导体(Advanced Micro Devices)采购 AI 芯片,不过 Meta 将主要将这些芯片用于运行其现有 AI 模型(这一过程称为推理),而非用于训练新模型。

确实,Meta 计划使用 TPU 进行 AI 培训这一点值得关注,因为大多数分析师曾怀疑任何公司能否在培训技术上与英伟达竞争,他们认为挑战英伟达的最大机会在于使用芯片进行推理——这种应用不需要大规模、互联的服务器集群。

Meta 也在继续开发自家的 AI 推理芯片,以节省成本并减少对英伟达芯片的依赖。

Meta 并非 TPU 的首个大型客户。去年 Anthropic 已同意花费约 200 亿美元向博通购买 TPU——博通与谷歌联合设计该芯片,并监督台积电的生产环节。据与 Anthropic 管理层交流过的人士透露,该公司计划将这些芯片用于非谷歌运营的数据中心。

TPU 训练模型

多年来,Anthropic 一直使用 TPU 来开发和运行其 Claude 人工智能,谷歌已向这家初创公司投资了数十亿美元。The Information 去年夏天曾报道称,谷歌正在与 OpenAI 讨论 TPU 交易,并于 11 月报道了 Meta 和谷歌之间就 TPU 进行的交易谈判 。

与此同时,英伟达首席执行官黄仁勋也注意到,谷歌和Anthropic 打造的两个全球顶尖 AI 模型,其开发过程完全或部分使用了谷歌制造的 AI 服务器芯片,而非英伟达的 GPU

他一直在密切关注谷歌在TPU 方面的技术进展,并迅速采取行动,吸引现有和潜在的 TPU 客户大量采购英伟达 GPUMeta 和英伟达最近表示双方已达成新的合作伙伴关系,去年英伟达投资了 Anthropic,并获得了 Anthropic 使用其芯片的承诺。The Information 报道称,英伟达还曾讨论向 OpenAI 进行 300 亿美元的股权投资。

这些举动表明,黄仁勋与Nvidia 正在抵制谷歌拓展其在 AI 芯片市场版图的努力。

Nvidia 在 AI 服务器芯片市场的统治地位已使其成为全球市值最高的公司,估值达 4.8 万亿美元。这种市场垄断地位也让其营收一路飙升, 创造了大量现金流 ——这些资金可以再投资于像 OpenAIAnthropic 这样的客户,以及 CoreWeave 这类出租 GPU 的云服务提供商。


参考资料:

https://www.theinformation.com/articles/google-strikes-multibillion-dollar-ai-chip-deal-meta-sharpening-nvidia-rivalry?rc=jn0pp4