亚马逊的AI资源博弈:从GPU短缺到数据中心战略调整

本文共2319字

在生成式AI浪潮席卷全球的当下,科技巨头们正经历着前所未有的资源调配考验。亚马逊作为全球电商和云计算双料霸主,在这场博弈中展现出独特的战略智慧,其应对GPU短缺的教科书级操作与近期数据中心建设的战略调整,揭示了AI竞赛中资源管理的深层逻辑。

图片

图:亚马逊首席执行官安迪·贾西Andy Jassy

GPU荒中的逆袭战

2023年初,亚马逊零售部门遭遇了严峻挑战——AI芯片短缺导致公司内部多个创新项目延期。生成式AI的爆发性需求让NVIDIAGPU成为全球最紧俏的战略资源,即便亚马逊这样的科技巨头也难以独善其身。面对危机,公司于7月启动“格陵兰计划(Project Greenland)”,建立起战略性的资源调配体系。

这个中央化GPU资源池颠覆了传统分配模式,引入严格的ROI审核机制。根据一份 Amazon 文档,公司GPU分配遵循八项原则,其中最重要的是每个项目必须处于可立即开发状态,具备明确市场竞争力,并提供详实的投资回报预测。系统内置的智能监控功能可实时追踪GPU利用率,对低效项目实施“资源回收”,将芯片转投更高优先级计划。

这套机制成效显著,到2023年底,亚马逊零售部门已全面解决GPU短缺,并衍生出不错的经济效益。AI项目贡献了25亿美元运营利润,节省6.7亿美元可变成本。Rufus智能购物助手、Theia产品图像生成器等160余项创新得以加速落地,其中基于计算机视觉的包裹检索系统将配送效率提升15%,自动化欺诈检测为平台卖家节省数百万工时。

数据中心建设的战略转向

GPU危机化解之际,亚马逊在AI基础设施领域又现新动向。2024年夏季,AWS开始暂停与部分国际数据中心的合作谈判,还在美国撤回某些托管机房扩建计划。而与此同时,今年微软也在放缓数据中心建设步伐,云公司寻求保护数据中心容量的紧迫性和速度已经普遍放缓,引发市场对于人工智能降温的担忧。

分析师认为,这主要是基于亚马逊自身的战略调整。公司优先终止的是电力供应不稳定、2026年底前交付的大项目,同时加大对自有数据中心的投入。AWS全球数据中心副总裁凯文·米勒强调,这属于“常规容量管理”,公司仍保持每年57亿美元的云基础设施投入,2025年规划支出更将增至74亿美元。

资源管理的双重逻辑

两场看似独立的战略调整,实则折射出亚马逊在AI时代的资源管理哲学。在GPU分配端,公司通过技术手段实现资源利用最大化,建立动态调节机制;在基础设施端,则采取选择性收缩策略,聚焦高回报核心区域。这种“微观激活,宏观优化”的双轨策略,展现出科技巨头应对资源约束的成熟度。

市场数据显示,亚马逊的调整颇具前瞻性。尽管公司在2024年下半年出现1,000多个P5(搭载NVIDIAH100芯片的云服务器)的供应缺口,但到2025年年初,P5短缺已有所改善,并预计将在2025 年下半年转为过剩。同时,借助自研Trainium芯片和资源池化技术,预计公司在2025年将实现算力盈余,为其在后续AI竞赛中储备了弹性优势。

AI竞赛的新赛点

当行业还在热议GPU荒时,亚马逊已悄然进入资源管理2.0阶段。从格陵兰计划的资源池化,到数据中心的选择性扩张,这些动作预示着AI竞争正从单纯的基础设施军备竞赛,转向更精细化的运营效率比拼。正如AWS内部文件所述:“效率滋养创新,最优化的资源利用才能释放持续创造力。”

在这场没有终点的马拉松中,亚马逊展现出的不仅是应对危机的敏捷,更是驾驭复杂系统的战略定力。当其他玩家还在为获取芯片疲于奔命时,这家科技巨头已着手构建下一代AI基础设施的新管理范式,这或许才是AI时代真正的核心竞争力。