环球网财经中心《环球问策》系列报道
【环球网科技综合报道】当全球企业加速数字化转型时,云计算已成为数字经济的“水电煤”。IDC最新报告显示,2025年全球公有云IaaS市场规模将飙升至1880亿美元,而亚马逊云科技(AWS)再次以“双维度领导者”身份登顶。
值得关注的是,庞大的市场规模意味着云计算企业需持续扩容数据中心、服务器集群等基础设施。随着AI算力、绿色数据中心等新需求涌现,基建与市场的共生关系将更加紧密。云计算企业都在加强自身在基建设施方面的布局,以期抓住IaaS市场发展红利。
IDC指出,AI正在从硬件投资、运营效率、安全升级、资源优化等多维度重构云基础设施。企业需求已从“基础算力租赁”转向“AI驱动的基础设施服务”,这对云厂商提出了更高要求:专用芯片、超大规模网络、全栈安全能力、全球化覆盖,缺一不可。
作为全球头部企业,亚马逊云科技在行业内的优势正源于其提前押注AI基础设施的“硬核创新”。从自研芯片到10P级网络架构,从液冷数据中心到自动推理安全技术,亚马逊云科技正在打造一个“为AI而生”的云底座。正如IDC分析师Dave McCarthy所言:“亚马逊云科技的服务广度和创新能力,使其成为需要先进云能力企业的首选。”
从芯片到网络全栈,亚马逊云科技早已构建自己的技术“护城河”。在云计算行业,芯片是决定算力成本与性能的“命门”。亚马逊云科技早在2018年便推出首款自研芯片Amazon Graviton,此后持续迭代,形成Amazon Graviton(通用计算)、Amazon Trainium(AI训练)、Amazon Inferentia(AI推理)三大产品线。
2024年发布的Amazon Trainium2芯片,直接将AI训练性价比提升30%~40%,单实例算力达20.8 Petaflops,可支持千亿参数大模型训练。值得关注的是,2025年将量产的3纳米工艺Amazon Trainium3,性能预计再翻4倍。这一布局不仅降低了客户成本,更让亚马逊云科技摆脱了对英伟达GPU的依赖,掌控了算力自主权。
在网络架构方面,亚马逊云科技实现了10P级带宽+10微秒延迟,突破分布式AI的“不可能三角”。大模型训练需要数万GPU协同工作,传统网络架构的延迟和带宽成为瓶颈。亚马逊云科技在2024年推出的“10p10u”网络(10Pb/s带宽、10μs延迟),可将模型训练时间缩短15%,故障恢复速度提升10倍。配合自研的SIDR路由协议,其网络性能已接近超算中心水平。
这一突破背后,是亚马逊云科技对“软硬一体”的追求:从定制交换机到分布式路由算法,从液冷机架到超低功耗设计,其基础设施已演变为“为AI优化的超级计算机”。
在全球化基建方面,亚马逊云科技已经覆盖36个区域、114个可用区,并计划新增新西兰、沙特阿拉伯等4个区域。这种“本地化部署+全球一致性”的策略,使其成为跨国企业上云的首选。例如,游戏公司出海时,可通过亚马逊云科技在目标市场快速部署低延迟节点;金融客户则依赖其符合当地合规要求的架构。
更重要的是,亚马逊云科技正通过数据中心创新进一步降低成本:简化电力分配设计将可用性提升至99.9999%,液冷与气冷混合方案降低散热能耗,AI驱动的资源调度算法优化机柜利用率。这些细节积累,构成了规模效应的“滚雪球”优势。
亚马逊云科技 CEO Matt Garman曾强调:“安全不是附加功能,而是所有设计的起点。”这种理念贯穿其基础设施全链条:在硬件层,Nitro系统将虚拟化与安全隔离结合,防止侧信道攻击;在网络层,自动推理技术实时验证系统安全性、关键组件的可靠性;在服务层,开箱即用的加密、身份管理、威胁检测工具,降低客户安全门槛。
在AI时代,安全需求进一步升级。亚马逊云科技通过AI驱动的威胁预测、自动漏洞修复,将安全从“被动防御”转向“主动免疫”。
作为亚马逊云科技的优势,IaaS是其必争之地,随着AI对整个IaaS + PaaS市场的重塑,未来云市场的胜负手,在于能否将IaaS的“硬实力”与AI应用的“软生态”结合。亚马逊云科技需要证明,其不仅是“卖铲子的人”,还能帮客户挖到“金矿”。但面向AI的基础设施升级之战已然打响。
亚马逊首席执行官Andy Jassy在2025年2月的第四季度财报电话会议中表示,亚马逊在2025年的资本投资预计达1000亿美元,其中大部分将用于亚马逊云科技AI基础设施的建设等。这一雄心勃勃的投资计划要比其他几家来得更为凶猛,作为对比,谷歌母公司Alphabet给出的价码是750亿美元,微软是800亿美元。亚马逊云科技此举战略目标明确:成为大模型训练的“默认平台”:通过Trainium芯片集群和10p10u网络,吸引AI巨头和科研机构;抢占推理市场:Inferentia芯片支持实时推理,瞄准自动驾驶、内容生成等场景;定义“云原生AI”标准:从硬件到开发工具链,构建端到端的AI基础设施生态。
目前,亚马逊云科技正与Anthropic合作打造Project Rainier——一个集成数十万颗Trainium2芯片的超级集群,算力较当前提升5倍以上。这种“超大规模AI工厂”,可能彻底改变大模型的训练范式。
回看亚马逊云科技的发展历程,从早期赌注云计算,到持续十年的芯片自研,从全球化基建到安全体系的重构,每一步都紧扣“基础设施即核心竞争力”的逻辑。在AI时代,这种“重投入、长周期”的策略,反而成为其应对变局的护身符。
对于企业来说,亚马逊云科技的启示在于:云计算的竞争不仅是技术和资本的比拼,更是战略定力的较量。当行业进入“拼硬科技”的下半场,只有那些愿意啃“芯片、网络、安全”等硬骨头的玩家,才可能成为最后的赢家。(勃潺)