如果大家有关注各硬件厂商的新品发布活动,可能会注意到这样一个现象,比起普通消费者,云计算厂商如今似乎对于更新硬件配置要热心得多。许多时候,那些最新最强的处理器、加速器和存储器件刚一发布,往往就会看到不止一家云计算厂商出来“站台”,并积极宣传新硬件所带来的性能提升。
为什么云计算厂商会普遍对“新硬件”格外热心?因为对于云计算这种商业模式来说,绝对的硬件性能提升就必然意味着可以用更短的时间去完成既定的计算量,从而能够得到更多的设备“空闲”,相当于在原有的总时间内可以应对更多用户需求。而能效比的上涨更是会带来同等计算量下功耗的降低,从而直接拉低巨大规模机房的运营成本。
除了争抢算力,自研芯片更是云计算厂商的重要选择之一
当然,除了“争抢”最新的通用硬件之外,也有一些云计算厂商选择“两条腿走路”、发力自研芯片方案。只不过纵观整个云计算行业不难发现,对于“自研芯片”这件事,不同的企业似乎有着并不一致的目的。比如,有些企业虽然喜欢高调宣传他们的“自研”项目,但在其真正提供的云计算实例中,几乎没有多少服务真的用到了这些“自研芯片”。
而与之相映成趣的,则是已连续13年被Gartner评为战略云平台服务(SCPS)魔力象限“领导者”的亚马逊云科技。历数亚马逊云科技如今的自研产品阵容不难发现,他们已经拥有包括通用处理器Graviton、AI训练芯片Amazon Trainium、AI推理芯片Amazon Inferentia,以及网络系统Nitro在内的至少四大类自研硬件/芯片家族。
更不要说,根据云成本管理和优化平台Vantage的一项调查显示,在实例类型的成本支出方面,在2024第一季度的Amazon EC2 M7系列通用实例类型上,采用Graviton的M7g系列已经超过三分之一(34.5%);到了2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服务所采用的实例类型中,Graviton已经超越了Intel。
不难看出,作为持续的行业领导者,亚马逊云科技不只是拥有客观上更多的自研芯片种类。更为重要的是,他们是真的将自研芯片投入到了主力云计算业务中,并已取得了客观上的巨大成功。
从最初就开始“务实”,是亚马逊云科技自研芯片的奥秘
那么,为何亚马逊云科技不仅能够自研硬件,而且可以让自研硬件带来云计算业务上的优势呢?要弄明白这一点,我们需要稍微做一些“历史功课”。
亚马逊云科技的硬件自研之路始于2012年,并且从2013年就被确立为重要的业务策略,同年他们就研发出了第一款自研芯片Nitro。
需要注意的是,Nitro并非如今大家“喜闻乐见”的通用处理器或AI芯片,它本质上其实是一个专用硬件系统,主要用于高性能网络处理和虚拟化卸载。亚马逊云科技之所以要优先研发它,是因为他们注意到当时传统的、基于软件的网络虚拟机程序将大量的CPU资源消耗在了网络封包的卸载和加速操作上。而通过一款专用硬件系统去转移这个负载,就可以将服务器的更多CPU算力解放出来、让这些CPU性能能够被更多客户所使用。
是的,从这段历史中就不难发现,基于真正现实的需求去进行自研硬件的开发,是亚马逊云科技一直以来的传统。事实上,这一点不仅适用于已经更迭了五个代次的Nitro系统,更在最新的Amazon Graviton 4通用处理器的研发过程中,也起到了极其重要的指导意义。
不同于目前行业中传统的、以“跑分(基准测试)”为指标的处理器设计思路,Amazon Graviton4是首个以实际工作负载为目标设计的处理器。在研发过程中,亚马逊云科技结合自身的业务特点,首先设计了真实工作负载的雷达图,将CPU微架构的参数特性划分为前端与后端,并各自细分为六项。再根据该雷达图来衡量CPU设计过程中不同的细节,来优化对最终实际云计算负载的效果。
正是在这样的设计思路指导下,最终诞生的Graviton4处理器核心数量增加了50%以上,内存带宽比前代提升超过75%。按照亚马逊云科技方面公布的相关信息显示,这款云计算专用处理器广泛适用于高性能计算、机器学习、人工智能、容器化应用构建、数据分析和数据处理等不同领域。而根据亚马逊云科技在Epic Games的开源教学游戏Lyra Starter Game的测试来看,Graviton4相比于前代带来了超过25%的性价比提升,与Intel Sapphire Rapids和AMD Genoa相比,更是能够带来30%~35%的性价比提升。
自研芯片推动服务性价比提升,更带来可持续的市场竞争优势
当然,除了强调芯片设计“贴近实际场景”之外,亚马逊云科技的许多自研硬件更是成为了其云服务性价比不断攀升背后的重要因素。
例如,2020年亚马逊云科技推出了Graviton2处理器,它的计算性能比第一代提升7倍、内存速度达到前代5倍。
2021年Graviton3面世,它的浮点性能比前代翻倍,但更为重要的是与同期的其他EC2实例相比,它的功耗仅有40%。
除此之外,2022年亚马逊云科技发布了Inferentia 2推理芯片。与前代方案相比,基于这颗新芯片的Inf2实例吞吐量提升4倍、延迟降低90%,同时还有着45%的能效增长。
紧接着在2023年,除了前面提到的Graviton4,亚马逊云科技还带来了Trainium2芯片。这款AI加速芯片比它的前代快4倍,同时每瓦性能提升更是多达2倍。
这意味着什么?一方面纵观亚马逊云科技的历史不难发现,自从2006年推出第一代公有云服务以来,他们至今已主动降价100次以上,甚至有时降价幅度极其巨大。比如就在今年10月,亚马逊云科技刚刚宣布将Amazon DynamoDB按需吞吐量的价格降低50%、将全球表(Global Tables)的价格降低多达67%。很显然,这种持续、主动的降价行为,很大程度是得益于了亚马逊云科技贴近自身需求、且不断进步的自研硬件体系,并且由于硬件的能效比持续提升,他们的云服务自然有底气既越做越好、越做越便宜。
另一方面,这种性能与性价比的双重提升,也促使亚马逊云科技可以实现一些规模惊人、难以被竞争对手企及的性能水准。比如在AI训练方面,EC2 UltraClusters支持部署多达100000 个Trainium2加速芯片,以实现超算级别、高达65exaflops的算力水平。
甚至就连亚马逊云科技自己,也受益于这种自研芯片所带来的“性价比”和规模优势。此前亚马逊云科技副总裁Jeff Barr曾展示了一张Graviton4开发时的实例集群快照,从中可以看到,他们充分利用自研处理器的规模优势,使用了多达数十万个内核加速EDA电子设计自动化流程,峰值规模为正常使用规模的5倍。而这种对于充足算力的尽情“挥霍”,自然也从侧面体现了亚马逊云科技如今完善的自研芯片体系,给他们的业务所带来的显著性能、能效比,以及难以抗拒的价格竞争力。