AWS对自研Arm芯片收取高额费用

半导体产业纵横

2024-07-10 17:45发布于北京科技领域创作者

本文由半导体产业纵横（ID：ICVIEWS）编译自nextplatform

亚马逊提升云服务价格。

几十年来，摩尔定律在服务器 CPU 性能和经济性方面的改进让我们所有人都认为，无论如何，随着每一代处理器的不断更新，我们总会看到单位性能成本的降低。但这并不总是发生，尤其是在 2020 年代晶体管尺寸缩小和时钟频率降低的末期。

亚马逊网络服务设计的 Graviton 4 处理器的市价显然没有发生这种情况，最初的 R8g 实例目前已普遍可用。最终，AWS 上将推出更多基于 Graviton 4 的实例，内存、本地存储和 I/O 容量各不相同，但目前基本 R8g 实例仅在四个地区可用。

Graviton 系列基于 Arm 的 CPU 由云巨头 Annapurna Labs 部门设计，其规模逐渐扩大，随着 Graviton 4 的推出，其能够承担更大的任务。该芯片具有更快的内核、更好的内核、更多的内核，并首次支持双插槽 NUMA 内存集群，从而带来 192 个以 2.8 GHz 运行的内核，并由 1.5 TB 的主内存支持。与目前可供出租的 Graviton 4 相比，2018 年 11 月推出的原始 Graviton 1 芯片看起来就像一个玩具。

AWS 于去年 11 月推出了 Graviton 4，当时并未透露有关该芯片的许多细节。Annapurna Labs 高级首席工程师 Ali Saidi 填补了我们显著特性表中的几个空白。Saidi 解释说，Graviton 4 芯片的运行速度为 2.8 GHz，非常接近我们猜测的 2.7 GHz。由于每个核心的 L2 缓存翻倍至 2 MB，AWS 团队得以减少处理器上的 L3 缓存量，从而为每个芯片的核心数量扩大 50% 至 96 个留下更多空间。事实上，每个核心的 L3 缓存已限制为 384 KB，比每个核心的 L2 缓存小 2.7 倍。但是，在那 96 个核心中，L3 缓存加起来共享 36 MB，并且比每个核心的 2 MB L2 缓存提供更大的共享内存空间。

“因此，每个 L2 都变得更大，也就是 2 MB，而不是 1 MB，”Saidi 告诉The Next Platform。“原因很简单。到达 L2 缓存需要 10 个周期，容量翻倍时需要 10 个周期。到达最后一级缓存需要 80 到 90 个周期。我们希望将尽可能多的内存放在尽可能接近的位置，我们将其设置为接近 8 倍。”

正如我们之前报道的那样，Graviton 4 基于Arm Ltd 的“Demeter” V2 内核，与 Nvidia 在其 72 核“Grace” CPU 中使用的内核相同，并且许多其他芯片制造商也选择使用这个内核。除了许多其他功能外，V2 内核还具有四个 128 位 SVE-2 矢量引擎，这对于许多 HPC 和 AI 工作负载非常有用。我们仍然不知道 AWS 为 Graviton 4 选择的工艺节点、这款产品上的晶体管数量、它拥有的 PCI-Express 5.0 通道数量或其热设计点。

AWS 在 33 个地区和 100 多个可用区部署了超过 200 万个 Graviton 处理器，它是 AWS 云的重要差异化因素，也是亚马逊集团（拥有不同的媒体、娱乐、零售、电子和云业务）的重要资源。事实上，假设 Graviton 4 实例与英特尔和 AMD 的大致相当的 X86 处理器相比，性价比高出大约 30% 到 40%（我们认为这次可能会高出 20% 到 25%，但需要查看一些跨架构基准才能做出更好的评估），我们看到的初始内存优化 R8g 实例的定价表明对 Graviton 4 的需求很高，高到购买它的客户可能会帮助母公司亚马逊以比其他方式少得多的价格获得自己的 Graviton 4 容量。

以下是 Graviton 4 实例的供给和速度，以及其按需和预留实例定价：

R8g 实例的单插槽内存从 1 到 96 个内核，从 8 GB 到 768 GB。网络带宽可按比例调整，每个实例最高可达 40 Gb/s，弹性块存储 (EBS) 也最高可扩展到每个插槽 30 Gb/s。我们认为双插槽 Graviton 4 实例是一个特殊情况，因为双插槽机器的网络带宽只有 50 Gb/s，EBS 带宽只有 40 Gb/s。此外，没有实例大小介于 96 和 192 个内核之间，如果亚马逊正在构建的所有物理机器都基于双插槽盒，那么你会期望有这样的实例。

再说一次，这可能只是 AWS 分配机器的方式。据我们所知，所有 Graviton 4 机器都可能是双插槽系统。很明显，AWS（以及其客户）重视跨处理器的 NUMA 内存共享，这是因为在 192 个内核和 1.5 TB 内存的情况下，这个节点可以运行相当大的工作负载，例如 SAP HANA 内存数据库，它将在 R8g 实例上获得认证。

AWS 计算和 AI/ML 产品组合产品管理总监 Rahul Kulkarni 表示，总体而言，从 Graviton 3 升级到 Graviton 4，客户应该可以预期性能至少会提升 30%，但在许多情况下，性能会提升 40% 甚至更高。这取决于工作负载的性质以及软件使用的整数或矢量特征。

AWS 为 Graviton 4 收取的溢价相当可观。让我们通过将 Graviton 4 R8g 实例与以前的 Graviton 2 和 Graviton 3 实例进行比较来看一下：

我们估计的 ECU（EC2 计算单元的缩写，这是 AWS 早期使用的一种非常古老的相对性能指标）将 Graviton 4 系列的性能提升至 Saidi 和 Kulkarni 所说的您应该期望的最低 30% 的性能提升。对于上面显示的这些实例，我们假设工作负载不受内存限制，并将相同的相对性能应用于每种 CPU 类型，而不管内存如何。在现实世界中，我们意识到，内存越多有时意味着您更接近计算引擎的理论性能。如果我们有更多数据，我们会估计较少内存对某些较小实例类型的性能影响。但我们没有更多数据。

为了获得相对性价比，我们按照 AWS 当前的定价估算了运行每个实例一年的成本。我们还估算了 R8gd 实例的成本，这些实例将像其他“gd”实例一样拥有专用的本地闪存存储。与往常一样，这以粗体红色斜体显示。

结果如下：如果将顶级 64 核 R7g 与顶级 96 核 R8g 实例进行比较，R8g 实例的性能提高了 30％，但成本提高了 65％，性价比降低了 26.9 ％。

我们过去 CPU 发布时发生过这种情况。1990 年 IBM 的 ES/9000 大型机。2001 年 Sun Microsystems 的 UltraSparc-III 系统。2017 年的英特尔“Skylake”Xeon SP v1 处理器。所有这些处理器的单位性能成本都高于其前代产品，而且是在竞争即将变得激烈的特别艰难时期。我们怀疑，对于 AWS 来说，这更多的是关于根据市场承受能力定价。

*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。