关于Chiplet,AMD和英特尔做法不同

全文2147字,阅读约需7分钟,帮我划重点

划重点

01AMD和英特尔在芯片设计方面采用了不同的方法,英特尔采用多芯片架构,而AMD则使用Chiplet设计。

02由于掩膜版限制和产量问题,越来越多的CPU设计开始摒弃单片架构,采用多芯片或Chiplet设计。

03AMD的Epyc处理器采用16个计算芯片围绕一个中央I/O芯片的设计,而英特尔的至强处理器则使用一对有限的芯片。

04然而,英特尔将I/O、UPI链接和加速器移至基于英特尔7工艺节点制造的一对芯片上,这对芯片位于基于英特尔3制造的中心的一到三个计算芯片之间。

05目前,英特尔将于明年初推出的6700P系列部件将配备一个或两个计算芯片,具体取决于所需的内存带宽和核心数量。

以上内容由腾讯混元大模型生成,仅供参考

图片

​本文由半导体产业纵横(ID:ICVIEWS)编译自theregister

掩膜版限制和产量使两位芯片巨头走向Chiplet设计。

图片

2017 年,在 AMD 推出代号为 Naples 的第一代 Epyc 处理器后不久,英特尔曾打趣说,其竞争对手已经沦落到用胶水把一堆芯片粘在一起,以求保持连接。

然而短短几年后,这家 x86 巨头也开始采用相似的路径。

英特尔的至强 6 处理器于今年开始分阶段推出,它代表了英特尔的第三代多芯片至强处理器,也是英特尔首款采用异构芯片组架构的数据中心芯片,与 AMD 的芯片组架构并无二致。

虽然英特尔最终看到了 AMD 芯片组战略的明智之处,但其方法却大相径庭。

突破标线限制

要快速了解为什么如此多的 CPU 设计都在摒弃单片架构,主要归结于两个因素:掩膜版限制和产量。

一般来说,在工艺技术没有重大改进的情况下,更多的内核必然意味着更多的硅片。然而,芯片的实际尺寸是有限制的,我们称之为 “微粒极限”,大约为 800平方毫米。一旦遇到这个极限,继续扩大计算规模的唯一办法就是使用更多的芯片。

现在,我们已经看到许多产品(不仅仅是 CPU)都采用了这种方法,将两个大型芯片压缩到一个封装中。Gaudi 3、Nvidia 的 Blackwell 和英特尔的 Emerald Rapids Xeons 就是其中的几个例子。

多芯片的问题在于,它们之间的桥接往往是带宽的瓶颈,并有可能带来额外的延迟。这种情况通常不会像在多个插座上分割工作负载那样糟糕,但这也是一些芯片设计人员倾向于使用较少数量的大型芯片来扩展计算能力的原因之一。

然而,大芯片的制造成本非常昂贵,因为芯片越大,缺陷率越高。这就使得使用大量较小的芯片变得很有吸引力,这也解释了为什么 AMD 的设计使用了如此多的芯片--在最新的 Epycs 中就使用了多达 17 个芯片。

介绍完这些,再来深入了解英特尔和 AMD 最新 Xeon 和 Epyc 处理器的不同设计理念。

AMD是如何做的?

从 AMD 的第五代 EpycTurin 处理器开始。该芯片采用台积电 6 纳米制程技术,拥有 16 个 4 纳米核心复合芯片 (CCD),围绕着一个 I/O 芯片 (IOD)。

图片

AMD 最新的Epycs配备多达 16 个计算芯片

如果这听起来很熟悉,那是因为 AMD 早在第二代 Epyc 处理器上就采用了相同的基本公式。作为参考,第一代 Epyc 缺乏独特的 I/O 芯片。

正如前面提到的,使用大量更小的计算芯片意味着 AMD 可以获得更高的产量,但同时也意味着他们可以在 Ryzen 和 Epyc 处理器之间共享芯片。

此外,使用 8 核或 16 核 CCD(每个 CCD 有 32 MB 三级缓存)使 AMD 在根据缓存和内存比例扩展核心数量时具有更多的灵活性。

举例来说,如果您希望使用具有 16 个内核的 Epyc(由于许可证的限制,这是 HPC 工作负载常用的 SKU),最明显的方法是使用两个 8 核 CCD,两个 CCD 之间的 L3 高速缓存为 64 MB。不过,您也可以使用 16 个 CCD,每个 CCD 有一个单核心,但板载 512 MB 缓存。

图片

AMD 的第五代 Epycs 采用熟悉的模式,16 个计算芯片围绕一个中央 I/O 芯片

另一方面,I/O 芯片负责除计算之外的几乎所有功能,包括内存、安全性、PCIe、CXL 和其他 I/O(如 SATA),并且还充当芯片 CCD 与其他插槽之间通信的骨干。

图片

以下是对 AMD Epyc Turin I/O 芯片的详细介绍

将内存控制器放置在I/O芯片上确实有一些优点和缺点。从好的方面来说,这意味着内存带宽在很大程度上独立于核心数量而扩展。缺点是某些工作负载的内存和缓存访问延迟可能会更高。我们强调“可能”,因为这种事情高度依赖于工作负载。

英特尔的至强芯片

谈到英特尔,这家芯片制造商的多芯片方法与 AMD 有很大不同。虽然现代至强处理器采用了异构架构,具有不同的计算和 I/O 芯片,但情况并非总是如此。

英特尔的第一款多芯片至强处理器代号为 “Sapphire Rapids”,使用一个单片中等核数芯片或四个极端核数芯片,每个芯片都有自己的内存控制器和 I/O 接口。Emerald Rapids 采用了类似的模式,但在核心数较高的芯片 SKU 上选择了两个较大的芯片。

图片

正如您在 Sapphire 和 Emerald Rapids 之间看到的,英特尔从四个中型芯片转换为一对近乎网状的有限芯片

所有这一切都随着 Xeon 6 的推出而发生了改变,英特尔将I /O、UPI 链接和加速器移至基于英特尔 7 工艺节点制造的一对芯片上,这对芯片位于基于英特尔 3 制造的中心的一到三个计算芯片之间。

出于稍后会讲到的原因,本文将主要关注英特尔更主流的 Granite Rapids Xeon 6 处理器,而不是其多核 Sierra Forest 部件。

看看英特尔的计算芯片,就能发现它与 AMD 的第一个重大区别。每个计算模块至少有 43 个板载核心,可根据 SKU 开启或关闭融合。这意味着英特尔实现 128 个核心所需的芯片数量比 AMD 少得多,但由于面积较大,因此成品率可能会更低。

图片

根据 SKU,Granite Rapids 使用夹在一对 I/O 芯片之间的一到三个计算芯片

除了增加内核之外,英特尔还选择将这些芯片的内存控制器放在计算芯片上,每个芯片支持 4 个通道。理论上,这应该可以降低访问延迟,但这也意味着,如果你想要所有 12 个内存通道,就需要填充所有 3 个芯片。

英特尔将于明年初推出的 6700P 系列部件将配备一个或两个计算芯片,具体取决于所需的内存带宽和核心数量,这意味着内存通道在高端将限制为 8 个,在板载单个计算芯片的配置中可能只有 4 个。目前还不清楚 HCC 和 LCC 芯片上的内存配置,因此英特尔有可能增强了这些部件上的内存控制器。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。