一文搞懂数据中心的线缆AOC、DAC、ACC、AEC

之前我们写过一篇NVL72互联方案的一篇文章,星球中有球友让再介绍一下数据中心中的这些不同线缆分别是什么意思。再回顾一下GB200中哪些地方用了光,哪些地方用了铜互联?

被抛弃的NVL72光互联方案

关于GB200的架构和互联,星球中讨论过很多,有兴趣的读者可以到星球中一起讨论。

光缆

有源光缆AOC

AOC的定义:Active Optical Cable (AOC) 是一种电缆技术,它接受与传统铜缆相同的电气输入,但在连接器之间使用了光纤。AOC 在电缆端使用电气到光学的转换,以提高电缆的速度和传输距离性能,同时保持与标准电气接口的兼容性。

图片

我们可以看到AOC组件实际上由 4 个功能部分组成:

“高密度 QSFP + 连接器”:这是一种 SFF-8436 电子连接器,可插入路由器或交换机中。

“4 通道全双工有源光缆收发器”:这种光收发器嵌入在外壳内部,因此无法直接看到。该光收发器部件负责光电(O-E)和电光(E-O)转换。

MPO 光连接器(黑色部分):该连接器与外壳和光纤永久连接。这种永久连接能保护光学接口免受终端用户触碰及环境污染物的影响。

带状光缆(此图显示的是黄色护套单模光纤,但也有多模光纤型号可供选择)。

图片

当然AOC也分为很多种类:

10G SFP AOC、25G SFP28 AOC、40G QSFP+ AOC、100G QSFP28 AOC、200G QSFP56 AOC等等不同的速率。

这里在稍微解释一下SFP和QSFP,SFP表示Small Form-Factor Pluggable,就是小型可插拔模块,QSFP就是四通道小型可插拔模块。例如,40G QSFP + 由 4 个 10G 通道组成,100G QSFP28 由 4 个 25G 通道组成。无论是SFP还是QSFP,都只是个可插拔模块的简称,他们的接口可以是 MPO/MTP 光纤连接器(并行光模块)或铜缆(如 QSFP 电口模块)。后期演进版本包括 QSFP+(40G)、QSFP28(100G)、QSFP56(200G/400G)等。

再简单说一下QSFP28 和 QSFP56 的区别:QSFP28 通常支持 4×25Gbps 通道,总带宽为 100Gbps,采用 PAM4 调制时单通道速率可达 50Gbps,总带宽可达到 200Gbps。QSFP56 支持 4×50Gbps 通道,可实现 200Gbps 的数据传输速率,部分可支持到 400Gbps(4×100Gbps)。

AOC的出现旨在替代数据中心和高性能计算等应用中的铜缆技术。

其最初的推动因素来自 InfiniBand 技术:随着该技术数据速率提升和数据中心集群规模扩大,铜缆技术逐渐达到极限。例如,20 Gbps 的 InfiniBand DDR 技术使传统铜缆传输距离限制在 8 - 10 米,这对大型集群的物理布局构成挑战。此外,铜缆存在笨重难管理、易受电磁干扰(EMI)影响性能和可靠性等问题,在大规模高性能集群中,这些问题更为突出。

因此,英特尔和 Luxtera 公司发明了 AOC 组件来填补这一空白。英特尔的设计采用垂直腔面发射激光器(VCSELs)和一系列分立元件;而 Luxtera 的 “Blazar” 系列 AOC 产品则运用 CMOS 光子技术,将大部分收发器功能集成到硅芯片上,仅激光器和光电探测器为分立元件。

AOC 组件具有诸多优势:若网络设备设计合理,可通过通用电端口兼容无源或有源铜缆,方便用户根据需求选择技术和成本,并轻松重新配置;通过将光纤与光学器件永久连接,省去了成本高昂、制造公差严格的光学连接器(尤其对于并行光链路)。其主要优势还包括:传输距离更长、带宽更高;传输安全可靠;电磁干扰 / 射频干扰影响小;误码率低(达 10⁻¹⁵);相比铜缆,体积更小、重量更轻。

有源光缆组件设计用于支持多种协议,其中多数兼容 SFP + 以太网和 InfiniBand 电接口。以典型的 40 Gb/s QSFP+AOC 为例,其支持的内容如下:

  • 多速率:1.0 Gb/s – 10.3125 Gb/s(每通道)
  • 4 通道全双工有源光缆收发器
  • InfiniBand SDR(2.5Gb/s)、DDR(5 Gb/s)、QDR(10 Gb/s)
  • 以太网 10G、40G
  • 光纤通道 8G、10G
  • SAS、SATA 3G、6G
  • 光纤通道存储区域网络(SAN)10G、20G、40G
  • Myrinet 40G

AOC的缺点

1、AOC 内部集成了光收发器、激光器、光电探测器等有源元件,且生产过程涉及精密的光学对准和电路集成,制造成本显著高于传统的无源铜缆或无源光缆。

2、灵活性受限,AOC 的光纤与两端的光模块是永久固定连接的,无法像独立的光模块 + 无源光缆那样灵活更换或调整长度。其实长度调整这个缺点,个人认为还好,几乎所有的应用场景,工程师们都会预留出足够的线缆,所以我们经常看到的是这些线缆绕圈,而不是不够长。

3、AOC内部多了那么多器件,功耗更高。

电缆

DAC

图片

直连电缆(DAC,Direct-Attached Cable)是一种两端带有连接器的铜缆。连接器通常配有锁扣机制或其他装置,以防止连接意外松动。之所以称为 “直连” 电缆,是因为它们旨在直接连接到用于互连的设备。它们也被称为 “双轴” 电缆,因为其内部包含两对双绞线,即通常所说的 “双轴” 线。

直连电缆分为两类:无源 DAC 和有源 DAC。无源 DAC 电缆,也叫PCC,是指没有信号调理功能来传输数据的电缆,这种电缆比有源 DAC 电缆便宜。有源 DAC 电缆我们下面会讲到。一般我们说的DAC都是指无源电缆。

根据数据速率和连接器类型,DAC 电缆通常有以下配置:10G SFP+ DAC 电缆, 25G SFP28 DAC 电缆, 40G QSFP+ DAC 电缆, 56G QSFP+ DAC 电缆, 100G QSFP28 DAC 电缆, 200G QSFP56 DAC 电缆, 400G QSFP-DD DAC 电缆, 40G DAC Breakout 电缆, 56G DAC Breakout 电缆, 100G DAC Breakout 电缆, 200G DAC Breakout 电缆, 400G DAC Breakout 电缆等。

无源铜缆的优点

1、成本低,无源铜缆不含任何有源电子元件(如信号放大器、处理器等),仅由铜导线和连接器组成,制造成本远低于有源铜缆(Active DAC)和有源光缆(AOC),是短距离连接中性价比极高的选择。

2、功耗低,由于无需电子元件进行信号处理或放大,无源铜缆几乎不消耗电力,能有效降低设备的能耗和散热压力,尤其适合对功耗敏感的数据中心环境。

3、延时低,无源设计避免了有源元件的信号延迟,数据传输的实时性更好,适合对延迟敏感的短距离互连场景(如机架内服务器与交换机的连接)。

4、结构简单、可靠性高,没有复杂的电子组件,减少了故障点,使用寿命更长,且抗电磁干扰(EMI)能力在短距离内表现稳定,维护成本低。

无源铜缆的缺点

1、传输距离有限,铜缆的信号衰减较明显,无源设计无法对信号进行放大或补偿,因此传输距离通常被限制在 7 米以内(部分高规格产品可达 10 米),超过该距离后信号质量会显著下降,无法满足长距离传输需求。

2、线缆较粗、柔韧性差,为保证信号完整性,无源铜缆(尤其是高带宽型号,如 100G QSFP28 DAC)的铜导线直径较粗,线缆整体较硬,在狭窄空间的安装灵活性较差,不易弯曲或整理。

这一点在服务器的连接中很直观,DAC非常粗,在这种狭小空间中的安装,灵活性非常差。

图片

3、带宽受限,虽然无源铜缆支持多种带宽(如 10G、25G、100G 等),但随着带宽提升,其有效传输距离会进一步缩短,且高频信号在铜缆中更容易受损耗和干扰影响,难以满足超高速率(如 400G 及以上)的长距离传输需求。

4、抗干扰能力有限,相比光缆(如 AOC),铜缆对电磁干扰(EMI)和射频干扰(RFI)更敏感,在强电磁环境中(如靠近电源设备或电机的场景)可能出现信号不稳定的情况。

ACC

如果只是看样子,其实都长的差不多。

图片

但内部是不一样的,ACC里面多了一个Redriver:

图片

我们之前也讲过retimer和redriver 的区别:

聊一聊数据中心的Retimer和Redriver

ACC的主要特点如下:

在信号处理上,连接器里有信号放大器、均衡器等有源组件,能减少信号衰减,提升长距离传输时的信号完整性。

传输距离方面,无源 DAC 通常最多能到 5-7 米,而 ACC 可以延长到 10-15 米左右,当然传输距离跟传输速率有关系,适合数据中心里的中距离连接。

数据传输速度上,和无源 DAC 差不多,根据线缆类型(如 SFP+、QSFP+、QSFP28 等),能支持 10 Gbps 到 100 Gbps 甚至更高。

延迟方面,ACC 和 DAC 一样保持低延迟,很适合既需要距离又需要速度的应用。

功耗上,虽然因为有集成电子元件,比无源 DAC 高,但一般比光缆(AOC)低,是中距离连接中比较节能的选择。

成本和灵活性方面,和 DAC 类似,比光纤解决方案更划算,尤其是在短到中距离场景,而且比光纤更灵活,也更容易管理。

AEC

图片

AEC就是上面ACC里面的redriver换成了retimer,具体区别还是参考上面提到的那篇文章。

AEC相对ACC来说,AEC 除了重驱动外,还可集成重定时器(CDR)、DDM 诊断、自定义信号优化算法,适用场景更广(如 400G 等高速率、长距离需求)。10G/25G ACC 有源铜缆最长传输距离可达 15 米,40G/50G/100G/200G ACC 有源铜缆最长传输距离可达 7 米。当然由于AEC里面加入了这些功能,成本也会更高。

来直观对比一下一个服务器的rack中,用DAC和AEC线缆的对比:

图片

GB200中用了哪些线缆?

关于GB200的互联方案,也可以参考我们最开始提到的那篇文章。

首先在NVL72的scale up的互联中,按照semianalysis的分析,英伟达并未选用光,而且用了5184 根铜缆,这是一种成本低得多、功耗更小且更可靠的选择。

每块 GPU 拥有 900GB/s 的单向带宽。每个差分对(DP)能够在单方向传输 200Gb/s 的数据,因此每块 GPU 在双向传输时需要 72 个差分对。由于每个 NVL72 机架包含 72 块 GPU,这意味着总共需要 5184 个差分对。而每根 NVLink 线缆包含 1 个差分对,因此也就需要 5184 根线缆。

图片

而且按照semianalysis的说法,这些互联使用的都是ACC

在GB200的Backend Networking中,用光学连接的部分,用于 GPU-GPU 跨机架通信。光用于长距离连接(如从计算架到服务架的开关),因为铜缆距离有限。SA提到,如果使用顶架(Top of Rack)设计,可用 DAC/ACC 铜缆节省 ~32k 美元/架,但多数部署因功率限制需用光学。

对于Frontend Networking,也可以采用光,但多数客户(如 Amazon/Google/Microsoft)用自定义 NIC,仅需 200G 带宽/托盘,且可使用铜缆节省 ~3.5k 美元/系统。