奎芯科技：UCIE标准下互联IP的机遇

芯榜

2025-01-08 21:53发布于广东

随着人工智能技术的飞速发展，AIGC模型正逐步迈入万亿参数时代。这一突破不仅标志着AI技术的又一次飞跃，也为整个行业带来了新的挑战和机遇。

上海集成电路2024年度产业发展论坛暨第三十届集成电路设计业展览会（ICCAD-Expo 2024）上，奎芯科技联合创始人兼副总裁唐睿接受芯榜采访。

图;奎芯科技联合创始人兼副总裁唐睿

唐睿博士表示，数据中心Scale Up / Scale Out离不开互联IP，自2022年3月成立以来，UCIe联盟得到了业界的广泛支持，当前不同IP公司之间的互联互通仍然存在较大难度，这对于奎芯科技来说是一个宝贵的机会。

AI芯片看重内存和互联带宽

唐睿博士分析，除了内存性能外，互联带宽是影响AI芯片性能的关键因素之一。AI芯片需要通过高速的互联接口与其他组件（如CPU、内存、存储等）进行数据交换。因此，互联带宽的大小直接决定了数据交换的速度和效率。

主流AI芯片普遍采用高性能的互联技术，如NVLink、PCIe等，以提供足够的带宽支持。例如，英伟达Blackwell GPU支持FP4精度，GB200的FP4计算能力可以达到20P，其计算能力是FP8的两倍，NVlink为3.6TB/s，显存容量为384GB，显存带宽为16TB/s，支持多GPU之间的高速数据交换。这种高性能的互联技术，使得AI芯片能够在分布式训练、大规模并行计算等场景中发挥出色的性能。

数据中心Scale Up / Scale Out离不开互联IP

Scale Up（纵向扩展）和Scale Out（横向扩展）作为两种关键的扩展策略，对于提升数据中心的性能和效率至关重要。而在这两种扩展策略的背后，互联IP扮演着不可或缺的角色。

唐睿博士称，无论是Scale Up还是Scale Out，互联IP都是实现高效数据交换和资源共享的关键。互联IP包括各种网络接口、通信协议和芯片间连接技术，它们共同构成了数据中心内部和外部的数据传输通道。

在Scale Up策略中，互联IP的主要作用是提升单个节点内部的数据传输效率。通过采用高性能的通信协议和芯片间连接技术，可以确保节点内部各个组件之间的数据交换快速、可靠。例如，NVLink等高性能互连技术被广泛应用于GPU集群中，以实现高速的数据传输和共享。

而在Scale Out策略中，互联IP的作用则更加复杂。除了需要确保节点内部的数据传输效率外，还需要实现节点之间的高效互联和通信。这要求互联IP具备高带宽、低延迟和高度可扩展性等特点。例如，InfiniBand和RoCE等网络协议被广泛应用于Scale Out数据中心中，以实现节点之间的高速数据交换和通信。

UCIE标准下互联IP存在机遇

自2022年3月成立以来，UCIe联盟得到了业界的广泛支持，包括AMD、Arm、Google Cloud、英特尔、Meta、微软、高通、三星、台积电等领先企业。这些公司的参与不仅确保了UCIe规范的技术先进性，也促进了行业内的协作和标准化。

当下不同IP公司之间的互联互通仍然较为困难，这对于奎芯科技这样的初创公司提供了宝贵的机会。

唐睿博士分析，从机会的角度来看，已经购买了UCIe IP的公司很愿意搭配Chiplet进行合作，对于形成闭环生态是有帮助的。但是对于产业来说，这种合作方式可能存在不利影响。作为初创公司，奎芯科技更倾向于比较开放的生态，这样可以带来更多机会。

奎芯科技设计IP时，尽量兼顾各种不同layer之间的互联互通。目前主要的竞争优势还是体现在先发优势和自己配套的Chiplet产品上。

奎芯科技具有先发优势上，当下在几个制程节点上已经完成了16G及32G两个速度的标准IP，同时这个速率在标准封装上实现的，从这个角度来说，比先进封装上实现同样的速率要难，因为信道在标准封装上更差，所以实现同样的速率要更难一点。

Chiplet互连芯粒IO Die客户不仅可以使用UCIe IP来实现芯片的同质Die互连，也可以接上奎芯科技的IO Die做接口的转换，增加了灵活性。

唐睿博士总结道，奎芯科技今年ML100 IO Die已经实现商业化，并完成了两个客户的落地。这个产品目前主要解决从UCIe到HBM的连接，UCIe的速度达到32G,如果摆放16个模组，UCIe IP的带宽正好匹配HBM3IP的带宽。ML100 IO Die可以大大降低封装成本。

查看原图