奎芯科技:UCIE标准下互联IP的机遇

图片

随着人工智能技术的飞速发展,AIGC模型正逐步迈入万亿参数时代。这一突破不仅标志着AI技术的又一次飞跃,也为整个行业带来了新的挑战和机遇。

上海集成电路2024年度产业发展论坛暨第三十届集成电路设计业展览会(ICCAD-Expo 2024)上,奎芯科技联合创始人兼副总裁唐睿接受芯榜采访。

图片

图;奎芯科技联合创始人兼副总裁唐睿

唐睿博士表示,数据中心Scale Up / Scale Out离不开互联IP,自2022年3月成立以来,UCIe联盟得到了业界的广泛支持,当前不同IP公司之间的互联互通仍然存在较大难度,这对于奎芯科技来说是一个宝贵的机会。

AI芯片看重内存和互联带宽

唐睿博士分析,除了内存性能外,互联带宽是影响AI芯片性能的关键因素之一。AI芯片需要通过高速的互联接口与其他组件(如CPU、内存、存储等)进行数据交换。因此,互联带宽的大小直接决定了数据交换的速度和效率。

主流AI芯片普遍采用高性能的互联技术,如NVLink、PCIe等,以提供足够的带宽支持。例如,英伟达Blackwell GPU支持FP4精度,GB200的FP4计算能力可以达到20P,其计算能力是FP8的两倍,NVlink为3.6TB/s,显存容量为384GB,显存带宽为16TB/s,支持多GPU之间的高速数据交换。这种高性能的互联技术,使得AI芯片能够在分布式训练、大规模并行计算等场景中发挥出色的性能。

图片

数据中心Scale Up / Scale Out离不开互联IP

Scale Up(纵向扩展)和Scale Out(横向扩展)作为两种关键的扩展策略,对于提升数据中心的性能和效率至关重要。而在这两种扩展策略的背后,互联IP扮演着不可或缺的角色。

唐睿博士称,无论是Scale Up还是Scale Out,互联IP都是实现高效数据交换和资源共享的关键。互联IP包括各种网络接口、通信协议和芯片间连接技术,它们共同构成了数据中心内部和外部的数据传输通道。

在Scale Up策略中,互联IP的主要作用是提升单个节点内部的数据传输效率。通过采用高性能的通信协议和芯片间连接技术,可以确保节点内部各个组件之间的数据交换快速、可靠。例如,NVLink等高性能互连技术被广泛应用于GPU集群中,以实现高速的数据传输和共享。

而在Scale Out策略中,互联IP的作用则更加复杂。除了需要确保节点内部的数据传输效率外,还需要实现节点之间的高效互联和通信。这要求互联IP具备高带宽、低延迟和高度可扩展性等特点。例如,InfiniBand和RoCE等网络协议被广泛应用于Scale Out数据中心中,以实现节点之间的高速数据交换和通信。

UCIE标准下互联IP存在机遇

自2022年3月成立以来,UCIe联盟得到了业界的广泛支持,包括AMD、Arm、Google Cloud、英特尔、Meta、微软、高通三星、台积电等领先企业。这些公司的参与不仅确保了UCIe规范的技术先进性,也促进了行业内的协作和标准化。

当下不同IP公司之间的互联互通仍然较为困难,这对于奎芯科技这样的初创公司提供了宝贵的机会。

唐睿博士分析,从机会的角度来看,已经购买了UCIe IP的公司很愿意搭配Chiplet进行合作,对于形成闭环生态是有帮助的。但是对于产业来说,这种合作方式可能存在不利影响。作为初创公司,奎芯科技更倾向于比较开放的生态,这样可以带来更多机会。

奎芯科技设计IP时,尽量兼顾各种不同layer之间的互联互通。目前主要的竞争优势还是体现在先发优势和自己配套的Chiplet产品上。

奎芯科技具有先发优势上,当下在几个制程节点上已经完成了16G及32G两个速度的标准IP,同时这个速率在标准封装上实现的,从这个角度来说,比先进封装上实现同样的速率要难,因为信道在标准封装上更差,所以实现同样的速率要更难一点。

Chiplet互连芯粒IO Die客户不仅可以使用UCIe IP来实现芯片的同质Die互连,也可以接上奎芯科技的IO Die做接口的转换,增加了灵活性。

图片

唐睿博士总结道,奎芯科技今年ML100 IO Die已经实现商业化,并完成了两个客户的落地。这个产品目前主要解决从UCIe到HBM的连接,UCIe的速度达到32G,如果摆放16个模组,UCIe IP的带宽正好匹配HBM3IP的带宽。ML100 IO Die可以大大降低封装成本。