客户端
游戏
无障碍

0

评论

收藏

分享

手机看

微信扫一扫,随时随地看

传输带宽比NVLink大30倍,光互联公司CelestialAI融资2.5亿美元|AlphaFounders

尽管模型预训练的Scaling Law效果正在减弱,但AI模型的参数规模还是越来越大,再加上推理侧的Scaling Law成为新范式,无论是训练还是推理计算,对于AI基础设施的压力越来越大,尤其对计算能力和数据传输效率提出了更高要求。

面对新范式和新需求,传统电子互连技术的性能已经捉襟见肘,而造成瓶颈的技术根源在于内存和计算的不解耦,GPU的算力核心和内存绑定在一张算力卡上,而卡和卡之间,计算集群和计算集群之间的互联速度如果不够,就会出现一边算力是闲置的,另一边内存容量却不够的情况。

一家叫CelestialAI的光学计算公司,利用光互联技术,将算力和内存解耦,通过支持跨多个算力集群、数千个XPU(算力单元)的大规模扩展域,彻底解决了这个瓶颈。它将封装外带宽提升至“其他尖端技术”的30倍,将延迟和功耗降低10倍。

图片

自2023年起,CelestialAI陆续获得1亿美元的B轮融资,1.75亿美元的C轮融资,2025年3月又获2.5亿美元的C1轮融资,新融资由Fidelity Management领投,参投的机构还有BlackRock、Maverick Silicon、Tiger Global和陈立武(Intel新CEO)管理的基金,AMD Ventures、淡马锡和Xora Innovation、Porsche Automobil Holding、MIT分拆的风险投资公司The Engine也参与投资。

图片

30年半导体老兵与贝尔实验室研究员一起打破AI算力中心的内存墙


CelestialAI由David Lazovsky(CEO),Preet Virk以及Phil Winterbottom(CTO)联合创立,其技术解决方案由曾担任贝尔实验室研究员的Phil Winterbottom设计。David Lazovsky在半导体行业有30年经验,Preet Virk是连续创业者,而Phil Winterbottom则有多年带领技术团队的经验。

值得一提的是,CelestialAI的董事会成员也异常豪华,刚刚投资他们的陈立武(Intel新CEO,华登国际主席,前Cadence首席执行官)加入了董事会,还有曾担任Marvell董事会成员的Bethany Mayer和担任Broadcom(博通)董事会成员的Diane Bryant,他们都能给CelestialAI带来丰富的半导体行业产业资源。

利用光互联将算力和内存解耦,带宽是NVLink的30倍

目前的AI算力中心,面临的一大问题是算力和内存闲置,例如微软Azure的算力中心中,有高达25%的内存是“闲置”的;微软估计,减少这些闲置内存可以将数据中心成本降低4%至5%。

而造成内存和算力闲置的技术根源在于内存和计算的不解耦,也就是算力卡的算力核心和内存,必须绑在一张卡上,而如果卡和卡之间,计算集群和计算集群之间的互联速度不够,就会出现一边算力是闲置的,另一边内存容量却不够的情况。

而不解耦的原因在于,为了保证传输信号完整性,算力芯片和HBM内存的距离,必须封装在2mm之内,这就造成一个芯片匹配的内存容量是有限的。

CelestialAI的Photonic Fabric通过光互联技术,实现了算力芯片和HBM内存的解耦,让单个XPU(算力核心)可以集成更多的内存模块,获得更大的内存容量。

图片
CelestialAI的Photonic Fabric使算力核心得以扩展更多内存

在数据传输方面,目前的主流技术是NVIDIA的NVLink和NVSwitch,NVLink负责卡与卡之间的通信,NVSwitch负责算力集群与算力集群之间的通信。

最新的NVLink 4.0版,算力卡间双向带宽是900 GB/s,NVSwitch提供的总带宽则是57.6 TB/s ,它能够支持最多256个GPU的互联。

CelestialAI的算力卡间互联产品是PFLink,算力集群间互联产品是PFSwitch,PFLink的算力卡间双向带宽是28.8TB/S,而PFSwitch则可以支持数千个XPU之间的互联。

图片

基于这些技术,在实际的算力中心架构搭建上,可以实现单独的算力集群和储存集群,而算力集群和储存集群间可以用超高速进行通信。

图片
算力核心和内存解耦,使得计算集群和内存集群可以独立,并实现高速通信

因为光学传输的低延迟和低功耗,Celestial AI的Photonic Fabric技术在卡与卡之间的数据传输延迟是150ns(纳秒),传输1bit的功耗只需要几个PJ(皮焦)。综合计算下来,与传统技术相比,它将封装外带宽提升至“其他尖端技术”的30倍,将延迟和功耗降低10倍。

兼容性方面,在芯片层面,CelestialAI完全兼容行业标准制造和多芯片2.5D封装流程;在芯片间互联方面,它也与大多数行业互连标准(如CXL、PCIe)兼容,同时它还支持当前HBM3E和下一代HBM4的带宽和延迟要求。

目前,CelestialAI已经与超大规模算力中心客户进行“深入战略合作”,也与Broadcom(博通)和 Samsung(三星)进行ASIC设计和HBM、DDR内存封装等方面合作。CelestialAI正致力于打造它自己的“光子计算和互联生态系统。”

“CelestialAI的Photonic Fabric技术平台引入了一套革命性的光互联架构工具,从AI加速器和GPU封装扩展到超大规模AI集群。它在AI计算、网络和内存解决方案方面的变革潜力,可能与OpenAI的GPT对AI模型的影响一样重大。”陈立武表示。

图片
提高训练和推理效率,是AI生态互相配合的系统工程

提升算力芯片间和算力集群间的传输速度,降低内存和算力的闲置,降低能耗,这些改进本质都能降低算力中心的总拥有成本(TCO),进而也有可能降低AI创业公司的运营成本。

除了CelestialAI的产品外,我们此前还介绍了一家叫Enfabrica的公司,也在往这个方向努力。它的总体解决方案,也是将计算和内存解耦,在算力中心中实现独立的算力集群和内存集群,然后在集群中实现高速数据传输。只不过它的技术方案是通过一种叫ACF的转换芯片实现,并且采用了内存池分层技术,而CelestialAI则采用的是光互联技术来实现。

CelestialAI当然也不是行业里唯一一家使用光互联来解决数据传输问题的厂商,此前我们介绍过的公司Lightmatter(融资4亿美元),采用一种叫Passage的光互联技术,配合它的Envise光子计算平台,能够将AI算力集群提速数十倍。

进一步分析,要提升AI整体的训练和推理效率,是一个系统的工程,需要在模型,AI硬件,AI云服务等层面共同优化。

具体来说,在硬件中的算力芯片上,有英伟达的训练芯片,例如H100,也有不少创业公司推出的专用推理芯片,例如d-Matrix的Chiplet推理计算卡Corsair(推理速度是H100的9倍)和Groq等公司的产品。

在硬件的数据传输速度提升上,有CelestialAI,Lightmatter的光互联传输,也有Enfabrica的ACF转换芯片。

在模型层面,有DeepSeek开源的FlashMLA(大幅降低长上下文推理成本),DeepEP(高吞吐的训练和低延迟的推理),DualPipe(提升MoE模型训练效率),以及Together.ai的首席科学家Tri Dao推出的FlashAttention-3。

Together.ai和Foundry等云平台则将模型部署的工作简化,让企业可以低成本和低摩擦的使用模型来搭建业务。

正是整个生态系统的努力,打造了AI时代的基座,让创业者可以像自来水一样使用AI能力,从而可以将精力集中到打造产品和满足用户需求上。

在中国市场,随着今年年初DeepSeek R1这款开源模型的横空出世,以及各个云厂商和国产AI芯片厂商的积极适配,中国的AI创业者有了自主可控,强大且低成本的AI模型底座。这无疑是一个好的开始,随着中国市场AI生态系统各个玩家的努力,无论是在基础设施,模型,还是应用上,中国AI的国际竞争力会越来越强,目前我们已经看到了这样的趋势。

本文由阿尔法公社原创。

更多精彩内容

关于阿尔法公社
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部