趋势丨速度提升数十倍,用光子计算重塑AI算力集群

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发





前言
要实现超强的AI能力,需要超大规模的模型,要训练超大规模的AI模型,需要数千,甚至上万的GPU协同工作。

这就带来几个问题:更多的GPU造成的高能耗,计算卡与计算卡之间的通信延迟,计算集群与计算集群之间的通信延迟和算力损耗。

那么,如果用光来计算,用光来传输,会怎么样?


作者 | 方文三
图片来源 |  网 络 

图片

光子计算初创公司Lightmatter


Lightmatter近日宣布成功融资4亿美元,这一巨额资金将用于突破现代数据中心的瓶颈。


Lightmatter作为一家在光学领域具有创新实力的公司,其研发的光学技术成功应用于AI算力集群,实现了性能的飞跃。


传统的电子传输在数据处理速度上逐渐面临瓶颈,而Lightmatter的光学技术则利用光子的特性,以光速进行数据传输和处理,大大减少了数据传输的延迟,从而显著提高了整个算力集群的运行效率。


这种技术突破并非一蹴而就,是Lightmatter团队长期投入研发的成果。他们在光学芯片设计、光通信协议等关键领域进行了深入研究和创新,克服了诸多技术难题,最终实现了将光学技术与AI算力集群的完美融合。


Lightmatter由Nicholas Harris、Darius Bunandar和Thomas Graham于2017年创立。Nicholas Harris是麻省理工学院量子光子实验室的成员,2012年,他与合作者实现了“可编程纳米光子处理器”(PNP),这是一种基于硅光子学的光学处理器,可以对光进行矩阵变换。


图片

光子计算重塑AI算力集群


Lightmatter有光子计算单元,有光学芯片封装和传输技术,能够系统化提升整个AI计算集群的计算力,计算效率,并降低功耗。


Lightmatter的光学互连层技术允许数百个GPU同步工作,极大地简化了AI模型训练和运行的复杂性和成本。


AI技术的迅猛发展,数据中心行业迎来了前所未有的增长,但并非简单的增加GPU数量就能解决问题。


高性能计算专家早已指出,如果超级计算机的节点在等待数据输入时处于空闲状态,那么节点的速度再快也无济于事。


互连层是将CPU和GPU架构成一个巨大计算机的关键,而Lightmatter通过其自2018年以来开发的光子芯片,构建了目前最快的互连层。


公司CEO兼创始人Nick Harris表示,超大规模计算需要更高效的光子互连技术,而传统的Cisco交换机无法满足这一需求。


目前,数据中心行业的顶尖技术是NVLink和NVL72平台,但这些技术在网络速度和延迟方面仍存在瓶颈。


Lightmatter的光子互连技术通过纯光学接口,每根光纤可达到1.6 terabits,显著提升了数据中心的性能。


创始人Harris指出,光子技术的发展速度远超预期,经过七年的艰苦研发,Lightmatter已经准备好迎接市场的挑战。


图片


超快计算,超快连接,软件兼容


Lightmatter的产品分为光子计算平台(Envise),芯片互连产品( Passage)和适配软件(Idiom)三部分。


Envise:是世界首个光子计算平台,每个Envise处理器拥有256个RISC内核,提供400Gbps的芯片间互连带宽,而且支持PCI-E 4.0标准接口,具有不错的兼容性。


Envise处理器的原理是光通过波导进行计算,而每增加一种颜色的光源,就能相应增加运算速度。


同样是一个计算核心,当光源种类达到8种,就能提升8倍的计算性能,同时计算效率也达到普通计算核心的2.6倍。当计算核心和光源种类同步提升时,计算性能可以提升数十倍。


图片


Passage:是一种利用光子进行芯片互连的技术,属于I/O技术的一种。任何超级计算机都由许多小型独立计算机组成,为了发挥性能,它们必须不断相互通信,确保每个核心都知道其他核心的进展,并协调超级计算机设计应对的极其复杂的计算问题。


Lightmatter的技术利用波导(wave guide)而非光纤在一个大的芯片间为各个不同种类的计算核心互连并传输数据,这提供了极高的并行互连带宽。


图片


Idiom:是一个工作流工具,它可以让基于Pytorch、TensorFlow或ONNX等框架构建的模型,直接在Envise计算基础设施上使用。无需更改 Pytorch、TensorFlow或ONNX文件。


此外,它还为开发者提供一系列方便的工具,例如可以自动虚拟化每个 Envise服务器,在多个Envise服务器之间执行分区,为多个不同的用户个性化分配使用的芯片数量。


图片


市场竞争格局


Lightmatter的光子互连技术不仅提升了数据中心的性能,还吸引了包括微软、亚马逊、xAI和OpenAI在内的众多大型数据中心公司的关注。


此次4亿美元的D轮融资使Lightmatter的估值达到44亿美元,成为光子计算领域的领军企业。


但专注于光子计算的公司,不止Lightmatter一家,Celestial AI也在今年3月获得了1.75亿美元的C轮融资,它主要利用光在芯片内部和芯片之间进行数据移动,与Lightmatter的Passage类似。


中国市场上也有不少在光子计算领域耕耘的公司,只是它们的发展规模相对较小。


目前,中国市场的AI算力硬件公司们,其实面临着弯道超车的机会。这个局面有些像中国的新能源汽车行业,不在旧有的体系架构上追赶国外巨头,而用新技术去满足新需求,建立自己的优势。


一方面AI计算是一个相对较新的领域,海外的公司有领先,但是并没有构建很难逾越的壁垒,另一方面AI是专有计算,有不少开源的计算架构适合AI。


中国公司只要能研发出一些自有的IP,再利用本身就具有的强工程能力,就很有可能开发出至少不逊于海外的算力硬件。


图片

结尾:


未来,Lightmatter不仅将继续优化互连技术,还将开发新的芯片基板,进一步提升光子计算的性能。Harris预测,未来十年,互连技术将成为摩尔定律的核心。


内容来源于:阿尔法公社:用光学让AI算力集群提速数十倍,Lightmatter融资4亿美元|AlphaFounders;安特恩:光子计算新纪元:Lightmatter融资4亿美元,引领AI数据中心革命


本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。