1.曦智科技发布新一代光电混合计算卡“曦智天枢”,实现光电混合计算在复杂商业化模型中的应用。
2.天枢采用3D先进封装技术,光芯片和电芯片协同工作,最大可支持128x128矩阵规模,运算能力和灵活性双重提升。
3.曦智科技首席技术官孟怀宇博士提出等效光算力(EOPP)标准,更符合光计算的原理和特点。
4.除此之外,天枢搭载了曦智光电混合计算软件栈,支持多种主流算法模型,与主流框架如Pytorch和ONNX深度集成。
5.目前,曦智科技光电混合计算卡已在EDA、量化交易、银行等领域得到应用,更多应用场景正在开拓中。
以上内容由腾讯混元大模型生成,仅供参考
3月25日,曦智科技正式发布全新光电混合计算卡“曦智天枢”。曦智科技创始人兼首席执行官沈亦晨博士在发布现场表示:“曦智天枢首次实现了光电混合计算在复杂商业化模型中的应用,是曦智科技光电混合算力技术在产品化和商业化进程中的重要突破。我们坚信,光电混合将会为人工智能、大语言模型、智能制造等领域带来算力革新。”
△曦智科技光电混合计算卡“曦智天枢”
128x128光子矩阵,算力和灵活性双重提升
天枢是一款深度融合光芯片与电芯片各自优势特点,并采用了3D先进封装技术的可编程光电混合计算卡。该产品在光电集成度、光子矩阵规模、精度、可编程性等方面较前代产品实现了明显性能提升。天枢在支持科学计算(如伊辛算法)基础上,加强了对于ResNet50等商业算法应用的支持,在保持光计算优势的基础上,大幅提升了产品通用适配性。
2021年12月,曦智科技首次对外发布光电混合计算产品,成功验证了光电混合计算在特定算法下,相较于主流GPU数百倍的速度优势。今天曦智天枢的问世,代表光电混合技术已在产品实现方面取得了巨大跨越。
△曦智科技光电混合计算卡“曦智天枢”
天枢采用非相干架构,这种设计不仅易于系统扩展,还具备出色的抗干扰能力和更高的计算精度。天枢的核心处理器由光学处理单元(OPU)和电学专用集成电路(ASIC)组成,光芯片和电芯片通过3D先进封装技术协同工作,主频速率1GHz,输出精度8bit;其中光芯片面积达到600平方毫米,较上一代芯片提升3倍;光芯片上的器件数量超四万个,器件尺寸进一步缩小,集成度显著提升;天枢最大可支持128x128矩阵规模,是上一代芯片的4倍,运算能力和灵活性双重提升;相对电芯片的时延降低了30倍;用户通过API自由配置计算矩阵系数,使天枢拥有了更强的适应性和优化空间。
光子芯片性能评价全新标准:等效光算力
光子计算是一种被动运算,运算任务在光通过光子矩阵的过程中即可完成,它颠覆了传统CMOS电子芯片的运算逻辑。光子芯片的性能提升与光子矩阵规模、主频速率和波长数量等参数相关,而不依赖晶体管的密度及芯片制程的提升。因此,对于光子芯片的性能的评价存在着各种不同的标准,这也是为什么参数相近的光子芯片,但是对外宣传的性能差异巨大。
曦智科技首席技术官孟怀宇博士在发布会上首次对外提出了等效光算力(EOPP:Effective Optical Processing Power)标准。这是一个考虑了矩阵规模、输出精度、权重刷新速度等的综合算力评价方法,相比当前主流的电芯片指标计算方法,更符合光计算的原理和特点。“光电混合计算是未来的算力趋势,我们希望业界对于光子计算的算力能够拥有一个更客观的衡量标准”,孟怀宇博士表示。
基于该评价标准,曦智科技最新的128×128光子矩阵的光芯片的等效光算力可达84EEOP,达到其上一代光芯片的4倍。
先进的3D光电封装技术
为实现光电芯片间的高效集成,天枢采用光电混合3D TSV(Through Silicon Via,硅通孔)+ FlipChip(倒装芯片)封装技术。TSV的运用显著降低了光电芯片间的传输延迟,并提升了信号完整性和散热性能,同时能够节省芯片面积,为芯片设计提供更高的灵活性。
孟怀宇博士表示:“曦智科技自创立之初就看到封装对于光电集成的重要性并不断努力攻克技术难关,TSV的成功落地解决了传统封装技术的瓶颈,其价值和意义是惠及整个光电混合产业的。”
在制造良率方面,据曦智科技首席运营官王泷透露,曦智科技目前的光芯片、电芯片的制造良率及3D封装良率整体还是比较不错的。
在供应链方面,在全球贸易摩擦加剧的背景下,曦智科技也已经开始推动供应链的本地化,目前已实现了高度的自主可控。
提供完整SDK,支持多种主流算法模型
在软件方面,天枢搭载了曦智光电混合计算软件栈,其算子库包含RVV(RiscV Vector)算子,电矩阵(dMAC)加速算子,光矩阵(oMAC)加速算子, 支持CV类和LLM类模型,以及non-AI算子,如Ising,LineSolver等。用户借助曦智编译器,可以灵活地运用这些算子来构建高效的应用模型。此外,平台还支持用户自定义算子,通过OpenCL C/C++语言进行编译和优化,进一步扩展了算法开发的灵活性。
曦智科技的软件栈与主流框架如Pytorch和ONNX深度集成,客户可以通过软件栈直接使用天枢的光矩阵和电矩阵加速单元对模型和算法进行加速和验证,也可以将模型通过曦智编译框架编译部署在端侧进行推理。通过软件栈,天枢成功运行了深度卷积神经网络模型ResNet50及AI大语言模型LlaMA 2,首次实现了光电混合计算在商业化场景中的应用。另据曦智科技向芯智讯透露,目前对于DeepSeek大模型的适配也正在进行当中。
应用场景广泛
曦智科技首席运营官王泷表示:“天枢的背后,是曦智科技硅光、数字、模拟、封装、系统、软件等团队协同的成果,我们希望有更多的开发者和生态伙伴,通过天枢和我们一起探索光电混合算力更广阔的应用场景,向着光电混合算力商业化的方向共同前行。”
据了解,目前曦智科技光电混合计算卡已经有被EDA(光电混合计算卡)、量化交易、银行等领域的客户采用。此外,在图像识别、医疗影像分析等更多的应用场景也在开拓当中。
曦智科技创始人兼首席执行官沈亦晨博士也多次强调,不同于迟迟难以商业化的量子计算,光计算已经是可以商用落地的技术。而曦智科技的光电混合计算卡作为全球首个支持商用算法的光计算产品,也已经获得了众多行业客户的采用。
在发布会现场,北京大学研究员、助理教授、博士生导师常林也在现场分享了其利用曦智科技光电混合计算卡在雷达成像、高准确度医疗影像识别分割等任务当中的表现。
比如在雷达成像方面,由于以FFT算法(FFT算法是距离-多普勒算法的核心,主要构建SAR/iSAR高分辨率图像)为主的线性计算占比超过50%。因此,传统方案需要专用处理电芯片或高性能GPU来实现。而曦智科技光电混合计算卡的优势就在于非常适合线性计算加速,并且时延更低,因此更适合雷达成像应用。据常林介绍,在处理规模为5000×5000左右的复数矩阵,70%以上的运算都可以在曦智科技光电混合计算卡上实现,且精度可以达到8bit。
同样,在医疗影像分割方面,U-Net是一种广泛应用于临床医疗诊断的图像分割深度学习模型,其中矩阵相乘运算占比超过95%,也非常适合利用曦智科技光电混合计算卡来进行加速。常林称,对于不同的医疗影像分割任务,曦智科技光电混合计算卡在U-Net算法上都能取得与高性能GPU相当的准确度。
曦智科技已启动下一代光电混合计算产品的研发,曦智科技创始人兼首席执行官沈亦晨博士表示:“未来产品将会进一步提升计算能力,以支持更为复杂的商业化应用场景,为人工智能、算力中心提供新型算力支撑。”
编辑:芯智讯-浪客剑