集微网消息,作为全球排名第七、中国大陆排名第一的半导体IP供应商,芯原股份具有丰富的IP储备,包括神经网络处理器(NPU)IP、图形处理器(GPU)IP、视频处理器(VPU)IP、数字信号处理器(DSP)IP、图像信号处理器(ISP)IP、显示处理器IP这六大类处理器IP,以及1500余种数模混合IP及射频IP。
芯原股份各类处理器IP不仅具备业内领先的技术和市场表现,还能与其自有的其他处理器深度融合形成各类创新的IP子系统和IP平台,在当下的AI浪潮中为各类应用提供强大的算力支撑,尤其是各界重点关注的人工智能计算方向。
7月14日,在无锡举行的ICDIA大会同期举行的AIoT与ChatGPT专题会议上,芯原股份机器学习软件副总裁查凯南介绍了芯原用于高性能Transformer推理的NPU IP——VIP9000。
NPU一般包含可编程引擎 (Programmable Engines, PPU)、神经网络引擎 (Neural Network Engine, NN) 和各级缓存。芯原单核的VIP9000 架构同样包含一个能够支持Transformer、CNN、MLP等大规模运算的神经网络加速器,一个具备可扩展能力的并行多线程可编程处理器,以及一个包含SRAM在内的张量处理架构。
查凯南介绍称,VIP9000致力于将神经网络中所有的运算都在神经网络加速器和可编程引擎两个处理器中完成,以减少外部CPU等其他处理器的负担。除了单核的VIP9000,扩展系列中的多核NPU IP主要应用于大型任务运算处理。
以芯原VIP9400为例,其包含了4个单独的VIP9000核处理器,大型任务能够通过数据并行或模型并行在4个VIP9000核中同时处理,而这4个核也可以单独处理独立任务,并实现数据和控制同步。
目前,芯原提供的算法库中包含160多种算子,几乎囊括市面上神经网络可以落地的所有算子。而且在上层应用中,查凯南透露,芯原能够提供整套的软件解决方案,包括编译器、模型转换工具和量化工具等,帮助SoC厂商的产品快速落地。
今年以来,ChatGPT的爆火引领了新一波的AI热潮。查凯南指出,ChatGPT的核心是Self-Attention(自生成),这种概念始于2017年Google发布的论文《Attention is all you need》,当时首次被提出的Transformer模型成为了GPT发展的基础,但在后来一段时间里该模型主要应用于一些翻译工作,直到如今OpenAI发布的ChatGPT才彻底引爆。
为迎接当前大语言模型带动的AI发展机遇,芯原也从端侧开始向云侧深化布局,推出提供更大算力的AI处理器IP。该公司最新的NPU IP VIP9000便从传统的卷积神经网络架构转向Transformer架构,并做出三项优化以应对复杂运算,包括GEMM/GEMV的优化,矩阵转置引擎的优化以及流处理器的优化。
除了支持传统的INT8、INT16、FP16外,最新VIP9000还添加了8位浮点数格式FP8的支持,进一步减少带宽并提升准确性,满足越来越高的推理需求。查凯南指出,芯原VIP9000能让客户在云端完成FP8训练后,直接快速部署到支持FP8的硬件中,避免精度不同带来的额外损耗。
对于FP8的支持,查凯南透露,目前芯原在E4M3和E5M2两种变体中都与英伟达保持一样的指数位置支持。
另外,最新的VIP9000还完成了基于Multi-head Self Attention的图优化,减少转置操作,并降低10%的带宽。
经过优化后的VIP9000也迎来了更佳的单核性能表现,在基础的ViT、Bert、DETR等网络基准中,VIP9000已能实现50%~70%的算力利用率。
最后,查凯南指出,目前芯原单核VIP9000能提供50TOPS的算力,多核则能够提供至多400TOPS的算力。展望未来,随着大语言模型部署所需要的算力越来越高,芯原也将积极参与其中,进一步解决不同框架下量化后的精度问题,提高训练后的量化准确性,并开发对于LLM的微调支持。
本届ICDIA 2023大会期间,作为滴水湖论坛和松山湖论坛主办方之一的芯原股份还携部分往届优秀企业亮相,并在ICDIA展会专设“松山湖论坛创新国产芯片展区”和“滴水湖论坛RISC-V国产芯片展区”,其中包括参加过松山湖论坛产品推介的迈矽科、每刻深思、纽瑞芯、芯炽集团、思坦科技、视海芯图、知存科技、隔空科技、泰矽微电子和中科融合,以及参加过滴水湖论坛产品推介的时擎科技、中科昊芯、算能、芯昇科技、先楫半导体、启英泰伦、爱普特、泰凌微电子等。
查看原图 180K