Arm:人工智能是我们这代人毕生一次的重大科技变革

人工智能是机遇也是挑战。正如Arm终端事业部产品管理副总裁James McNiven在Arm技术大会的主题演讲中所说:“人工智能的发展,对终端的性能和内存需求提出了空前的挑战。同时促使芯片、软件和系统层面的供应商面临更高标准的要求。”

图片

Arm终端事业部产品管理副总裁James McNiven

“在过去多十年里,Arm已经为此做了充分的准备”,James McNiven强调。

AI 时代,芯片的变与不变

纵观行业现状,在人工智能到来前的大部分时间里,以 CPU 为代表的处理器所做的大部分工作都是各种数学运算。然后,GPU 的出现给终端应用带来了更加逼真的图形体验。随着人工智能,尤其是通用人工智能 (AGI) 的横空出世,芯片行业正经历一场从云端到终端的变革浪潮,AI芯片技术成为科技行业的焦点,市场对芯片和算力的需求也变了。

在James McNiven看来,人工智能归根结底还是要回归到多样化的应用场景,这些场景的实现不仅依赖于可扩展的计算平台,还要求该平台具备出色的性能,以及能够缩短客户产品的上市时间。

图片

多年来,GPU 和专门设计的 AI 芯片因为其独到之处,能够在训练阶段发挥重要的作用。但在推理方面,GPU 等芯片受困于高成本、高功耗等问题,并不太适宜。特别是在 AI 推理逐渐从云端和数据中心向边缘设备迁移的趋势下,越来越多的 AI 负载将在边缘设备上完成。

于是,凭借卓越的灵活性与通用性,以及低功耗、低成本的特点,高能效 CPU 再次成为市场焦点,成为边缘AI 推理的核心,并在 AI 应用的各个阶段都发挥着关键作用。作为一家与时俱进的计算平台公司,Arm洞察到了这一市场发展趋势,从几年前开始就投身其中。

未雨绸缪,厚积薄发

众所周知,让 Arm 公司声名大噪的是与其同名的 Arm 架构,其低功耗、高性能的特点使它成为全球应用范围最为普及的技术架构。

据了解,早在 2005 年发布 Armv7-A 架构的时候,Arm 就引入了 SIMD (Single Instruction Multiple Data:单指令多数据)扩展技术,为一系列整型和浮点型提供单指令多数据 (SIMD) 扩展操作,让终端开发者可以初探如何更好地加速机器学习负载;在 2016 年,Arm 在 Armv8-A 中又引入了 SVE(Scalable Vector Extension:可伸缩向量扩展)技术,增强了其向量处理能力。

James McNiven也直言,十多年前,Arm便开始了对AI技术的投入。尤其是到2021 年发布 Armv9之后,Arm 在人工智能市场的实力再上新台阶。

图片

据James McNiven介绍,Armv9架构是专门面向AI工作负载设计。除了引入SVE2 技术外,还引入了 SME( Scalable Matrix Extension,可伸缩矩阵扩展 )和 SME2技术,显著提升了 Arm CPU 对现有人工智能 (AI) 和机器学习 (ML) 工作负载的处理能力,从而在各种 AI 驱动的设备和应用中带来速度更快、响应更灵敏的用户体验。

具体而言,Arm SME 是一个建立在 SVE2 基础之上的增强矩阵操作的架构扩展。与前者相比,SME新增了高效处理矩阵的能力。其关键功能包括:计算两个 SVE 向量的外积 (outer product)、矩阵块 (tile) 的存储、存取矩阵块中的向量、向矩阵块中插入向量和提取矩阵块里的向量,包括 on-the-fly 矩阵转置以及Streaming SVE 模式。

图片

上表总结了 SME、SVE 和 SVE2 的主要功能

在 Arm 看来,Arm SME 是为了满足当前日益复杂和高能耗的 AI 和 ML 应用需求,创新性地设计的 CPU 功能。除了加速现今的 AI,SME 也提供了在 Arm 架构上处理不断更新的生成式 AI 应用的灵活性。

从Arm的季度财报来看,具备SME与SVE2等AI新功能的Armv9已占据Arm版税营收的 25%,这主要来自智能手机市场的强劲表现。

从产品到平台,再接再厉

如果说架构的升级,是 Arm 从底层基础对 AI 的赋能。那么 Arm 终端 CSS (CSS for Client)的推出,则可以看作是 Arm 在上层应用对 AI 的支持。

过去,Arm 向客户提供多样化的 IP 授权服务,并从中收取授权费和版税。在处理器领域,除了少部分拿到架构授权的客户外,Arm 主要为大多数客户提供已经设计好的 Arm Cortex-A、 Cortex-M和 Cortex-R 以及 Arm GPU 等产品;随后,Arm还拓展出了Arm Neoverse平台、Arm 全面计算解决方案 (Arm Total Compute Solutions)以及Arm Corstone,这些都已经开始走向多个IP预集成验证的计算平台。

这些平台的推出,也推动了 Arm 逐步转型成为一家计算平台解决方案供应商。在全面计算解决方案于移动终端取得成功之际,Arm 更进一步,推出了 Arm 终端计算子系统 (CSS)。

图片

从 Arm 过去的介绍我们看到,Arm终端CSS 在进阶制程节点上集结了最新 Arm 计算 IP 及可立即生产的物理实现,可满足日益增长的计算效率需求,协助合作伙伴打造同级最佳的消费应用解决方案。通过Arm终端CSS,Arm不仅帮助芯片合作伙伴减少了开发工作量及缩短上市时间,同时提供了可扩展的差异化能力,使他们能够构建出独特且贴合市场需求的解决方案。

图片

今年发布的Arm终端CSS搭载了最新的 Armv9.2 CPU 集群,集成了性能最高的 Arm Cortex-X925 CPU、最高效的 Arm Cortex-A725 CPU 和更新的 Arm Cortex-A520 CPU。这为 AI 和其他实际计算工作负载提供了前所未有的性能和效率。

值得一提的是,在联发科最新发布的旗舰芯片天玑 9400 就采用了这个设计。其集成的 SVE2 可让联发科的芯片协助开发者和终端提升视频和图像处理,提供更好的照片质量,并为用户在观看流媒体视频和浏览社交媒体应用程序时提供了更好的续航能力。

软件也是Arm生态的重要组成,据了解,Arm 在软件领域深耕30多年,与广大的软件生态伙伴共同在 Arm CPU 平台上进行了大量的软件开发与优化,目前全球基于Arm平台进行软件开发的开发者人数已多达 2,000 万。

James McNiven强调,在软件方面,Arm需要高度一致性的软件平台,让客户只需要一次部署,就能将其应用到所有应用中;同时,这些软件也能帮助开发者更好地挖掘硬件性能;实现易用性和易访问性的双重保障。“软件是让 Arm 计算平台独树一帜的原因,这也得益于公司拥有的庞大且卓越的软件开发生态系统。”他进一步补充道。

图片

目前,通过持续壮大并打造开放且多样化的生态系统,Arm 正在支持 AI 时代下各领域的发展。

写在最后

在过去多年里,Arm和众多生态合作伙伴联手,加速创新 AI 应用的落地。James McNiven也重申,Arm能取得当前的成绩,合作伙伴的贡献功不可没。如图所示,软件和固件、先进的晶圆厂支持、可靠的第三方IP以及专业的设计服务,在AI时代,Arm强调与这些生态伙伴合作的紧密性将更胜以往。

图片

在本届的 Arm年度技术大会上,我们除了看到公司面向 AI 应用带来的上述产品和技术展示外,Arm 与中国生态伙伴的合作也是值得关注的亮点。作为 Arm 营收的重要贡献来源之一,Arm 在中国的发展具有重要的参考。

例如本土手机大厂 vivo 与Am通过联合实验室的合作形式,将vivo熟知的用户场景向底层计算平台Arm输送,成为Arm底层计算架构更新的关键参考要素。

中兴微电子也与 Arm 深入合作,借助 Armv9 Neoverse技术使 5G 服务器芯片在性能和能效上均达到领先水平,为本地数据中心的扩展和 5G 应用的部署提供了强有力的支持。

Arm在活动上也官宣与腾讯合作,通过KleidiAI集成提升混元大模型端侧AI性能。

James McNiven透露,根据Arm预估,截止2025年底,全球将有1000亿基于Arm架构的设备能够支持AI功能。尤其在当前崛起的AI PC方面,Arm也将和合作伙伴一起,推动这个新生态快速成长。

“过去两年,Arm推出的CSS倍受欢迎,这个平台也被推向了数据中心和智能终端等市场。未来,我们将加大在CSS的投入,并计划在2025年推出汽车计算子系统,助力客户迎接市场变革带来的巨大机遇。”James McNiven说。