AMD王宏强:全产品线推动大模型从云到端落地 解读下一代AI PC平台

图片

从云端到PC,AMD打造全方位智能生态。

2024全球AI芯片峰会(GACS 2024)于9月6日~7日在北京举行,大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办。在大会第一天的主会场开幕式上,AMD人工智能事业部高级总监王宏强以《推进大模型从云到端部署,打造变革性未来》为题发表演讲。

AMD在端到端的AI基础设施领域打造了全面的产品线,覆盖从数据中心服务器、AI PC到智能嵌入式和边缘设备,并提供领先的AI开源软件及开放的生态系统。AMD基于先进ZEN4架构设计的CPU处理器平台、基于CDNA3架构面向AI推理&训练的MI系列加速器,已被微软等巨头采用。

据AMD人工智能事业部高级总监王宏强分享,AMD还在推动数据中心高性能网络基础设施(UALink,Ultra Ethernet),这对AI网络结构需要支持快速切换和极低延迟、扩展AI数据中心性能至关重要。AMD即将发布下一代高性能AI PC芯片,其基于第二代XDNA架构的Ryzen AI NPU,可提供50TOPS算力,将能效比提高至通用架构的35倍。

在AI PC对隐私、安全和数据自主性的推动下,重要的AI工作负载开始部署在PC上。作为全球领先的AI基础设施提供商之一,AMD愿意携手广大客户与开发者共建变革性未来。

目前,为了推进AI从云到端部署,AMD重点主要集中在提供丰富多样的高性能和自适应硬件和软件解决方案组合、建设开放式生态系统、将复杂的工作负载简化为引人入胜的用户体验这三大关键领域。

图片

▲AMD人工智能事业部高级总监王宏强

以下为王宏强演讲内容的完整整理:

自去年以来,人工智能(AI)领域实现了显著的发展,尤其是在大模型和生成式AI方面。AMD在这些技术产品方面逐步推出了从硬件平台到软件,从端到端的解决方案。

AMD拥有非常全的产品线,从数据中心服务器,到边缘侧的Edge&Embedded,还有AI PC,都有非常全面的硬件AI平台。

AMD公司真正做到针对不同数据中心业务需求进行优化,以满足各种工作负载。这包括使用CPU处理器进行轻量级AI推理,或者利用MI加速器处理大规模任务,尤其是当前生成式AI大模型的推理和训练。

同时,我们知道在数据中心,除了推理和训练,特别是在训练里面,我们需要有Scaling Out(横向扩展)和Scaling Up(纵向扩展)。在同一个节点里面有多卡互联,在不同节点之间则是需要有Scaling Out扩大整个处理的能力。

针对这方面,我们集中发展开放的高速互联,如UALink和Ultra Ethernet,我们在计算和跨节点互联方面都提供了重要的技术支持。AI网络有一个很重要的需求,就是需要一个极低的延时和响应的时间,AMD找的是开放的UALink和Ultra Ethemet,更好地与业界其他客户一起构建我们整个的计算加速平台。

01.

加速器轻松处理上万亿参数模型

AMD的EPYC系列新一代CPU拥有多达192个核心和384个线程,这是基于我们最新的ZEN5架构设计的,它相比上一代也有非常大的性能提升,不仅是从Instruction Bandwidth(指令带宽),还有数据的Bandwidch(带宽),比如L2到L1的,还有L1到浮点数据的带宽都有提升2倍。

同时,我们的AVX-512技术是完整的,它在数据的buffer(缓冲区)也有带宽,从而能够更有效地支持AI推理服务。

自去年12月以来,我们在数据中心也推出了一系列新的MI加速器,这些产品已经被包括微软在内的大型互联网公司采用。

我们加速的板卡已经被服务器制造商,包括OEM(原始设备制造商)和ODM(原始设计制造商)集成到他们的服务器中。

对于用户而言,只要购买了这些服务器,就可以获得内置我们的CPU和MI加速器的系统,并用于执行AI推理和训练任务。

目前,在大模型生成式AI领域,ADM也是一直在提升我们的架构。我们原来是Llama3的架构,对此我们也将继续演进。

在存储容量和存储带宽方面,我们也取得了快速的发展。预计到今年年底,大家将会看到一些相关的更新产品的发布。

我们将更有效地支持当前在大模型的推理,例如Llama和GPT等。让所有的这些模型都能轻松地在我们的加速器上运行。更为重要的是,我们的加速器甚至能够处理具有上万亿参数的模型

02.

GPU设计完全开源,

人人都可对代码进行修改

在GPU软件设计上,我们有ROCm,它是一个开源的加速器软件。我们不仅设计是开源的,而且整个架构也是模块化的,对用户完全开放、开源

用户和社区成员都可以访问这些开源代码,你甚至可以对代码进行修改。我们鼓励更多地去把AI整个社区的贡献集成在我们整个ROCm平台里面。

我们针对当下最热的生成式AI也做了很多创新,比如像对RADEON这个开源推理引擎的支持。此外,我们还积极支持了像SGlang这样的新型开源推理引擎。

SGlang和RADEON之间存在一些差异,特别是在调度上。与CUDA这个相对闭源的环境不同,我们支持不同的开源推理引擎,使用户、社区,整个生态处在一个环境里面。

为了支持生成式AI的大模型,我们对FlashAttention-2和FlashAttention-3进行了优化,包括对FP8这些算子的支持。这些都是用在推理里面非常典型的数据类型,在训练里面,我们也能够支持BF16的数据类型

除了提供算子支持,我们还支持通信,包括RCCL优化和虚拟化技术的支持等。

03.

AI发展不仅在于硬件,

软件和基础设施投入同样重要

我们坚持在AI的软件及基础设施上的投入。除了加大自己内部的投入,我们还会收购一些业界比较有名的公司。

最近我们收购了SILO.ai,这是一家拥有众多杰出AI案例的公司。

通过收购SILO.ai,我们不仅能够进一步提供AI优化技术,还获得了他们在AI开源领域积累的丰富专业知识。

我们也收购了ZT Systems。作为行业领先的数据中心,ZT Systems专注于AI基础设施。

我们不仅从软件、硬件平台,还从整个机框、机架这一整套来提供AI加速的能力。

开源加速的发展速度在不断加快,每天都有新的开源算子和框架被推出。

AMD本着开源开放的战略,积极在开源社区进行部署和推广新模型。我们借助整个生态系统的力量,迅速推动AI技术的发展,这与相对封闭的CUDA环境完全不一样。

我们与HuggingFace的合作也是非常紧密的。HuggingFace上有70多万个模型,每天我们都会进行一些测试,保证它的这些模型都是可以直接运行在我们加速器的平台上,包括在数据中心里面,还有在个人笔记本Ryzen平台上。

我们还与OpenAI Triton合作,它提供了更高层次的AI语言抽象,使我们能够在更高层次的语言抽象上更容易地实现功能。此外,我们很早就开始支持像PyTorch这样的推理框架。

04.

XDNA2架构下的NPU,

算力与存储提升

刚刚介绍了我们在数据中心的投入,实际上我们在AI PC的投入也非常大。

我们一直在RyzenAI平台引领AI PC。

现在越来越多的应用可以跑在个人笔记本电脑里面,比如一些实时的协同都可以在个人电脑里面跑一些大模型,通过这些大模型作为基座,去开发各种应用,这就使得各种应用真的可以落地到端侧。

我们AMD要发布的下一代高性能AI PC芯片,它也是基于我们Zen5 CPU的架构,加上了第2代XDNA,Ryzen是升级到3.5的版本,能够提供50TOPS的算力。

在AI PC领域,用户越来越重视隐私保护、数据安全和数据自主性。随着重要的AI工作流程逐步在个人电脑端部署,对专用处理器的需求也随之增加。

在PC部署上,大家对PC机的耗电需求非常大,因此非常需要NPU的处理器。NPU在性能功耗比具有非常大的优势,相比通用的处理器,它能够扩大35倍以上的能效,所以我们在AI PC里面有集成这个NPU。

NPU是基于我们XDNA2最新的架构,它的底层是AI处理引擎,相比之前,从算力,包括存储都有一点几倍的提升。

我们在数据类型上也进行了很多创新,例如对Block FP16的支持。与第一代XDNA相比,我们实现了更高的能效比,计算能力提升了5倍,功耗效率也提高了2倍。

关于关键数据类型的创新,就是块状浮点的支持。块状浮点的优势在于它结合了8-bit数据类型的高性能和16-bit精度的优点,从而在数据位宽、精度以及存储需求之间实现了理想的平衡它在性能上与8-bit相近,同时在模型大小上仅需9-bit表征。此外,它在精度上非常接近16-bit,能够达到与16-bit数据类型几乎相同的99.9%的准确度。

另外一个在AI PC上的应用就是RAG推荐系统。它包括前处理步骤,其中一些处理在CPU上执行,而核心计算则在NPU,这种设计使得整个系统能够实时处理RAG推荐系统的任务。

刚刚介绍的这些功能都是通过AMD的Ryzen软件达到的,RyzenAI的软件架构包括从浮点模型开始,通过内置的量化器进行优化,最后通过ONNX的表示执行到NPU里面。

我们也支持通用架构,并正在开发Unified AI software stack(软件栈)。这一软件栈能够智能地识别系统中的CPU、NPU和iGPU这三种加速引擎,并自动分配最适合的引擎来处理相应的工作流程,从而实现最优性能。

我将很快分享一下AMD基于Edge&Embedded,在嵌入式和边缘的应用。

在AMD,这个平台是真正的一个异构计算平台,它不仅包括可编程逻辑,也包括XDNA和ARM CPU。它能够处理AI中的关键模块,包括前处理,如LiDAR数据处理,这些都可以由可编程模块来执行。

AI的Inference可以在XDNA架构中进行,而一些后处理、决策和Dedision Making则可以在后处理器,如CPU里面去进行。

我介绍一个Demo,它是基于AI的立体摄像头实现的,没有用雷达,也没有用地图,可以看到只是用了立体摄像头做AI相应的处理,就能实现自动驾驶的功能。

最后我总结一下我们的优势,我们能够定义新的AI时代端到端的基础设施,我们整个产品的线路是最全的,从数据中心、从边缘,到端侧,都有一整套的硬件

我们在AI软件上一直有非常大的投入,包括对软件的支持,我们一直走的是开源开放的生态,让所有的AI开发者、客户、用户,包括整个社区,大家都可以在我们开放的软件平台上贡献,去推进整个AI软件的快速发展,去支持在不同平台上的各种新的模型。

我们正处在一个AI推动的社会变革中,AI的影响已经深入到我们的日常生活之中。AMD会继续推进大模型,从云边端的部署,以真正帮助到用户,基于AI技术去打造一个更加方便、更加便捷的生活。