英伟达Vera开始做AI服务器CPU:自研 Olympus 内核

问AI · 英伟达自研CPU内核如何优化AI服务器性能?
芝能智芯出品


英伟达从Ai 服务器GPU公司开始做起了CPU。


过去CPU更多像“搭配GPU用的配角”。现在不一样了。随着 AI 服务器越堆越大,GPU 之外的那一半算力CPU,开始变成瓶颈。


英伟达这条路其实走了很久。从早年的 Denver,到后来一代代 Tegra,再到数据中心的 Grace,英伟达一直没放弃。Vera 就是在这个背景下出现的,从Grace 之后,英伟达自己认真做一颗真正CPU。


图片


Part 1

Vera 转折,
从“能用”到“必须自己做”


英伟达Grace 做得不差,甚至可以说超预期。很多数据中心已经在用它,尤其是在和 GPU 打包销售的场景里。Grace 核心不是英伟达自己设计的,而是基于 Arm 的 Neoverse V2。


换句话说,这套能力不是独家的。别人也能用。这在早期没什么问题,反而更稳。但一旦你想往上走,就会卡住。


图片


英伟达这次的选择很干脆:不再用现成核心,自己做深度定义。


Vera 里的 CPU 核心叫 Olympus,基于 Arm v9.2 指令集,但架构完全自研,重新设计 CPU 内核。这么做风险不小。CPU 不是 GPU,验证周期长、bug 成本高。


但好处也很明确:


 第一,性能可以按自己的需求来定。现在的数据中心,很多任务其实很“别扭”:GPU 负责并行算力,但大量调度、数据整理、长尾任务还是要靠 CPU。这部分如果跟不上,GPU 再强也会被拖住。


 第二,成本结构会变。用 Arm 现成核心,需要付更高的授权费用;自己设计,只用指令集授权,成本会低一截。像 Apple、Qualcomm 早就走的是这条路。


 第三,更关键的一点:差异化。整套系统(CPU+GPU+网络+软件),CPU如果是通用的,总是有一些不够极限。如果是自研核心,就可以把“系统能力”绑在一起卖。


图片


说白了,Grace 是已经走了很大的一步,Vera 是要开始继续往前走两步。


Part 2

架构选择:
不像传统CPU的CPU


Vera 在设计上有个挺反直觉的地方:它看起来不像现在主流的服务器 CPU。先说最核心的一点,它把 88 个核心全部放在一个计算芯片里。


对比一下:


 AMD 的 EPYC:多芯片(最多16个计算Die)


 Intel 的 Xeon:计算+I/O 分散在多个Die


英伟达反而把“算力”集中起来,把内存和 I/O 拆出去。这带来一个直接结果:没有 NUMA。所有核心访问内存的路径是统一的,不需要跨节点通信。


这在某些场景下很有优势,比如:


 数据一致性要求高


 线程之间频繁通信


 延迟敏感任务


但代价也不是没有。单Die做这么大,良率、成本、功耗压力都会上来。


另一个明显的变化,是它对内存带宽的“执念”。Vera 的带宽做到 1.2TB/s,这个数字在CPU里已经非常激进了。


原因也很现实:AI 任务的数据流量太大,CPU如果喂不动数据,GPU就会空转。


核心本身Olympus 走的是“宽前端”路线:


 10宽解码器(比主流x86更宽)


 双分支预测器


 更大的缓存(L2翻倍,L3上到162MB)


图片


这些设计的目的很统一:把单线程性能往上拉。但更有意思的是它的多线程策略。传统的 SMT 是时间片轮转,多个线程抢资源。Vera 用的是“空间多线程”:直接把资源切分,每个线程有自己的一块。


这就变成一个取舍问题:


 想跑更多线程 → 每个线程性能下降


 想要极致性能 → 线程数减少


这种设计其实更像在给数据中心一个“调节旋钮”,而不是固定答案。


Part 3

真正的野心是做整套服务器


图片


如果只看芯片,Vera 还是一颗 CPU。但把产品线一起看,就完全不一样了。


英伟达这次做了三件事:


 把CPU做成“可独立扩展的资源”


以前你买英伟达,基本就是买 GPU。CPU 是配角。现在它直接推出 CPU 机架,一整柜 256 颗 CPU,配套内存、网络(包括 BlueField DPU)。你甚至可以只扩 CPU,不动 GPU。CPU 也可以成为一门单独的生意。


 拉上整条服务器产业链


包括:Dell、Hewlett Packard Enterprise、Supermicro和Lenovo,这些厂商会做单路、双路服务器,也会做高密度机架。这一步很关键。因为英伟达过去的模式更偏“封闭系统”,现在开始往通用服务器市场渗透。


 直接进入x86腹地


最敏感的一点,是 HGX NVL8 这种传统平台也开始用 Arm CPU。这意味着,Vera 不再只是“GPU的附属品”,而是要和 x86 正面竞争。


从目前披露的测试来看,Vera 在一些场景(比如流数据、SQL、长尾延迟)已经领先同代产品。


频率是多少?功耗控制如何?价格会不会太高?这些都还没公布,而在服务器市场,这些细节往往决定成败。


图片


小结


Vera 看起来是一颗 CPU,英伟达现在资源更多的,也需要更全面一些。现在在尝试卖整套计算平台。从 GPU 到 CPU,再到网络和软件,一层一层往上叠。AI 把整个数据中心重新洗了一遍,CPU 不再只是配角。