在NVIDIA与AMD摩拳擦掌即将发布新GPU之际,第三家可以在GPU领域能够一战的英特尔,选择提前CES 2025一个月的时间,发布全新的英特尔锐炫ARC B系列GPU,代号Battlemage战斗法师。
一向主打性价比的Intel ARC没有让人失望,首发两款产品Intel ARC B580和Intel ARC B570全部直奔2000元人民币的档位去的。有足够的勇气和实力,以高性价比的姿态,挑战GeForce RTX 4060建立起来的光线追踪游戏门槛,足以让人敬佩。
笔者在第一时间收到了非常具有纪念价值的官方限定的英特尔锐炫ARC B580 Limited Edition版本,借着开箱,也让我们抽点时间了解将性价比反击战拉响的Battlemage战斗法师,厉害在什么地方。
开箱抢先看
让我们直奔主题。目前为止已经有宏碁Acer、华擎ASRock、蓝戟GUNNIR、铭瑄MAXSUN、ONIX、SPARKLE等显卡制造商确认将会推出Intel ARC B系列显卡,其中Intel ARC B580系列会在12月13日之后陆续开卖,定价249美元起步,约1814元人民币。
定位低一些的Intel ARC B570系列则会在2025年1月16日以后陆续开卖,定价219美元,约1595元人民币。当然所有人民币折算定价都是税前参考价格,实际定价应该还会再高一些,即便如此,两款显卡的定价已经展现出了很好的亲和力。
Intel ARC B580 Limited Edition则作为官方限定款发售,并且只计划推出ARC B580版本,ARC B570则仅有第三方版本,足以见得英特尔对ARC B580的重视程度。
因此在包装上Intel ARC B580 Limited Edition已经尽显格调。正面和背面的简约设计和数字旋涡图腾让外包装仪式感拉满。
内部包装盒也使用了同样的深色调设计。
包装盒本身带有类似于托盘的设计。在打开盒子后,下方的显卡会随着盒子内部的结构被向上托举30度左右,让Intel ARC B580 Limited Edition以最帅的一面呈现给玩家。盒子上方的Let‘s Play则藏了产品快速指导书,以及附赠品。
Intel ARC B580 Limited Edition本身则是被一块绒布所覆盖的,掀开之后就能看到ARC B580本体了。
Intel ARC B580 Limited Edition设计非常简约,并使用了双卡槽小板设计。也就是所有PCB和芯片都集中在显卡的前半部分,后半部分使用了镂空的设计。英特尔表示,这样的设计可以获得更好的散热性能,并且在气流上也得到了优化,风扇噪音也可以更安静。
显卡另一面则使用双风扇设计,显卡本体很轻,外壳使用了细腻的磨砂质感,手感非常好。
在接口上,Intel ARC B580 Limited Edition提供了3个DisplayPort 2.1接口,最高可实现UHBR 13.5,即每一个通道可以做到13.5Gbps传输速率,4个通道最终实现54Gbps的最大吞吐量。最下方一个接口则是HDMI 2.1。
供电接口则选择了传统的8pin电源接口,Intel ARC B580的供电需求为190W,ARC B570则只需要150W。另外PCIe接口使用了PCIe 4.0 x8的规格,这个设计思路与GeForce RTX 4060相似,PCIe 4.0 x8已经足够GPU的数据传输,并且也可以很好的控制成本。
显卡的另一边使用了棱角内凹设计,凸显了Intel ARC B580 Limited Edition的设计感。
附送的配件似乎还可以组装出一张纸模的ARC B580显卡,笔者会努力一下,正式评测解禁的时候将其组装完成。
虽然现在评测性能还不能公布,但是Intel ARC B580和ARC B570的大致参数可以先看一下。比如Intel ARC B580 Limited Edition具备20个Xe Core,20个光线追踪单元,160个XMX AI引擎,GPU频率来到2670MHz,并具备12GB GDDR6 192bit显存,显存带宽达到456 GB/s,TDP 233W。
Intel ARC B570则具备18个Xe Core,18个光线追踪单元,144个XMX AI引擎,GPU频率来到2500MHz,并具备10GB GDDR6 160bit显存,显存带宽达到380 GB/s,TDP 203W。
BMG-G21敬上
Intel ARC B580和ARC B570都使用了BGM-G21核心,架构版本12.7,使用的是台积电6N制造工艺,晶体管数量为217亿个,且支持DirectX 12 Ultimate,意味着DX12 Ultimate中要求的光线追踪、可变速率着色都可以很好的实现。
从整体上来看,满配的BGM-G21核心包括5个渲染切片(Render Slice),20个Xe Core,160个XMX引擎,20个光线追踪单元,20个纹理单元,10个像素后端,并且共享18MB的L2缓存,以及2个Multi-Format X-coders用于处理多种数据格式转码。
其中渲染切片(Render Slice)仍然是构成ARC GPU的基础。与Lunar Lake的iGPU一样,ARC B580和B570的BGM-G21核心使用的是Xe2渲染切片,新的渲染切片引入了对于Excute Indirect的支持,原来3D任务需要CPU把指令给到GPU,然后由GPU去运算执行,而在Excute Indirect功能支持下,部分命令可以直接在GPU本地执行,不需要CPU一条条告诉GPU做什么,而是GPU本身就具备Draw、Dispatch的能力,这些命令可以直接在GPU里直接完成。此外,几何单元改进达成顶点获取(Vertex Fetch)吞吐提升3倍,mesh shading性能提升3倍。
此外,缓存部分的压缩率和吞吐量也有了明显提升,包括提升了L1 Cache的利用率,Sampling吞吐提升2倍,Pixel Color Cache提升1.33倍等等。
在Xe2架构也让Battlemage加入了XVE矢量引擎、更高效的XMX引擎等。XMX矩阵单元同样作为MAC乘法累加计算使用,这个功能类似于NVIDIA Tensor Core的AI推理性能,利用专属的硬件提升游戏中XeSS分辨率超采样的效率。在此之前的Xe-LPG利用的是DP4a指令实现,效率自然是跟不上硬件的XMX矩阵的。
Xe2中的Xe核心包含8个512bit矢量引擎,相比上一代Xe的16个矢量引擎减少了一半,另一半用来放前面提到的2048bit XMX矩阵引擎来实现更好的运算支持。XMX矩阵引擎包含INT2、INT4、INT8以及FP16、BF16在内精度计算,并对FP64提供支持,从而实现对更丰富的推理模型的兼容。
由于XMX引擎支持Int8 4096 OPS/clock和FP16 2048 OPS/clock算力,远高于XVE矢量引擎,在重负荷AI加速中,可以扮演重要角色。同时Xe2在SIMD16的基础上,增加了对SIMD32的支持,即一次处理32个数据元素。虽然这个设计是基于SIMD16上获得而不是原生,但可以确保Intel ARC B580运行更大规模的矩阵乘法,或者处理图形渲染中更复杂的计算效率。
光线追踪单元部分,Xe RTU光线追踪单元也进行了拓宽,提供三条遍历通道,18 x Box intersections和2 x Triangle intersections计算,能够更快速地进行盒子和三角形之间的交叉检测。其中Box intersections是指单元在光线与盒子或者说包围体积相交时所能处理的数量,Triangle intersection指代光线与三角形相交时所能处理的数量。
另外得益于架构和工艺的优化,BGM-G21核心的能耗比也显著提升了50%,效能是上一代ARC GPU无法比拟的。例如Draw XI执行的图形渲染处理,效能可以做到第一代ARC GPU的12.5倍。
同时英特尔还使用了《堡垒之夜》来举例,每一个阶段的处理,Xe2都做了更好的优化,整体延迟也更低了。
XeSS 2与XMX AI一个不落
传统GPU依靠的渲染能力来展现性能。而在近几年的GPU性能展现中,AI加速游戏的性能也早已成为重要一环,具备通用架构的XeSS应运而生,而Battlemage开始也正式引入了XeSS 2。
XeSS 2有了明显的进步,它由三个部分组成,包含XeSS超分辨率(XeSS Super Resolution,XeSS-SR),XeSS帧生成(XeSS Frame Generation,XeSS-FG),Xe低延迟(Xe Low Latency,XeLL),这也是新显卡和新游戏都逐渐展开支持的技术。
不同于NVIDIA使用独立的光流加速器硬件来实现帧生成技术,XeSS FG依赖的是自己的XMX AI引擎来实现,具体做法是渲染出第一帧和第二帧,然后通过插帧技术和AI算法生成这两帧之间的中间帧。第一帧和第二帧是游戏引擎原生渲染的结果,而中间帧则是利用AI生成的。在AI生成帧中,英特尔表示一共使用了两种技术,一种是光流重投影技术,另一种是运动矢量重投影技术。这两种技术共同作用,以确保插帧的准确性和画面的流畅性。
因此在工作模式中,会先由XeSS-SR实现游戏超分,以降低GPU负荷和提升游戏帧率,然后再通过XeSS-FG实现帧生成。在具体表现上,英特尔用《F1 24》举例,在1440p最高画质下,XeSS 2最高可以提升3.9倍的帧率。
AI帧生成也意味着要解决延迟问题,XeLL由此诞生,具体做法是消除CPU队列等待过程,对于英特尔而言,在硬件和驱动层面控制CPU配合显然要比NVIDIA娴熟许多。
这里展示F1 2024作为展示,在原生状态下跑了48FPS,57ms延迟,开了XeSS 2之后,提升到152FPS,28ms延迟,进步是非常明显的。
另外,英特尔也提供了仅在驱动层面实现的模式,原理与XeLL类似,但不需要游戏本身支持,只要驱动更新即可。效率没有游戏原生支持那么高,但提升也已经很明显。
英特尔强调XeSS 2 API加入非常方便,不会让游戏制作组增加太多的工作量,目前已经有十款游戏表示会加入对XeSS 2的支持。
无论XeSS 2还是XeSS-FG,本质上都是依赖于XMX AI引擎。除了前面提到XMX AI引擎可实现INT2、INT4、INT8以及FP16、BF16在内精度计算,并对FP64提供支持,从而实现对更丰富的推理模型的兼容,在生成式AI上,也会让Intel ARC 580成为GeForce RTX 4060的有力竞争者,帮助创作者在不联网的前提下,就能完成复杂的AI创作。
在显卡的软件层面,英特尔在过去一段时间中发布了超过50次的驱动更新,,其中包括对120款以上的游戏提供Day-0支持,游戏覆盖范围提升了2.5倍,也包括DX11、DX9等老游戏的支持,Intel ARC驱动正在肉眼可见的进步。
在发布新显卡的同时,英特尔也将重新调整显卡软件UI,并增加更好用的显卡超频功能。帮助用户更进一步提升显卡性能。
性价比凸显
在性能对比上,英特尔使用Intel ARC B580 Limited Edition与Intel ARC A750 Limited Edition作为对比,在游戏性能提升幅度上,平均可以获得24%的性能提升。
如果是与竞争对手对比,Intel ARC B580 Limited Edition可以优于GeForce RTX 4060平均10%,一方面得益于更高的GPU性能,另一方面是Intel ARC B580拥有12GB的显存。
而具体的性能表现,我们会在评测正式解禁的时候放出更多细节,鉴于不到2000元人民币的定位,以及优于RTX 4060的表现,对于追求性价比的同学而言,似乎没有多少拒绝Intel ARC B580的理由。
更重要的是,如果Intel ARC B580和ARC B570实际表现足够给力,竞争对手们高昂的定价,也应该考虑降一降了。显然这一次英特尔带来的Battlemage战斗法师,在CES 2025之前就把性价比反击战拉响了。