自打2022年英特尔正式发布旗下Arc系列独立显卡,在独显领域的讨论终于从AMD、NVIDIA两家之争扩展到了第三家。对于英特尔而言,首次试水的Arc A系列在发布的2年内像升级打怪一般,攻克了一个又一个需要大量行业经验积累才能解决的问题,例如对DX9、DX11游戏的支持程度,再例如光线追踪单元利用的效率,以及驱动稳定程度等等。
从现在这个时间点来看,Intel Arc A系列虽然说不上一鸣惊人,但成长的速度令人印象深刻,光是过去一段时间接连50多次的驱动更新,以及对120款以上游戏发布当日的Day-0支持,都让Intel Arc的性价比愈发凸显。
但只有驱动层面更新是远远不够的,特别是在AI视觉运算和光线追踪效果逐渐具备普适性,A、N两家新显卡蓄势待发,是时候重新定义性价比概念了。因此在距离CES 2025不到一个月的时间点上,英特尔正式发布并开卖锐炫Arc B580系列,以Battlemage战斗法师为名,点燃GPU迭代的第一把火。
如果你是Intel Arc A750用户,或者计划在近期构建一套高性价比的台式机PC,眼前的Intel Arc B580显然是值得期待的,它定位2000元档的价位段,并带来全新的Xe2架构和大量的硬件升级,配合软件和驱动积极更新的节奏,都暗示着Intel Arc B580很有尝试的必要。
那么Intel Arc B580的战斗力究竟如何?我们的首发评测就此奉上。
战斗法师BMG-G21
在月初的媒体沟通会上,英特尔表明Intel Arc B系列先发的两款型号为Intel Arc B580和Arc B570两款,其中Intel Arc B580先发,Arc B570则会安排到2025年1月份。
两款GPU的核心均来自型号为MG-G21的SoC,基于Xe2架构打造,采用台积电N5制程,晶体管数量达到196亿个,Die Size为272mm2。因此Intel Arc B580和Arc B570的主要区别在于Xe Core数量和显存数量的区别。
Xe2架构同样已经应用到了前段时间已经发布的Lunar Lake CPU的核显中,全新的Xe2架构加入了XVE矢量引擎、更高效的XMX引擎等,特别是XMX矩阵单元在底层硬件设计上的升级,为后续的XeSS 2分辨率超采样技术得以实现,同时XMX矩阵单元带来的优势也是早期Xe-LPG利用的DP4a指令集无法达到的效率。
Xe2中的Xe核心包含8个512bit矢量引擎,相比上一代Xe的16个矢量引擎减少了一半,另一半用来放前面提到的2048bit XMX矩阵引擎来实现更好的运算支持。XMX矩阵引擎包含INT2、INT4、INT8以及FP16、BF16在内精度计算,并对FP64提供支持,从而实现对更丰富的推理模型的兼容。
由于XMX引擎支持Int8 4096 OPS/clock和FP16 2048 OPS/clock算力,远高于XVE矢量引擎,因此在重负荷AI加速中,Xe2可以承担更多的AI加速工作。
继续向下延伸就是构成Xe核心部分之一的渲染切片(Render Slice)。新的渲染切片引入了对于Excute Indirect的支持,原来3D任务需要CPU把指令给到GPU,然后由GPU去运算执行,而在Excute Indirect功能支持下,部分命令可以直接在GPU本地执行,不需要CPU一条条告诉GPU做什么,而是GPU本身就具备Draw、Dispatch的能力,这些命令可以直接在GPU里直接完成。此外,几何单元改进达成顶点获取(Vertex Fetch)吞吐提升3倍,mesh shading性能提升3倍。
Xe2缓存部分的压缩率和吞吐量也有了明显提升,包括提升了L1 Cache的利用率,Sampling吞吐提升2倍,Pixel Color Cache提升1.33倍。因此尽管在Xe核心数量上Arc B580比Arc A750要少,但实际上由于效率的提升,让性能显著增加。
英特尔用《堡垒之夜》举例,得益于在已经上对间接执行(Execute Indirect)支持,并通过SIMD16减少光照通道执行时间,以及L1缓存无序访问视图(Unordered Access Views,UAVs)写入,同样场景下Xe2渲染体积雾的时间减少33%。
顺带一提,Xe2在SIMD16的基础上,增加了对SIMD32的支持,即一次处理32个数据元素。虽然这个设计是基于SIMD16上获得而不是原生,但可以确保Intel ARC B580运行更大规模的矩阵乘法,或者处理图形渲染中更复杂的计算效率。
Xe RTU光线追踪单元也进行了拓宽,提供三条遍历通道,18 x Box intersections和2 x Triangle intersections计算,能够更快速地进行盒子和三角形之间的交叉检测。其中Box intersections是指单元在光线与盒子或者说包围体积相交时所能处理的数量,Triangle intersection指代光线与三角形相交时所能处理的数量。
在媒体引擎方面,Intel Arc B系列使用了双MFX引擎设计,看可以提供8K 10bit HDR 120FPS编码工作负载,并且从硬件提供包括VP9、AV1等硬件支持。同时Xe媒体引擎还提供HEVC 4:2:2 10bit编解码,是目前Windows平台唯一硬件原生支持此格式的GPU。
由于Intel Arc B580已经是完整的BMG-G21,因此包含了5个渲染切片,20个Xe-Core,160个Xe矢量引擎,160个XMX矩阵引擎,20个光线追踪单元,20个纹理采样器,并配备了18MB L2缓存以减少内存访问延迟和带宽瓶颈问题。此外,Intel Arc B580的核心最高频率可以达到2850MHz,配备12GB 192-bit GDDR6显存,显存带宽456GB/s。
另外需要注意的是,Intel Arc B580与GeForce RTX 4060一样,使用的是PCIe 4.0 x8接口,不过在物理设计上仍然沿用x16设计以确保能够很好的贴合主板最靠近CPU的x16 PCIe槽位。PCIe 4.0规范本身也带来了对Resizable BAR的支持,即允许CPU直接访问整个显存空间,而非传统BAR仅能访问256MB,这项技术也能更进一步减少CPU与GPU之间数据交流的瓶颈,现在主流的主板均已经对Resizable BAR提供了支持,但并非所有品牌默认开启,因此在安装显卡后记得在BIOS中观察Resizable BAR是否有打开。
最后我们用一个表格来展示Intel Arc B580的主要参数。
Limited Edition信仰加持
虽然Intel Arc B580发布后,主要以第三方AIB厂商的显卡为主,但笔者仍然建议如果有机会入手英特尔官方信仰加持的Intel Arc B580 Limited Edition无疑是很好的选择。
英特尔显卡团队不仅亲自参与了Intel Arc B580 Limited Edition设计,还从Arc A系列上吸取了大量的设计经验,重新设计了电路布局和散热方案,进一步降低了噪音并提升了显卡能效比。
可以看到Intel Arc B580 Limited Edition使用了暗黑色主题,覆盖表面处理得非常细腻。显卡本身使用了双卡槽小板设计,也就是所有PCB和芯片都集中在显卡的前半部分,后半部分镂空处理。这让后半部分风扇旋转时,气体可以更快速的穿过显卡散热片,加速带走热量。
只有6英寸面积的8层PCB版上配备了6+2相电源,即6相给GPU供电,2相给显存供电,设计团队通过调谐和元器件电源优化,将元器件噪音降低了80%。按照英特尔的说法,由于PCB板相对于上一代采用8英寸PCB板的Intel Arc A750 Limited Edition而言,总排气面积增加了2.4倍。
设计团队还考虑到了显卡的可修复性,在关键部位移除了粘合剂,背板也使用了可拆卸设计,可独立拆除。
Intel Arc B580 Limited Edition散热模组使用了四热管搭配两个垂直鳍片设计,并覆盖整个电路板,以获得有效的热量分配。在散热路径上,热量会从电源接口边缘、PCIe接口边缘,以及镂空的背面通风道排出。为了增加散热效率,GPU和显存也附着了高质量导热垫和导热材料。
另外显卡的两个风扇也提升了运行性能和声学表现,可以相对上一代Limited Edition的风扇增加了30%的气流,整体噪音降低50%,是目前为止英特尔制造出来最快且最安静的Arc显卡。
在实际显卡压力测试中,GPU核心温度为60℃左右,通过红外线测温20℃室温内可以看到出风口温度最高在42℃左右,供电接口部分温度在34℃左右,长期压力状态使用不会对电源接口造成影响,显卡整体表面温度保持相当冷静的状态,因此也适合装入到一些小型化机箱内。
接口部分,Intel Arc B系列提供1个HDMI 2.1a接口,以及3个DisplayPort 2.1接口,其中由上到下第二个DisplayPort 2.1接口最高可支持8K 60Hz或者4K 360Hz输出,所有接口同时输出支持4K 120Hz HDR高分辨率输出。
显示引擎本身也支持VESA自适应同步标准,支持VRR可变刷新率显示器,从而实现真输出延迟、抖动和撕裂的问题。同时Intel Arc B580和Arc B570均通过了HDR10+ GAMING认证,无需游戏内单独设置,就能自动获得HDR效果当然前提是游戏、显示器也要同时支持这项技术。
最后是供电部分,供电接口则选择了传统的8pin电源接口,Intel ARC B580的供电需求为190W,TDP 233W,对于空间有限的小机箱而言,也可以选择更小功率的电源给这款显卡进行供电。
实战出真知
接下来让我们进入实战环节,在测试环节我们使用了两套平台进行考量,理论基础测试部分沿用不拖后腿的原则,采用Core i9-14900K,ROG MAXIMUS Z790 DARK HERO,G.SKILL Trident Z5 DDR5-7200 16GBx2作为参考。
而在游戏实战部分,则会考虑实际装机情况,使用Core i5-13490F作为CPU,模拟定位主流机型的实战表现。
在3DMark基准进行测试环节,主要使用了3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal。这里直接引入NVIDIA GeForce RTX 4060,Intel Arc A750和AMD Radeon RX 7600进行比较。
从整体来看,Intel Arc B580 Limited Edition表现不错,相对Intel Arc A750平均性能提升15%左右,相对GeForce RTX 4060领先有25%的差距,同样,相对AMD Radeon RX 7600领先大概在22%左右。
在1080p分辨率下,我们将画质调到最高。用Intel Arc A750和Intel Arc B580进行对比,比较中可以发现,Intel Arc B580 Limited Edition相对Arc A750提升在10%到70%之间,平均提升36%,是一个相当明显的进步。
显然只用Intel Arc B580 Limited Edition处理1080p画质未免太过浪费,特别是今年开始2K分辨率显示器,乃至2K OLED显示器蓬勃发展都证明了玩家对沉浸游戏体验更高的要求。
事实上Intel Arc B580 Limited Edition配备的12GB 192-bit GDDR6就是以此准备的,相对于8GB显存,12GB可以实现在复杂场景下更高分辨率的流畅运行。这里同样引入NVIDIA GeForce RTX 4060,Intel Arc A750和AMD Radeon RX 7600进行对比。
可以看到,Intel Arc B580 Limited Edition表现更猛了,相对Intel Arc A750平均性能提升31%左右,相对GeForce RTX 4060领先有11%,同样,相对AMD Radeon RX 7600领先从10%到50%不等,部分原因可能是驱动稳定性造成,比如《F1 24》中,AMD Radeon RX 7600性能没有释放出来。
Intel Arc B580 Limited Edition给游戏带来的高帧率很大程度源自于更多游戏加入了对XeSS的支持。目前为止,大概有150款左右的游戏加入了对XeSS的支持,虽然还不及庞大的DLSS游戏阵营,2年时间内后发到这样的程度已经很不容易。
以近年来3A大作流行开启的光线追踪特效为例,利用XeSS超分辨率(XeSS Super Resolution,XeSS-SR)可以获得更高的游戏帧率,在Intel Arc B580 Limited Edition中,也能看到立竿见影的效果。
在Intel Arc B580 Limited Edition发布的同时,XeSS也升级到了XeSS 2,类似于DLSS 3技术,需要GPU在硬件上的支持,但可以获得更好的效果。目前可以支持XeSS 2的显卡包括Intel Arc A系列,以及刚刚发布的Intel Arc B系列。值得注意的是,Lunar Lake中的核显同样也使用了Xe2 Core,因此也支持完整的XeSS 2功能。
XeSS 2有了明显的进步,它由三个部分组成,包含XeSS超分辨率(XeSS Super Resolution,XeSS-SR),XeSS帧生成(XeSS Frame Generation,XeSS-FG),Xe低延迟(Xe Low Latency,XeLL)。
不同于NVIDIA使用独立的光流加速器硬件来实现帧生成技术,XeSS FG依赖的是自己的XMX AI引擎来实现,具体做法是渲染出第一帧和第二帧,然后通过插帧技术和AI算法生成这两帧之间的中间帧。第一帧和第二帧是游戏引擎原生渲染的结果,而中间帧则是利用AI生成的。在AI生成帧中,英特尔表示一共使用了两种技术,一种是光流重投影技术,另一种是运动矢量重投影技术。这两种技术共同作用,以确保插帧的准确性和画面的流畅性。
因此在工作模式中,会先由XeSS-SR实现游戏超分,以降低GPU负荷和提升游戏帧率,然后再通过XeSS-FG实现帧生成。
英特尔表示XeSS 2 API植入非常方便,无需增加游戏制作太多工作量。不过与DLSS 3以及DLSS 3.5发布时候类似,实装到测试多少会需要一些时间,但从现在宣布支持XeSS 2的10款游戏而言,含金量是不少的。例如包括育碧的《刺客信条:影》,网易的《漫威争锋》,以及《消逝的光芒2:人与仁之战》。
这里着重使用已经实装XeSS 2的《F1 24》进行尝试。可以看到,在游戏设置中可以找到开启XeSS 2的选项,这里需要注意需要将VRS关闭。
先来看画质损失,在XeSS 2超高质量下,游戏画质与原画质几乎没有任何区别,远处观众席和观看台细节可以看的非常清晰。
如果开启XeSS 2超高性能,远处观众台画质会有所降低,但也仍然在可以接受的范围内。实际游戏体验可以根据个人的需求在质量、性能之间进行调整。
这里我们分别对默认设置,XeSS性能模式+XeSS FG,XeSS质量模式+FG一共五种模式进行尝试,可以看到XeSS FG配合XeLL,可以给XeSS带来更高帧率的同时,也能降低显示响应,帧率最高可以提升3.2倍,显示延迟降低1.6倍,效果是非常出众。
即使不依靠XeSS,Intel Arc B580 Limited Edition对于注重竞技类的在线游戏也已经有很好的表现,这里我们尝试了《DOTA2》、《反恐精英2》和《APEX》,不管是1% LOW FPS还是延迟表现,这块GPU已经表现得足够好。
游戏领域值得一提的还有英特尔重新设计了控制中心,包括重新设置了界面,加入了针对不同游戏的独立设置选项,包括针对DX9和DX11的降低系统延迟选项,图像锐化等设置。界面非常直观明了。
另外新软件还加入了对显卡的检测,可以看到平均帧率,GPU利用率,功耗,电压,显存频率等选项格调一下子就上来了,另外驱动还加入了对显卡的超频设置,和CPU的XTU一样,给帮助玩家压榨显卡更多的价值。
AI创作力猛增
除了游戏,显卡的创造力也已经成为衡量的另一项指标,特别是随着AI应用的不断普及,GPU对AI的加速表现相当值得关注,Intel Arc B580 Limited Edition同样如此。这里我们先用Stable Diffusion作为参考。
Stable Diffusion是2022年推出的深度学习文本到图像转变的AICG工具,这套工具由初创公司Stability AI和非营利组织、学术人员共同合作开发,因此它相对需要收费的Midjourney有更好的开放性和扩展性,并提供一系列的插件实现更多功能。目前网上已经提供了对英特尔显卡的适配版本,当然前提是至少8GB以上的显存vRAM和AI性能足够强劲的GPU进行,否则本地体验不如直接购买云端服务来的直接。
老规矩,我们利用一段固定的文字描述让Stable Diffusion创建20张图片,每张图片分辨率为512x512,采样步数设置为50。文字描述参考如下:
beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting, ++dreamlike, vignette
在实际使用中可以看到,Intel Arc B580 Limited Edition输出图片效率和质量不错,通过记录总共的花费时间,可以推算出每分钟生成的图像效率(Images Per Minute)。公式为:
60 / (TotalTime / (BatchSize * BatchCount)) = Images Per Minute
以此可以对比出Intel Arc B580 Limited Edition在AIGC生成效率上有明显的提升,无论对比自家的A750还是GeForce RTX 4060,当然其中重要的原因还是因为B580拥有更大容量的显存,以及高效的XMX引擎作为基础。
另外一项AI测试则是基于AI提升图像分辨率的ON1 Resize AI 2022,原理是对低分辨率图片无损提升至高分辨率图片,用于巨幅海报输出,依靠AI性能可以获得更快的出图,并计算生成图片的时间,数值越少意味着效率越高。
实际测试中,同样五张照片,Intel Arc B580相对GeForce RTX 4060可以节省27%到37%的时间。
有意思的是,Intel也不满足依靠第三方开源软件,针对英特尔Arc B系列特性,还专门制作了一个专门版本的Al Playground 2.0 alpha for Intel Arc版本,软件本身不仅自带了对Stable Diffusion 1.5和Stable Diffusion SDXL支持,同时也提供图像增强,图像优化功能,甚至可以利用本地大语言模型进行本地聊天,AI翻译,本地文件总结等功能。目前已经提供了酷睿Ultra和Intel Arc的支持。
因此Al Playground 2.0 alpha对Intel Arc B580适配性更好,只需要下载安装之后,根据引导下载对应的本地模型,不用复杂的设置,软件即刻就能开始工作。例如笔者描述了一段宇宙飞船穿越赛博朋克都市的画面,步进为50,完成一张图花费的时间大概在30秒左右。
同时你也可以与Al Playground 2.0 alpha进行本地聊天,Intel Arc B580对Qwen2-1.5B-Instruct的反应几乎是瞬间的。
最后渲染和专业软件检测,我们也引入了Blender Benchmark和SPECview 2020作为参考,Intel Arc B580相对于A750也有了不同幅度的进步,而且我们相信随着驱动版本的不断升级,Intel Arc B580也可以越做越好。
写在最后:性价比的挑战者
Intel Arc B580给人的印象很深刻,对于一款2000元档位性价比挑战者而言,这款显卡在游戏的表现力上已经超过同价位其他显卡水准,而且得益于全新XeSS 2技术,以及Xe2架构,随着驱动的不断升级,Intel Arc B580战斗力也会越来越强,就像此前Intel Arc A750那般,在购买之后,通过驱动升级就能获得很多惊喜。
而作为限定版的Intel Arc B580 Limited Edition也展现出了不凡的战斗力,小尺寸设计让其能够更轻松的装入更小的机箱,给台式机小型化提供了更多可能。同时安静、高效的运行让Intel Arc B580 Limited Edition可以胜任2K分辨率高画质游戏,AI应用加速和创意等多方面的工作,作为目前最强的Arc显卡,Intel Arc B580 Limited Edition表现得足够好。
Intel Arc B580无疑是当下消费级GPU领域一个新晋性价比挑战者,背靠英特尔强大技术实力和研发,以及未来的Celestial(天人)与Druid(德鲁伊)的规划,已然看到英特尔计划在GPU领域持续深耕的坚持。
如果你着眼于主流游戏表现和高性价比的PC配置,Intel Arc B580完全可以成为新的选择参考项,它已经能够胜任现阶段主流3A游戏和AI应用的任务,同时也给未来软件升级保留了充足可能性,光凭这两点,就足以让人下单买买买了。