自从苹果在10月份发布了搭载M4 Pro和M4 Max的MacBook Pro后,M4系列芯片的性能表现就引起了很多关注。但是,了解苹果产品线的朋友都知道,M4系列还有一个隐藏BOSS——M4 Ultra尚未发布。
虽然Ultra型号缺席了前代M3系列,但是M2 Ultra的性能却给大家留下了深刻印象,加上很早之前就曝光M4 Ultra已经流片,无疑让人们对这颗苹果的真·旗舰芯片性能有了很大期待。
在海外媒体的推算中,如果M4 Ultra采用与M2 Ultra相似的架构设计,也就是将两个Max版芯片通过UltraFusion封装技术连接在一起,那么M4 Ultra的GPU性能应该会是M4 Max的1.7倍左右。
再结合M4 Max在Geekbench 6的GPU测试中得到的197754分,M4 Ultra的GPU测试得分大概率会在330000左右,作为对比,目前消费级的最强显卡RTX 4090得分也只有310000-320000。
图源:Max Tech
M4 Ultra爆杀RTX 4090?这个消息恐怕老黄看了都要做噩梦,不过也有人提出疑问:M4 Ultra的GPU真的能有这么高的性能吗?在实际使用场景中真的能媲美RTX 4090吗?
M4 Ultra跑分曝光,到底有多强?
M4 Ultra虽然还未发布,但是我们可以从已经发布的M4 Pro和M4 Max上一窥这个系列芯片的性能表现。如果单看Geekbench 6的测试结果,你会发现M4 Pro的得分属实恐怖,在单核测试中以3925的成绩超越了AMD和英特尔的最新桌面端旗舰处理器,而在多核测试里,也明显领先Ryzen 9 9950X,仅略输于酷睿Ultra 9 285K。
图源:Max Tech
至于性能定位更高的M4 Max,则是在单核、多核测试中均碾压了Ryzen 9 9950X和酷睿Ultra 9 285K,让整个PC市场感受到了苹果的强大。而且,在测试中M4系列芯片的核心主频及核心数都明显低于两个对手,只有4.5GHz,但是却展现了更高的单核及多核性能。
图源:Max Tech
可怕吗?很可怕。要知道酷睿Ultra 9 285K和Ryzen 9 9950X都是桌面端处理器,满载功耗均超过200W,而M4 Pro和M4 Max却是MacBook Pro的移动端芯片,足见其能效比之高。
以目前M4 Max的性能推算,采用两颗M4 Max芯片组合而成的M4 Ultra在多核性能上或将达到45000分,是酷睿Ultra 9 285K的两倍。单核性能则一般不会有太大提升,不过仍然会高于M4 Max,成为目前消费级市场的最强处理器。
M4 Ultra GPU一举超越英伟达RTX 4090
再来看看GPU性能,曝光称其跑分会超过RTX 4090,而依据则是Geekbench 6的GPU测试,这个测试涉及GPU的图像处理、计算摄像、机器学习、物理模拟和计算金融五个模块,并不单单测试游戏性能,这就给了M4 Ultra更多的得分空间。
所以,结合目前实测的M4 Max GPU性能数据,这个推测是有一定道理的,在极客湾的实测中,M4 Max的AI大模型计算性能已经达到RTX 4090的60%。甚至可以在RTX 4090因为爆显存而性能暴跌的情况下, 借助128G统一内存的优势继续流畅运行更大参数量的AI模型。
图源:极客湾
这也意味着,只要M4 Ultra的架构不发生根本性变化,至少在AI计算等方面的性能是可以超越RTX 4090,成为消费级最强的AI GPU。
那么游戏方面呢?从目前的实测结果来看,M4 Ultra的游戏性能肯定无法与RTX 4090相比的,因为即使是运行原生Mac游戏《博德之门3》,高分辨率下帧数也只是比RTX 4070移动版略高30%,尚未达到RTX 4080移动版的水平。
而在3DMark的测试中,RTX 4090桌面端的性能约为RTX 4080移动端的两倍,这也意味着M4 Ultra在最理想状态下,游戏性能也只能达到RTX 4090的75%左右。不过若是对比移动端的RTX 4090,那么倒是有机会反超,毕竟移动端RTX 4090本质上就是RTX 4080桌面端,差距还是非常明显的。
另外,如果是非原生游戏,那么GPU的性能还会受到明显的削弱,实测中帧数直接从领先RTX 4070移动版30%变成落后30%甚至50%,这时候别说挑战RTX 4090了,可以直接考虑和RTX 4060坐一桌。
对于想用M4 Ultra打游戏的朋友来说,个人建议是不如拿一万装台游戏电脑,体验会比M4 Ultra好很多。但是如果你的需求是用来跑本地AI大模型、视频剪辑、模型渲染等,那么M4 Ultra的表现或许会超过目前最强的消费级PC也说不定,对于英伟达和AMD的消费级GPU市场部门来说,这并不是一个好消息。
「苹果芯」跑分屡创新高,Arm是关键
苹果的自研M系列芯片跑分屡创新高,着实让英特尔、AMD等传统半导体厂商冷汗直冒,甚至不得不联手成立x86架构生态小组,共同探讨x86架构的未来,能让两个曾经的死对头联手,可想而知Arm带来的压力有多大。
实际上很多人也好奇,为什么Arm架构芯片的能效比可以如此惊人?其实关键就在于指令集上,Arm的指令集相较于x86要精简很多。
你可以将x86看作是一台复杂的多功能卡车,它可以一次性处理大量的数据和任务,但是在面对简单任务时,复杂且庞大的指令集也让其难以降低自己的资源占用率。而Arm则是摩托车,虽然每次只能执行单个任务和少量数据,但是可以通过灵活的车辆调度,分配执行任务的最佳车辆数,让Arm芯片在运行时有着更好地能效。
基于Arm架构的特性,苹果等企业很快就意识到通过增加核心数(准备更多的摩托)和优化指令集(专车专用提升效率),就可以让Arm芯片在性能上取得突破,Arm指令集的高能效比也让Arm芯片可以轻松堆砌大量核心,而不用过多的考虑功耗问题。
此外,Arm架构的灵活性,让苹果可以根据需求定制化设计专门的模块负责对应的任务,使得芯片效率进一步提升,加上统一内存架构带来的低延迟特性,让M系列芯片的整体执行效率远超传统芯片。
图源:苹果
得益于多项优化,量变最终引起了质变,让Arm芯片成功在单核及多核性能上都超越了传统x86芯片,成为PC市场的新兴势力,而不再是固守在移动设备市场。而且,苹果很快就发现这个套路在GPU上也同样可行,通过堆砌核心数的方式让GPU性能同样进入爆发式增长。
以M4 Pro和M4 Max为例,前者的GPU核心数为20个,后者则是40个,而在实际测试中,后者的各项性能基本上就是前者的两倍。理论上,只要苹果愿意,在达到芯片内部延迟的上限之前可以无限堆叠核心,打造更强的GPU。
图源:苹果
不过苹果本身并非半导体企业,其芯片设计更多的是为产品服务,所以并不会像英伟达、AMD那样为了销售芯片而设计出功耗、性能都「爆炸」的产品。但是苹果不这么做,不代表其他企业也这么想,比如高通就一直在关注Arm GPU和CPU,除了消费端,服务器和数据中心同样是高通的目标市场。
在2024年,高通就宣布重回服务器芯片市场,推出基于Nuvia内核设计的服务器芯片,截止目前为止,相关机构预估服务器市场的Arm芯片占比已经达到10%。其中不少AI算力中心都有增加Arm GPU算力服务器的计划,因为Arm的高能效可以显著降低AI推理时的电力成本,进而降低单位算力的成本。
正是因为Arm架构所带来的巨大威胁,前段时间英特尔与AMD签署合作协议时,英伟达也同样到场,并且同为生态小组的合作企业之一。目前,对于英伟达等企业来说,最好的消息是苹果无意参与到半导体芯片市场中,而坏消息则是,高通的Nuvia内核表现不错,恐怕会成为GPU市场的一匹黑马。
可以预见的是,在未来的PC市场中,Arm必然会有一席之地,并且有望彻底挑战x86架构和英伟达的市场地位。