这是Bubble2026年的第39篇更新。
时隔一年,
终于再见到Meta更新了模型。
只不过这次,不是Llama系列,换了个名字,叫Muse Spark。
九个月前,他们开始重新构建了整个AI技术栈、新的基础设施、新的架构、新的数据管线,做出了Muse Spark。
现在已经可以在Meta的产品、网站中使用它了。
网址在此:meta.ai
有一说一,这个网站真的很难打开使用...绝对是我用过所有AI网站里,最难打开使用的
回到正题,Muse Spark的Benchmark成绩如下:
对比的基本都是最猛的那几个。
但是我已经看到有老哥吐槽他们这个Benchmark 图做的稀烂,把自己的这一行标出高亮,会让人以为他们的成绩都是最好的。
所以,为了更方便比对,我重新简单做了一下这张图:
显然不是最好,但是还好有Grok,让它显得不是最差....
按照官方的说法,Muse Spark是一个原生的多模态推理模型,支持工具调用、视觉CoT、多Agent 编排。
同时,他们还推出了一个沉思模式。如果用过Gemini 3.1 Deep Think或者GPT 5.4 Pro,大概就能理解这个模式。
这个模式下,能让多个Agent并行思考处理复杂的问题。
在一些复杂的Benchmark上,跑分成绩如下:
人类最后一次考试(Humanity's Last Exam)上,不依靠工具,Muse Spark分数比Gemini 3.1 Deep Think和GPT 5.4 Pro都要好,而使用工具之后,也仅仅比GPT 5.4 Pro低那么0.3。
物理竞赛上,IPho 2025,Muse Spark的成绩比其他两个都差一些。前沿的科学研究,FrontierScience Research上,Muse Spark表现不错,比其他两个模型都要好。
那接下来,就是我的一手简单快速实测。
开始前,先叠甲说明:
我自己是认为这些case有的其实都比较老了,模型能做的好,不能说明它就一定牛逼,但是如果它这都做得不好,我觉得至少能说明模型比较一般。
照例开始,小球测试:
然后是魔方旋转还原测试:
前面的翻转做的不错,可惜还原的时候,没有把还原的路径都做出来。
与此同时,这是Opus 4.6的效果:
讲真,差异还是非常明显。
再看一个单行道交通灯模拟。
明显的细节上还是有问题,过了交通灯的车,怎么就还停下了....
甚至这个效果还没有两个月前的Kimi K2.5牛逼:
最后再看两个多模态的case。
这个来自@刘聪NLP:
非常神奇的是,Muse Spark 圈位置找对了,但是它回答错了...
讲真,它这个在图上直接圈出来还蛮让我眼前一亮的,但是架不住你回答错了呀...
最后再来看个页面复刻的case吧,简单复刻一个X页面。
原图:
复刻图:
小图标复刻、细节还原还是有问题,大体感觉方向是对的。
总体上来说,
Muse Spark 绝对不是现在的第一梯队的模型,
甚至某种程度上,我也不认为它能跟国产的开源模型相比。
但往好处想,
Meta 至少用这个模型证明了,他们还不想掉下这个牌桌。
只能说,期待他们后续的更新吧。
哦对了,
这模型是闭源的。