Meta 发布新模型,是重登王座还是拉了一坨大的?!

这是Bubble2026年的第39篇更新。

 

图片

时隔一年,

终于再见到Meta更新了模型。

只不过这次,不是Llama系列,换了个名字,叫Muse Spark

图片

九个月前,他们开始重新构建了整个AI技术栈、新的基础设施、新的架构、新的数据管线,做出了Muse Spark

现在已经可以在Meta的产品、网站中使用它了。

网址在此:meta.ai

有一说一,这个网站真的很难打开使用...绝对是我用过所有AI网站里,最难打开使用的

Section 01Benchmark 成绩一览

回到正题,Muse Spark的Benchmark成绩如下:

图片

对比的基本都是最猛的那几个。

但是我已经看到有老哥吐槽他们这个Benchmark 图做的稀烂,把自己的这一行标出高亮,会让人以为他们的成绩都是最好的。

图片

所以,为了更方便比对,我重新简单做了一下这张图:

图片

显然不是最好,但是还好有Grok,让它显得不是最差....

Section 02模型定位与沉思模式

按照官方的说法,Muse Spark是一个原生的多模态推理模型,支持工具调用、视觉CoT、多Agent 编排

同时,他们还推出了一个沉思模式。如果用过Gemini 3.1 Deep Think或者GPT 5.4 Pro,大概就能理解这个模式。

这个模式下,能让多个Agent并行思考处理复杂的问题。

在一些复杂的Benchmark上,跑分成绩如下:

图片

人类最后一次考试(Humanity's Last Exam)上,不依靠工具,Muse Spark分数比Gemini 3.1 Deep ThinkGPT 5.4 Pro都要好,而使用工具之后,也仅仅比GPT 5.4 Pro低那么0.3。

物理竞赛上,IPho 2025Muse Spark的成绩比其他两个都差一些。前沿的科学研究,FrontierScience Research上,Muse Spark表现不错,比其他两个模型都要好。 

Section 03一手实测:代码生成

那接下来,就是我的一手简单快速实测。

开始前,先叠甲说明:

我自己是认为这些case有的其实都比较老了,模型能做的好,不能说明它就一定牛逼,但是如果它这都做得不好,我觉得至少能说明模型比较一般。

照例开始,小球测试:

PromptP5.JS
使用 p5.js创建 10 个彩色球在旋转六边形内弹跳的效果, 考虑重力,弹性,摩擦和碰撞。写进一个HTML 文件
图片
Muse Spark 的小球弹跳效果

然后是魔方旋转还原测试:

PromptTHREE.JS
使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能,  写成一个HTML文件
图片
Muse Spark 魔方测试:翻转尚可,还原路径缺失

前面的翻转做的不错,可惜还原的时候,没有把还原的路径都做出来。

与此同时,这是Opus 4.6的效果:

图片
Opus 4.6 的魔方效果,完成度明显更高

讲真,差异还是非常明显。 

再看一个单行道交通灯模拟。

PromptHTML/CSS/JS
用HTML、CSS和JavaScript写一个交通灯可视化程序, 模拟单行道上的交通灯工作原理,车辆以随机速率进入道路。 写进同一个HTML文件里
图片
Muse Spark 交通灯模拟,过红灯后车辆异常停车

明显的细节上还是有问题,过了交通灯的车,怎么就还停下了....

甚至这个效果还没有两个月前的Kimi K2.5牛逼:

图片
Kimi K2.5 的交通灯模拟,完成度更优 
Section 04多模态实测

最后再看两个多模态的case。

这个来自@刘聪NLP:

PromptVISION
找到图片中奔跑的人,并返回行列序号,比如:几行几列
图片
测试图片:找到奔跑的人

非常神奇的是,Muse Spark 圈位置找对了,但是它回答错了...

图片

讲真,它这个在图上直接圈出来还蛮让我眼前一亮的,但是架不住你回答错了呀... 

最后再来看个页面复刻的case吧,简单复刻一个X页面。

原图:

图片
原版 X 页面截图

复刻图:

图片
Muse Spark 复刻结果,大体方向对,图标和细节仍有差距

小图标复刻、细节还原还是有问题,大体感觉方向是对的。 

Section 05总结判断

总体上来说,

Muse Spark 绝对不是现在的第一梯队的模型

甚至某种程度上,我也不认为它能跟国产的开源模型相比。

但往好处想,

Meta 至少用这个模型证明了,他们还不想掉下这个牌桌。

只能说,期待他们后续的更新吧。

哦对了,

这模型是闭源的。

End Note