一个小众模型突然火了,可能代表新的范式

最近各家大厂和创业公司都在密集发布新模型。我看了一圈,这些模型在性能和效率上肯定有提升,但都算不上里程碑式的版本。

从我的角度看,这几年大模型发展,有几个比较重要的节点。

第一个是推理范式代表作是 OpenAI 的 o1。

o1 之前的模型,不管是 GPT-4 还是 Claude,都是即时响应的,问一句答一句,秒回。o1 做了一件挺不一样的事,它在回答之前会先思考一阵子。

这个思考不是给用户看的,而是它在内部生成大量 Token 给自己看。这些 Token 是它的内部思维链,用来拆解问题、尝试不同思路、识别错误、再换一种方法。等想清楚了,才把最终答案输出来。

第二个是原生多模态这个事行业里提得不多,但我觉得非常重要。代表作是 Google 的 Gemini。

2023 年 12 月 Google 发 Gemini 的时候,技术报告里明确提了一个词,natively multimodal。意思是 Gemini 从训练的第一天起,就同时用文本、图像、音频、视频联合训练,不是先训一个语言模型再外挂视觉模块。

为什么这个事重要?大家可以试一下,把一张图片扔给 Gemini 或者 Kimi K2.5 这种原生多模态模型,它对图里的细节理解会很到位,包括位置关系、表情、文字。

如果不是原生的,是拼接式的,那中间要经过一道翻译,再喂给语言模型,细节就都损耗掉了。

也就是说,原生多模态解决的是模型从底层就能看懂图这件事。

第三个是原生 Agent这个已经老生常谈了,现在头部模型基本都是这个方向。

意思是说,模型在训练阶段就被刻意练过怎么去拆任务、怎么去调工具、怎么去做多步推理。

Anthropic 训 Claude 的时候就明确这么干,丢给它大量开放式问题,让它自己去调工具、拆解任务、自主执行。

这事现在已经是确定的方向了。

#01

一个新的里程碑

铺垫了这么多,是想说昨天晚上我又看到一个挺有意思的模型。虽然现在还小众,也不算火,但我觉得它可能代表了接下来另外一种新的重要里程碑。

这个模型是国内老牌 AI 公司商汤发的,名字是 SenseNova U1一款全新的原生多模态理解生成统一模型。GitHub 和 Hugging Face 地址我放在这了:

GitHub: https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1

原生多模态理解生成统一模型,这个词现在还有点拗口。但我想不到更准确的定义方式了。简单说,它通过单一的模型架构,统一了多模态的理解、推理和生成。这事挺牛的。

原生多模态我刚才已经说了。但大家可能会问,原生多模态和原生理解生成统一模型,区别在哪?区别挺大的。

拿原生多模态举例子。它的核心是用海量图文混合 Token 做联合预训练,然后在同一个模型里同时做视觉理解和语言推理。

也就是说图文是一起训的,模型内部也是统一的,不是两个模型拼接。这就是原生多模态。

但这里头最关键的是它怎么做的。

把图像切 Patch,编码之后变成 Token,然后图文都以 Token 的形式进入 Transformer。

它确实是一个模型在处理图文,但底座内核还是一个语言模型,图像会被转成统一的 Token 表示,再和文本一起进入同一个模型做联合建模。

也就是说,它做的是联合训练、联合优化,做出了视觉推理能力,底层还不是真正统一的表示空间。

商汤这个 U1 完全不一样。它的架构叫 NEO-unify,去掉了视觉编码器 VE 和变分自编码器 VAE,直接构建了统一的表征空间。

以前的原生多模态,本质上是把图片拆成语言模型能理解的碎片,再让模型处理。

U1 是让模型内部同时具备对像素和语义的统一表示能力,减少中间的转换过程,而不是先翻译成另一种形式再参与推理。这是本质的差别。

这样做有两个好处。

第一,减少信息损耗。

现在主流做法里,图像通常需要被转成一组离散表示,再进入模型参与推理。这一步本质上是一种信息重编码,过程中会更偏向语义表达,一些结构细节和空间关系容易被弱化。

如果模型内部本身就是统一的表示方式,视觉信息可以更完整地参与后续计算,而不是先被压成另一种形式再使用。

第二,理解和生成放进同一个模型。

这事得稍微解释一下。前几天 OpenAI 发了 GPT Image 2,那是一个独立的图片生成模型。

也就是说,GPT-5.5 自己其实不会生成图片,它要生图,还得调用 GPT Image 2 这个独立的模型。但反过来,GPT-5.5 又是能看懂图片的。

这就很割裂了。一个能看懂图片,一个负责画图,是两个模型在配合干活。

现在整个行业好像都默认了这件事,图像生成模型和大语言模型本来就该是分开的。Gemini 也是一样的路子,理解归理解,要画图还得搭配 Nano Banana 这种系列的模型。

但商汤这次想干的事,是把这两件事统一到一个模型里。一个模型既能看懂图,也能直接画出图。理解和生成走的是同一套表征,不需要再外挂一个图像模型。

讲到这里,其实可以再往前推一步。

现在的多模态模型,哪怕是原生多模态,很多推理其实还是在文本空间里完成的。给它一张图,它要先把图翻译成 Token,转成大语言模型能理解的东西,再用语言去做推理。

所以很多时候我们会发现,模型其实是在描述图片,而不是真的在看图。它理解图片的方式,骨子里是文本的方式。

如果模型能原生理解图片,不需要这道翻译,那就更接近人脑了。视觉信息可以直接和文本信息混在一起参与推理。这个或许才是最纯粹的原生多模态。

商汤 U1 想做的就是这件事。

#02

实测 Case

我自己测了一下。坦白讲,现在还没有已有的那套架构稳定,生成图片也没有 GPT Image 2 或者 Nano Banana 那么好看。毕竟是新范式刚做出来的东西,难度本身就挺大。

但我觉得这事有看头。它也许在接下来半年到一年的时间里,会成为所有头部模型都要跨过去的一个范式。

而且这次商汤开源了两个参数量不大的版本,属于 U1 的轻量版系列 U1 Lite

一个是 8B 稠密版,叫 SenseNova-U1-8B-MoT。一个是激活参数 3B 的 MoE 版,叫 SenseNova-U1-A3B-MoT。

我测试下,大家看看效果。我直接把孩子的一篇作文扔进去,让它生成一个图文交错的内容。

图片

大家看看模型的思考过程,它会同时把图片纳入到推理范畴中。

图片
图片

最后,输出一个图文交错的作文插图。

图片

再或者,小马过河的故事也一样。我输入文本,它会根据自己的理解,生成图文混排的内容。

图片

再比如,我让它生成一张梳理中国女排发展与辉煌时刻的图片,它也能把大量信息压缩进一张图里,结构还很清晰。

图片

再让它生成一张讲光污染的图片,也可以把一堆杂乱的信息结构化地展示出来。

图片

#03

写在最后

这事就超级有趣。

因为前两天我写了一个生成 HTML 版本 Slides 的 Skill,做完之后挺满意。但第二天演示的时候发现不对劲,PPT 全是文字,我希望能有图片。

这就麻烦了。要流程图,得接一个生成流程图的 Skill。要配图,得接 GPT Image 2 或者 Nano Banana 2。一个模型搞不定。

后来我把 API 接过去后,倒是能跑通,但效果不满意。毕竟 Skill 得自己判断什么地方该插图。判断完了,再单独组一组提示词,喂给图片模型。这中间就断了一道。

图片模型并不知道我前面那篇文章讲了什么,它只看到了那一小段提示词,给我画一个孤零零的小片段。风格、语境、上下文,全都没接上。

但你想,如果是商汤 U1 这种统一模型,事情就完全不一样了。

我把一篇文章给它,告诉它我要做 PPT。模型自己就能通盘判断,这一段用文字讲清楚就够了,那一段配张图更直观,画出来的图也跟前后内容是连贯的,因为它从头到尾都在同一个语境里。

现在原生多模态模型也已经是共识了。未来一年内,也许原生多模态理解和生成又会成为新的共识。