AI图像为何看起来有创意?斯坦福团队揭示:不是灵感,是算法带来的“误打误撞”

大数据文摘出品

人工智能的“创造力”并不是神秘魔法,它或许只是算法自身架构的必然产物。

ICML 2025(International Conference on Machine Learning 2025) 上的一篇论文研究表明:扩散模型在生成图像时表现出的“创意”,其实来源于去噪过程中的技术缺陷。

AI的“创造力”不是魔法,而是结构性的副产物

该论文由斯坦福大学应用物理专业的研究生梅森·坎布(Mason Kamb)主导完成。

图片

他和导师、物理学家苏里亚·冈古利(Surya Ganguli)构建了一套名为“等变局部评分机”(Equivariant Local Score Machine,简称ELS)的数学模型。

这套系统不是训练后的AI模型,而是一套纯数学公式,完全基于“局部性”和“等变性”这两个机制,预测AI去噪图像的构成。

图片

图注:这两个公式定义了 ELS模型 的核心机制,用于生成扩散模型中的逆向更新流

这里的局部性指的是模型只关注图像中的一个个像素块,而不是整体图像。

而等变性则意味着图像被稍微移动时,AI生成的图像也会做出相应调整,以保持结构一致性。

图片

论文链接:https://arxiv.org/abs/2412.20292

传统看法认为,这些只是技术局限。但坎布认为,这两个机制本身就是AI“创造力”的源泉。

他大胆提出,如果一个系统只追求局部性和等变性,它自然就会表现出扩散模型那样的创造行为。

他和导师随后用ELS模型将一系列被转换为“数字噪声”的图像重新“去噪”,再与真正的扩散模型输出的图像进行对比。

结果令人震惊。

ELS如何解释扩散模型的“创意”

ELS模型的预测结果与真实AI模型输出图像平均相似度高达90%,这种准确率在机器学习领域前所未见。

图片

图注:论文提出的解析理论可以逐例准确预测卷积扩散模型在 MNIST、CIFAR10、FashionMNIST 和 CelebA 数据集上的输出,即使这些输出非常原创且远离训练数据。

“这太不可思议了,”作者表示,“我们以前从未在这个领域见过如此高的拟合度。”

这意味着所谓的“创造”,可能只是AI系统对局部片段的专注所带来的副产物。从图像的角度来说,AI根本不知道整个图要长成什么样。

它只是对一个个像素块做出最合理的“猜测”,然后通过一种叫“评分函数”的数学机制把这些局部片段拼到一起。

拼接过程中可能发生微小偏差,也可能出现“异常”组合,比如多出几根手指的人脸图像。

这正是研究者们最初观察到的“多指人”现象的来源。

作者在看到AI生成图像中的这些异常时,立刻联想到自己长期研究的“形态发生”理论。形态发生,是解释生物体如何从胚胎发展为完整身体结构的自然过程。

这一理论源于图灵模式,由计算机科学先驱艾伦·图灵提出,解释细胞如何通过相互作用形成特定组织结构。

图灵模式强调:每个细胞只响应周围邻居的信号,没有一个中央“大脑”控制整体构造。

AI的扩散模型也是类似机制:没有“全局大脑”,只是局部决策。

从这个角度看,AI在“创作”时的行为,和自然界细胞构建身体的行为几乎一致。

这一发现提供了一个全新的视角:创造力,也许并不是顶层智能的象征,而是从底层结构中自然“冒出来”的现象

正如坎布所说,“只要你引入了局部性,创造力就自然而然地出现了。”

以往研究者一直试图把AI的“创造”解释为某种高级认知模拟。他们认为AI是通过“学习人类风格”来创作的,仿佛它具备某种类似于人类意识的抽象能力。

图片

图注:即使训练集里只有一张全黑图和一张全白图,模型也能通过“拼小块”的方式,组合出各种新图,只要这些小块在局部看起来是合理的(比如一个小区域内大多数颜色和中心像素一致)。但如果模型“走得太快”(步长太大),就可能拼出看起来不协调的图像。

这项工作表明,这种看法可能走反了方向。AI的创造力,并不来自它学会了“如何创造”。而是来自它“不知道”如何看全局,只能靠局部组装,从而不断“误打误撞”出新的内容。

正因如此,它才像是在拼接一幅从未见过的拼图。

创造力不是神秘灵感,而是结构与组合的产物

这让我们不得不重新思考另一个更大的问题:人类的创造力,是否也源于类似的机制?

有专家认为,人类的创作行为,很多时候也是在片段信息中“填补空白”。我们凭借经历、梦境、记忆、愿望,把碎片拼成作品,AI也是一样,只不过它拼的是看到过的图像或指令。

在这种理解下,人类和AI的“创造力”,可能共享一种本质机制,对不完整世界的修补尝试。

当我们试图弥补知识的空缺,最终却做出一个别人从未想到的组合时,我们称之为“创新”。

如果AI的创造力也能被数学形式精确预测,是否意味着“创意”从来不是“神来之笔”,而是“计算之果”?

而现在,这篇论文提出的ELS模型可能找到了这个机制。它不仅揭示了AI图像生成背后的“黑箱”,也打开了通往理解人类思维内部结构的大门。

当然,扩散模型的创造机制依赖“局部性”和“等变性”,但语言模型等其他AI系统,并不依赖这些。

但这项研究告诉我们:创造力不是奇迹,是结构性的必然。

在一个复杂系统里,当局部与局部之间不断试探、不断组合,一种“整体图景”就会在无意识中浮现。

正如图灵模式下的胚胎细胞那样,它们从未见过整个人体,却能长出完整的手脚。

AI模型也从未见过一幅完整的“图像”,却能拼出看起来像是艺术的产物。

或许,这才是真正的创造。

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!