当AI开始“懂”创意:EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步

这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。

一、为什么要研究AI与创意大脑的关系

每个人都有过这样的体验:盯着一个普通的回形针,突然灵光一闪,觉得它可以当书签、可以当项链吊坠、甚至可以撬开手机的SIM卡槽。这种从单一事物出发,向四面八方发散出一堆奇思妙想的能力,心理学家称之为"发散性思维",也被认为是人类创造力的核心引擎。与之相对的是"收敛性思维",也就是从很多可能中聚焦到一个正确答案——比如解数学题。

近年来,大语言模型(就是以ChatGPT为代表的那类AI)在测试创造力的任务上表现得出人意料地好。研究人员用一种叫做"替代用途测试"(Alternate Uses Task,简称AUT)的经典心理学工具来衡量发散性思维:给被测试者一个普通物品的名字,比如"风筝"或者"砖头",让他们尽量想出这个东西不寻常的用途,最后由评审根据答案的创意程度打分。一些顶尖的AI模型在这个测试里的得分已经达到甚至超过了普通人类的平均水平。

然而,一个更有深度的问题随之浮现:AI在行为上表现出创意,它的内部"思考过程"真的和人类大脑产生创意时的状态相似吗?这就好比一个人能流利地说外语,但我们并不确定他是真正用那门语言在思考,还是只是在套用翻译模板。研究团队正是想解开这个谜题。

这个问题之所以重要,不仅仅是出于学术好奇心。如果AI在处理创意任务时,它的内部信息处理方式真的能映射到人类大脑的运作模式,那就说明AI在某种程度上"理解"了创造力,而不只是在统计学意义上模仿它。这对于我们理解AI的本质、以及如何设计更好的AI系统,都有深远的意义。

为了回答这个问题,研究团队把目光投向了神经科学领域一种叫做"功能性磁共振成像"(fMRI)的技术,同时从AI的角度出发,系统地测量不同大语言模型内部的数学表示结构,看两者之间有多相似。这是历史上第一次有人把这两件事放在一起,专门针对主动创意思考任务进行系统研究。

二、实验是怎么设计的

研究团队使用了神经科学家贝蒂等人于2018年收集的一批珍贵数据。这批数据来自170名健康参与者,他们在核磁共振扫描仪中分别完成了两个任务。

第一个任务是创意任务,也就是前面提到的替代用途测试:参与者看到一个物品名称后,需要尽量想出最有创意的用途,并报告他们认为最原创的那个想法。第二个任务是非创意控制任务,叫做"物体特征任务"(Object Characteristics Task,简称OCT):看到同一个物品名称后,参与者只需要报告这个物品最明显的物理特征,比如看到"砖头"就回答"红色的"或"很重"。这两个任务用的是同样的物品(共46个),结构高度对称,唯一的区别就是一个要求创意,一个不要求。经过数据清洗,最终保留了162名参与者的有效数据。

在处理这些大脑数据时,研究团队先用专业工具对原始的磁共振信号进行了一系列标准化处理,去除干扰信号、消除趋势、进行标准化和滤波。他们使用了一种叫做"广义线性模型"的统计方法,从原始脑信号中提取出每一次试验对应的大脑激活模式,这就好比从一段嘈杂的录音里,精确地提取出每个音符对应的频率特征。

在大脑的哪些区域进行分析,也是有讲究的。研究团队重点关注了两个与创造力密切相关的大脑网络。一个是"默认模式网络"(Default Mode Network,简称DMN),这个网络在你发呆、做白日梦、进行自由联想的时候特别活跃,被认为是产生创意的核心神经基础。另一个是"额顶网络"(Frontoparietal Network,简称FPN),负责认知控制和高级推理,帮助我们评估和筛选那些浮现出来的想法。作为对照,他们还分析了"躯体运动网络",这个网络主要管身体运动,和创意思维基本没什么关系,可以用来排除干扰因素。

在AI这一侧,研究团队向一系列不同规模的开源大语言模型输入了与参与者完全相同的任务指令和物品名称,然后提取模型每一层的内部激活向量作为模型的"思维表示"。这里他们做了一个重要的创新:不仅提取了模型看到输入提示词后的激活状态(提示词阶段),还提取了模型生成完回答之后的激活状态(生成阶段),这样才能捕捉到模型完整的处理过程。

测量AI表示和大脑激活之间相似度的方法,叫做"表征相似性分析"(Representational Similarity Analysis,简称RSA)。这个方法的核心思路可以用一个类比来理解:假设你有46首不同的歌曲,让两个人分别给这些歌曲两两之间的相似度打分。如果两个人的打分模式高度吻合——比如他们都认为某两首歌特别像,某两首歌特别不像——那就说明这两个人的音乐品味在某种深层结构上是一致的,即便他们用来描述歌曲的词汇可能完全不同。RSA就是用同样的思路,把大脑对不同物品的响应模式和AI对同样物品的内部表示结构进行比较,量化两者之间的几何相似度。

参与者对每个AUT任务的回答还经过了四位独立评审的创意打分,评分量表为1到5分,四位评审之间的一致性系数(ICC)达到0.75,这是统计学上"良好一致性"的标准,说明评分结果是可靠的。

三、模型越大、越有创意,就越像人类创意大脑

研究团队测试了近20个不同的开源大语言模型,参数量从2.7亿跨越到720亿,涵盖了Gemma、Llama、Qwen、Falcon等多个主流系列。

当他们分析模型在提示词阶段的内部激活与人类默认模式网络响应之间的对齐程度时,发现了一个清晰的规律:模型参数量越大,对齐得分越高,两者之间的皮尔逊相关系数达到了0.58,统计显著性p值小于0.05,这在统计学上意味着这种关系不太可能是随机偶然出现的。换句话说,72亿参数的大模型比2.7亿参数的小模型,更能"复现"人类大脑在进行创意思考时的内部状态。

更有趣的是,当研究团队将每个模型的AUT得分(用谷歌的Gemini模型作为打分工具,评估每个AI输出的创意程度)与对齐得分进行相关分析时,同样发现了显著的正相关关系,相关系数为0.51,p值同样小于0.05。也就是说,AI在创意任务上表现得越出色,它的内部思维结构就越接近人类大脑产生创意时的神经模式。

这个发现的意义是双重的。从神经科学的角度看,它暗示着默认模式网络所编码的创意信息,某种程度上也存在于大语言模型足够深层的表示空间中;从AI研究的角度看,它提供了一种新的、基于神经科学的评估维度,而不是单纯依赖行为层面的测试分数。

然而,这种美好的对应关系在模型开始生成回答之后,发生了明显的弱化。当研究团队用"提示词+模型回答"阶段的激活进行同样的分析时,与模型大小的相关系数骤降到接近零(0.01),与AUT得分的相关系数也下降到0.37且不再具有统计显著性。这意味着,一旦模型真正"开口说话",它的内部状态就开始偏离人类大脑的创意模式了。

研究团队对此提出了两种可能的解释。一种是,不同大小的模型在输出层面会趋向于生成相似的答案,因为它们都是基于相似的大规模文本数据训练的,这种"创意同质化"会掩盖模型间的差异。另一种解释是,随着模型越大,其生成的回答在长度、结构和质量上与人类的简短回答差距越来越大,导致两者难以直接比较。这个发现为未来的研究指出了一个重要的局限:目前的对齐分析主要在输入处理阶段成立,生成阶段的动态机制还有待深入研究。

额顶网络方面,研究团队也进行了类似的分析。结果显示,额顶网络的对齐得分与AUT性能之间同样存在显著正相关(相关系数0.55),但与模型大小的相关性并不显著(相关系数-0.18)。这说明默认模式网络和额顶网络在与AI规模的关系上呈现出不同的模式,额顶网络的对齐更多地与模型的"创意能力"本身相关,而不是单纯的参数量。

为了确认这些效应确实是创意思维特有的,而不是任何任务或任何大脑网络都会出现的普遍规律,研究团队做了两个关键的对照实验。当他们用非创意的OCT任务数据重复同样的分析时,无论是模型大小还是AUT得分,与默认模式网络对齐的相关性均不显著。当他们把目标换成与创意基本无关的躯体运动网络时,同样没有发现显著相关。这种"双重解离"的模式非常有力地说明,前面观察到的对齐效应,正是由"创意相关任务"和"创意相关大脑网络"这两个条件共同决定的,而不是某种泛泛的巧合。

四、越深的层,越懂创意

大语言模型内部由很多层组成,每一层都对输入信息进行一定程度的加工和转化,就像流水线上的不同工序。已有的研究表明,越靠前的层通常处理比较基础的词汇和语法信息,越靠后的层则处理更抽象、更与任务相关的高级语义信息。

研究团队发现,在所有测试的模型中,与默认模式网络对齐程度最高的,往往是模型靠后的那些层。他们计算了每个模型"最佳对齐层"的相对位置(用层的编号除以总层数,得到一个0到1之间的数值),发现这个相对深度与对齐得分之间存在显著正相关,相关系数为0.54,p值小于0.05。

从各模型的最佳层位置分布来看,峰值集中在相对深度0.5到0.75的区间,也就是说大多数模型的中后段层是与创意大脑响应最相似的部分。这个结果与创造力本身作为高级认知功能的定位是一致的——大脑的默认模式网络负责的是复杂的联想和抽象思维,而不是基础的词汇处理,对应到AI中,也应该是那些处理高级抽象表示的深层网络部分才与其最接近。

五、训练方式决定了AI对"创意大脑"的亲疏远近

研究中最精彩、也最具实际意义的一部分,是关于不同训练策略如何影响AI与大脑创意响应之间对齐关系的分析。

研究团队把参与者的大脑数据按照创意得分高低分成了两组:高创意响应组(评分大于等于2.0,共1358个样本)和低创意响应组(评分小于2.0,共1978个样本)。评分量表虽然是1到5分,但由于分布左偏(大多数回答的创意程度并不高),以2.0为界能大致均衡两组的样本量。然后,他们分别测量几个不同版本的Llama-3.1-8B模型与这两个创意等级组的对齐程度。

这几个版本分别是:未经过任何微调训练的基础预训练版本(Llama-3.1-8B);经过标准指令跟随微调的对话版本(Llama-3.1-8B-Instruct);经过"创意偏好优化"微调的版本(CrPO-Llama-3.1-8B-Instruct-cre),这个版本专门针对新颖性、惊喜感、多样性和质量等多个创意维度进行了优化;经过模拟人类行为微调的版本(Llama-3.1-Minitaur-8B),这个模型被训练成能预测和复现人类在各种认知任务中的实际行为表现;以及经过推理链训练的版本(DeepSeek-R1-Distill-Llama-8B),这个模型通过学习DeepSeek-R1系统生成的"一步一步推理"过程进行微调。

在提示词阶段,所有版本表现得非常相似,对高创意和低创意的大脑响应都有一定程度的正向对齐,差异不明显。这说明在"还没开始想"的阶段,不同训练策略带来的差异还没有充分显现出来。

真正的分歧在模型生成回答之后出现了。标准指令微调版本(Llama-3.1-8B-Instruct)对高创意和低创意响应都保持了相近的对齐程度,相对均衡。而创意优化版本(CrPO)则表现出一种明显的"选择性":它对低创意大脑响应的对齐程度显著下降,而对高创意大脑响应仍然保持了相当程度的对齐。这完全符合这个模型的训练目标——它被专门训练成要生成更有创意的内容,所以它的内部表示结构自然而然地向高创意的神经几何形状靠近,同时远离低创意的神经几何形状。

人类行为模拟版本(Minitaur)则表现出另一种有趣的模式:它对高创意和低创意的大脑响应都有所提升。研究团队认为这是因为,这个模型被训练成能够复现真实人类在各种场景下的行为,包括那些创意程度参差不齐的普通人的回答,所以它的表示空间与人类神经响应的整体分布更加吻合,无论是高创意还是低创意都能更好地对应。

基础预训练版本(Llama-3.1-8B,没有指令微调)在生成阶段几乎丧失了对两种创意水平的所有对齐。这可能是因为,没有经过指令微调的基础模型根本无法有效地理解和遵循创意任务的要求,所以它在"尝试完成任务"时的内部状态与真正在做创意思考的人类大脑状态毫无关联。

最引人注目的,是推理链训练版本(DeepSeek-R1-Distill)的表现:它对高创意大脑响应呈现出负向对齐,而对低创意大脑响应呈现出正向对齐。这是一个方向完全反转的戏剧性结果。

这个结果的含义是:经过推理链训练(也就是学习"先分析问题,再一步步推导答案"这种思维方式)的模型,其内部表示结构实际上与人类创意思考时的神经模式背道而驰。推理链训练让模型擅长的是有条理的收敛性思维,而创意大脑活跃时的神经几何形状,与这种分析推导式的处理模式在表示空间上处于相反的方向。换句话说,AI学会了"理性推理",却在某种意义上"失去"了对创意大脑的感应能力。

六、这对AI开发意味着什么

研究团队在讨论中指出,目前大多数主流的AI后训练策略,比如训练模型解数学题、写代码、进行逻辑推理,本质上都是在优化收敛性思维——这些任务都有标准答案,可以用机器自动评判,训练起来方便高效。然而,这篇研究的结果暗示,过度强调这类训练,可能会在无意间削弱模型的发散性思维能力,让模型的内部表示结构越来越远离人类创意神经几何的形状。

一个具体的证据就是,推理链训练版本不仅在神经对齐层面出现了反转,从直觉上也符合许多人的观察:用推理链训练出来的AI往往给出的答案更"规整",但创意上有时显得过于保守或千篇一律。而专门针对创意进行优化的版本,则在对齐上呈现出更符合预期的选择性模式。

研究团队认为,大脑对齐分析提供了一种超越行为测试的、更深层的评估维度。一个模型在创意测试上得分高,并不一定意味着它的内部机制真正在"以类似人类的方式"进行创意处理;反过来,如果一个模型的内部表示在神经层面与创意大脑高度对齐,这可能意味着它掌握了更接近人类创造性认知的某种计算原理。

说到底,这项研究最终想告诉我们的是:AI的创造力不只是一个行为表现问题,它背后有着可以被神经科学工具检验的内部结构。而现在流行的"让AI学会理性推理"的训练路线,与"让AI学会创意发散"的目标之间,存在着需要认真权衡的张力。这对于未来希望AI能在科学发现、艺术创作或复杂问题解决等真正需要创造力的领域发挥作用的研究者和开发者来说,是一个值得认真对待的信号。

归根结底,这项研究像一次精密的"内窥镜检查",让我们第一次真正看到了AI在"思考创意"时,其内部状态与人类创意大脑之间的共鸣与分歧。更大的模型、更高的创意能力、更深的网络层次,都会让AI的"创意思维"更接近人类大脑的运作方式——但前提是训练的方向要对,否则即便参数再多,向着"理性推理"的方向一路走下去,只会让AI的大脑越来越不像那个在天马行空、浮想联翩的你。这对于一个充满复杂问题、迫切需要真正创意的世界而言,是一个关乎AI发展方向的根本性提醒。感兴趣深入了解这项研究细节的读者,可以通过arXiv编号2604.03480查阅完整论文。

Q&A

Q1:替代用途测试(AUT)是什么,为什么用它来研究创造力?

A:替代用途测试是心理学中衡量发散性思维的经典工具。测试者会被给予一个普通物品的名称,比如"砖头"或"回形针",然后尽量想出这个物品不寻常的用途,评审再根据答案的创意程度打分。这个测试能反映出一个人从单一出发点产生多元、原创想法的能力,被广泛认为是衡量创造力的可靠指标,因此被用来同时测试人类参与者和大语言模型的创意表现。

Q2:推理链训练为什么会让AI与创意大脑的对齐出现"反转"?

A:推理链训练让模型学会一步步逻辑推导的思维方式,这种思维模式本质上是收敛性的,目标是找到唯一正确答案。而人类创意思维时活跃的大脑网络(默认模式网络)对应的是发散、自由联想的神经几何状态。两种思维方式在大脑表示空间中处于相反的方向,因此推理链训练会把模型的内部表示结构推向与创意大脑响应相反的方向,导致对高创意响应出现负向对齐。

Q3:表征相似性分析(RSA)是怎么比较AI和大脑的?

A:RSA的核心思路是比较"相似度结构"而非直接比较数值。研究团队把46个物品分别输入AI和呈现给人类参与者,然后分别计算每两个物品之间在AI内部表示空间中的距离、以及在大脑响应模式中的距离,形成两个"距离矩阵"。如果AI认为某两个物品很相似(距离近),大脑响应也认为它们相似,就说明两者的几何结构是对齐的。这个方法不需要AI和大脑使用同样的"语言",只需要它们对物品之间关系的"感知结构"一致即可。