这项由韩国首尔VIDRAFT公司研究团队完成的工作,以预印本形式发布于2026年5月,论文编号为arXiv:2605.14386,有兴趣深入了解的读者可通过该编号查询完整原文。
当我们谈论让AI变得更聪明,大多数人脑海中浮现的画面大概是:堆满服务器的数据中心、海量的训练数据、以及漫长而昂贵的计算过程。训练一个顶级AI大模型,花费数百万甚至数千万美元是家常便饭。然而,VIDRAFT的研究团队提出了一个截然不同的思路——与其重新训练,不如"杂交育种"。
这个想法的灵感,其实可以用一个农民都能理解的场景来理解:两头各有优点的牛,一头力气大,一头耐力强,育种专家不需要从头"制造"一头新牛,只需要让它们交配,挑选出兼具两者优点的后代就行。VIDRAFT团队在AI领域做的,正是类似的事情——他们把这套方法命名为"达尔文家族"(Darwin Family),向进化论的提出者致敬。
这套方法最令人惊讶的结果是:他们的旗舰模型Darwin-27B-Opus在一项叫做GPQA Diamond的顶级科学推理测试中,拿到了86.9%的分数,在当时参与评测的1252个模型中排名第六,而且超越了它的"父本"模型——后者是经过完整训练的正规AI模型。更关键的是,Darwin-27B-Opus完全没有经过任何额外的梯度训练,它的能力提升,纯粹来自于对已有模型权重的重新组合。
---
一、为什么训练一个更聪明的AI,可能不需要再训练?
要理解这项研究的出发点,需要先聊聊AI界一个反直觉的发现。
过去几年,研究人员发现了一件有些奇怪的事:给AI做"补习"(也就是指令微调和强化学习)虽然能提高它在特定题目上的准确率,但有时候反而会削弱它真正理解问题、推理问题的能力。打个比方,就像有些学生通过大量刷题提高了考试分数,但如果遇到换了包装的同类题目,反而答不上来——他们记住了答案套路,但没有真正理解解题逻辑。
与此同时,另一批研究者发现,当你不修改模型的任何参数,只是换个提问方式(比如让模型"一步一步思考"),模型的推理能力会有显著提升。这说明,推理能力并非在补习阶段才形成的,它其实早就藏在模型的"骨子里",藏在预训练阶段形成的内部结构中。
此外,通过对AI模型内部各层的"解剖"分析,研究者们发现不同的层承担着不同的职责,有些层专门处理语法,有些层处理逻辑推理,有些层处理事实知识。而且最关键的是,负责推理的那些层,在预训练之后就基本固定下来了,后续的训练主要改变的是模型的表面行为,而非底层的推理线路。
这些发现共同指向了一个问题:既然推理能力主要在预训练阶段就已经形成,是不是可以不靠额外训练,而是通过重新组织已有模型里的能力来提升性能?VIDRAFT团队的答案是肯定的,而"达尔文家族"框架就是他们给出的解决方案。
---
二、AI"基因工程"的基本原理:模型合并是怎么回事?
在理解达尔文框架的具体机制之前,需要先了解一个基础概念:模型合并。
每一个AI大模型,其核心本质是一大堆数字——数以亿计甚至千亿计的参数值,这些数值决定了模型如何理解输入、如何生成输出。研究人员把这些参数想象成空间里的一个点,而"模型合并"就是把两个或多个模型的参数按照某种方式混合起来,得到一个新模型。
最简单的合并方式是平均:把两个模型每个位置的参数值加起来除以二。这就好比把两个厨师的食谱各取一半混合在一起——有时候味道不错,但很多时候两种风味相互干扰,反而不如任何一个原版好。
在达尔文框架里,研究团队把两个父本模型分别称为"父本"(Father)和"母本"(Mother)。在具体的实验设置中,父本通常是一个能力全面的基础模型,母本是一个经过推理能力专项训练的模型。两者都从同一个预训练底座出发,只是后续强化的方向不同。
从数学角度来说,每个模型的参数可以拆解为两部分:共同的预训练底座,加上各自的"个性偏差"。达尔文的工作,就是把父本和母本各自的"个性偏差",按照特定比例混合后再叠加回底座上,得到融合了两者优点的新模型。关键的挑战在于:怎么决定每个参数的混合比例?直接均分往往效果不好,不同的参数对最终性能的重要性差异巨大。
---
三、达尔文框架的三大核心创新
达尔文框架之所以能超越简单的参数平均,依赖于三个相互配合的核心机制。
第一个机制叫做"MRI诊断重要性评分"。这个名字借用了医学上的核磁共振成像(MRI)概念——就像医生用MRI扫描人体来判断哪些器官更重要、哪些部位需要重点关注,达尔文也会对模型的每一个参数层做一次"扫描",评估每层对推理能力的贡献程度。
具体来说,MRI评分由两部分组成。第一部分是"静态统计":通过分析参数的分布特性(包括熵、方差、模长等数学指标)来估计该层的信息丰富程度,就像通过观察一片区域的地形起伏来判断它是否有值得挖掘的矿产。第二部分是"探针响应":用一批专门设计的测试问题,让模型处理这些问题时记录下每一层的激活状态,然后比较该层在处理推理题和处理普通闲聊时的反应差异——如果某层在推理题和闲聊时的反应截然不同,说明它对推理来说是个特别重要的节点。这两部分各占50%权重,综合计算出每个参数层的重要性得分。有了这个得分,就可以为父本和母本的每个参数层计算出一个"混合比例建议":哪个模型在这一层的得分更高,就多用那个模型在这一层的参数。
第二个机制是"进化搜索与基因组"。仅靠MRI评分来决定混合比例还不够完美,因为MRI本身是一种近似估计,难免有误差,而且各层之间的相互作用也很复杂,单层诊断无法完全捕捉。于是,达尔文引入了进化算法来在MRI提供的初始建议基础上进一步优化。
每个候选的合并方案被编码为一个14维的"基因组"向量,这14个数字分别控制不同层面的混合行为:全局混合比例、注意力模块(负责信息聚焦的部分)的混合比例、前馈网络(负责知识存储和变换的部分)的混合比例、词嵌入层的混合比例、两个父本模型的参数稀疏化密度、六个连续层块的独立混合比例、MRI信任度参数,以及合并算法切换权重。进化搜索会生成一批候选基因组,评估它们对应的模型性能,然后像自然界的选择一样保留表现好的方案,淘汰表现差的,对留下来的方案进行交叉组合和随机变异,再评估新一批候选方案,如此循环,逐步找到更优秀的参数组合配方。
第三个机制叫做"MRI信任融合"。前两个机制各有长短——MRI诊断提供了有依据的先验建议,但可能有诊断噪声;进化搜索能够自由探索更大的空间,但效率相对较低。达尔文用一个叫做τ(tau)的参数来平衡这两者的影响。当τ接近1时,最终的混合比例完全听从MRI诊断的建议;当τ接近0时,完全由进化搜索来决定;而中间值则是两者的加权组合。关键在于,τ本身也是进化搜索的一部分,由算法自动学习最优值,而不是人工手动设定。
实验发现,在所有测试的模型尺寸上,τ都稳定地收敛在0.35到0.55之间,既不完全依赖诊断,也不完全依赖进化——这说明两种信息源都有独特价值,缺一不可。
---
四、跨越"物种"的混血:连结构不同的AI也能合并
达尔文框架的第四个值得关注的能力,是它的"架构映射器"(Architecture Mapper)。
绝大多数的模型合并方法,要求两个父本模型具有完全相同的内部结构——就像只有同品种的牛才能交配一样。但达尔文希望能突破这个限制,让不同架构的模型也能互相取长补短。
架构映射器在合并前先做一件事:把两个模型的参数层一一对应起来,找到它们在功能上等价的部分。这个对应过程基于三个维度的综合评分:层的功能类型是否一致(比如都是注意力层,或者都是前馈层),参数的维度是否匹配,以及参数矩阵的形状是否相似。三个维度分别占权重50%、30%和20%,通过贪心匹配算法建立对应关系。
这套机制最有代表性的应用案例是Darwin-4B-Genesis——一个将基于Transformer架构(目前主流的AI架构,依靠"注意力机制"处理序列信息)的模型与基于Mamba架构(一种依靠"状态空间模型"的新型架构,擅长处理长序列)的模型进行混合的实验。最终的Darwin-4B-Genesis在特定推理测试上超越了两个父本,尽管它没有经过任何重新训练。
当然,研究团队也坦诚地指出,跨架构合并目前还是一个支撑性的能力展示,而非主要的性能驱动力——旗舰模型的核心性能,仍然来自于同架构父本之间的精准合并。
---
五、"进化"是如何一步步进行的?两阶段优化策略
考虑到评估一个完整的合并模型需要相当大的计算量,达尔文采用了一个分两阶段的优化策略来提高效率。
第一阶段是"快速筛选"。这个阶段不需要构建完整的合并模型,而是用一个轻量级的代理评分函数来快速过滤掉明显不好的候选基因组。具体的进化设置是:种群规模50个候选基因组,运行20代,每代保留表现最好的5个,通过在基因组空间中做球面线性插值(SLERP)进行交叉组合,再加入标准差为0.01的随机变异(每代衰减0.95)。这个阶段可以快速缩小搜索范围,识别出最有潜力的合并配方区域。
第二阶段是"精细验证"。把第一阶段筛选出的少量高质量候选基因组,真正实例化为完整的合并模型,在推理基准测试上进行直接评估,最终根据实际测试成绩选出冠军配方。这套两阶段策略的设计逻辑,类似于奥林匹克选拔:先在省级比赛中快速筛掉大部分参与者,再让少数精英进行正式决赛,而不是让所有人都经历同等强度的完整赛程。
关于MRI诊断需要使用的"探针数据集",团队设计了一个包含123个样本的校准集,分布在六个类别上:28道多步推理题(算术、逻辑推导、条件推断)、22道编程题(Python代码和算法)、18道形式逻辑题(三段论等)、20道韩语语言理解题、20道英语基准题,以及15道日常闲聊问题(作为对比基准)。韩语和英语各占约50%,这与该研究团队来自韩国有一定关系,也反映了他们关注多语言推理能力的研究倾向。
---
六、用什么方法"缝合"参数?合并算法的选择
在决定了每个参数层的混合比例之后,还需要选择具体的"缝合方式"。达尔文主要使用了两种合并算法,并对它们的表现做了系统比较。
主力算法叫DARE-TIES,全称是"丢弃-重缩放与任务区间消除"。这个算法的工作流程分四步:计算每个父本模型相对于预训练底座的参数偏差,对这些偏差应用随机稀疏化(随机丢弃一部分偏差值),重新缩放剩余的值以保持整体期望量级不变,最后按照基因组指定的比例将两个父本的处理后偏差加权合并。这种"丢弃-重缩放"的设计思路,本质上是在消除两个父本模型之间可能产生"打架"的冲突性参数,只保留真正有贡献的部分。实验结果表明,DARE-TIES在所有配置下都优于其他方法。
另一种算法叫SLERP(球面线性插值),顾名思义是在高维球面上进行平滑插值,而非简单的直线平均。这种方法在进化搜索的早期探索阶段比较好用,因为它的插值过程更平滑,有助于稳定地探索参数空间。但在最终的性能评估中,SLERP的峰值准确率一致低于DARE-TIES,因此被用于探索阶段而非最终模型构建。
---
七、实验成绩单:数字说明了什么?
旗舰模型Darwin-27B-Opus的表现,是整个研究中最核心的实证证据,VIDRAFT团队也将其作为"主要验证案例"来呈现。
在GPQA Diamond测试上,Darwin-27B-Opus达到86.9%,而父本模型(Qwen3.5-27B)为85.5%,母本模型为86.2%,简单平均/SLERP合并为86.1%。也就是说,Darwin的结果不仅超过了两个父本,还超过了最简单的参数平均方案约0.8个百分点。GPQA Diamond是一个要求研究生水平科学推理的测试,里面的题目连领域内博士生都未必能轻松作答,达到86.9%意味着极高的科学推理能力。
在其他基准测试上,Darwin-27B-Opus同样取得了全面领先的成绩:ARC-Challenge(多步推理测试)上达到77.9%,比父本的71.0%高出近7个百分点;CommonsenseQA(常识问答)上达到78.3%;TruthfulQA(真实性问答)达到77.8%;HellaSwag(情境补全)达到87.0%;RACE(阅读理解)达到83.1%;MMLU(多学科知识)达到77.6%;Natural Questions达到76.0%;TriviaQA达到72.2%。九个基准测试的综合平均为78.6%,而父本的综合均值约为76.7%,母本约为77.6%,简单合并约为77.5%。
消融实验(即通过逐步去掉某些机制来验证每个机制的贡献)的结果进一步揭示了各组件的作用。当完全去掉MRI诊断、只靠进化搜索时(τ=0),GPQA得分为84.4%;当完全依赖MRI诊断、不做进化搜索时(τ=1),得分为85.6%;当τ固定为0.7时,得分为86.0%;而完整版本(τ由进化自动学习,最终收敛到0.556)达到86.9%。这组数据清楚地表明:MRI诊断提供了有意义的先验,进化搜索在此基础上进一步修正,而自适应地学习两者的信任度是关键的画龙点睛之笔,三者缺一不可。
---
八、不只是一个模型:达尔文家族的整体面貌
Darwin-27B-Opus虽然是最核心的验证案例,但研究团队还发布了一系列其他规模和类型的模型,共同构成了"达尔文家族"。
Darwin-4B-Opus是第一代4B参数模型,父本为gemma-4-E4B,母本为Deckard,MRI信任度τ为0.491,证明了14维基因组框架在小模型上同样有效。Darwin-4B-David是在Darwin-4B-Opus基础上进行的第二代进化,母本换成了DECKARD-24B-D,GPQA得分85.0%,这是整个家族中第一个"递归进化"案例,即用上一代进化出的模型作为父本继续进化,其maj@8(多次采样取多数票)指标提升了26.4个百分点。Darwin-4B-Genesis是第三代,父本为Darwin-4B-David,母本为Qwen3.5-4B,GPQA约60%,最重要的意义是它实现了跨架构合并,将Transformer注意力层与Mamba前馈层成功融合,这一实验标志了跨架构"育种"的可行性。Darwin-9B-Opus是基于qwen3.5-10B底座的紧凑型变体,主要验证了框架在中等规模上的适用性。Darwin-31B-Opus的父本为gemma-4-31B,母本为TeichAI-distill,GPQA得分85.9%,在GPQA官方榜单排名第11,τ值为0.363。Darwin-35B-A3B-Opus的父本为Qwen3.5-35B-A3B(一种混合专家架构),母本为Jackrong,GPQA达到90.0%(带星号,意味着该结果处于验证阶段),支持262K超长上下文和201种语言,是家族中最大的单次发布变体。
纵观整个家族,有一个令人印象深刻的规律性发现:在4B、27B、31B三个不同规模上独立进化出的基因组,表现出高度一致的参数模式——注意力层混合比例(αattn)稳定在0.15至0.32之间,前馈层混合比例(αffn)稳定在0.84至0.93之间,全局比例(γ)稳定在0.47至0.53之间。换句话说,进化算法在不同规模上都独立地"发现"了同一个结构规律:应该尽量保留父本(基础模型)的注意力层参数,同时大量引入母本(推理专项模型)的前馈层参数。这个模式与神经网络分析领域的研究发现高度吻合——注意力层主要负责信息路由和聚焦,而前馈层主要负责存储和转换特定知识与技能。
---
九、哪些情况下这套方法会失效?
研究团队在论文中专门列出了失效案例和局限性,这种坦诚值得关注。
当两个父本模型在能力和错误模式上高度相似时,进化合并的收益会很小。本质上,这时候的合并只是在"重新排列同类东西",而非"融合互补优势"。当两个父本的内部表示差异太大时,即便它们名义上来自同一架构,参数混合也可能打乱推理路径,进化搜索来不及修复,导致结果变差。当MRI诊断信号本身很弱或很分散时(比如推理能力被分散在很多层而非集中在特定层),诊断给出的建议可靠性下降,最终收益也会缩水。此外,当某一对父本模型在目标测试上已经接近当前能力的天花板时,进化合并只能在极小范围内继续优化。
这些失效条件共同指向了一个结论:达尔文框架最适合用在"两个父本各有专长、能力互补,但内部结构又足够兼容"的场景——这正是研究团队在实践中精心选择父本模型的原因。
从更宏观的视角来看,达尔文框架有一个根本性的限制:它无法凭空创造父本模型都不具备的新能力。如果两个父本都不会做量子力学题,无论怎么合并,结果也不会突然学会量子力学。这套方法的本质是"重组潜力",而非"制造潜力"。
---
十、与其他模型合并方法相比,达尔文处于什么位置?
在学术界,模型合并是一个正在蓬勃发展的研究方向,已经有不少先驱性工作。
最基础的是Model Soups(模型汤),把多个微调模型的参数直接均值,适合来源相近的模型,遇到差异较大的模型就会"味道混乱"。Task Arithmetic(任务算术)把微调看作是在参数空间里做加减法,可以用加减参数向量的方式组合或删除能力,但同样没有考虑参数的重要性差异。TIES-Merging改进了参数选择方式,引入了稀疏化和符号对齐机制,减少了参数冲突,但规则仍然是手工设计的,不能自适应。Fisher Merging用Fisher信息矩阵来估计参数重要性,是最接近达尔文MRI思路的传统方法,但计算成本高且不支持进化优化。Sakana的进化合并(EvoMerge)是达尔文最直接的前辈工作,同样使用进化算法搜索合并配方,但每层只有约2个自由度,而且没有任何诊断先验——达尔文则在此基础上引入了14维基因组和MRI信任融合机制,形成了本质性的提升。
从整体来看,达尔文是目前唯一同时具备以下四个特性的模型合并方法:使用高维自适应基因组(14维)、融合功能重要性诊断信号、支持跨架构混合、以及已经验证了多代递归进化。
---
说到底,VIDRAFT团队用这项研究讲了一个很有说服力的故事:那些已经存在的AI模型,内部其实蕴含着尚未被充分利用的潜力,它们的能力并不是铁板一块,而是由不同的参数层分别承载着不同的功能。通过精巧的"育种"策略——诊断哪些层对推理最重要、用进化算法搜索最优的混合配方、选择能有效消除参数冲突的合并算法——就可以在不花一分钱训练费的情况下,组合出比任何一个父本都更出色的后代。
Darwin-27B-Opus在顶级科学推理测试上排名全球第六,而它的"诞生"只用了大约五个小时的GPU时间,而非数周的分布式训练。这个对比本身就很能说明问题。当然,这套方法并非万能,它依赖于找到真正互补的父本模型,依赖于父本之间的结构兼容性,也依赖于推理能力本身在预训练阶段已经形成这一前提条件。
对普通用户来说,这项研究最直接的意义或许是:将来会有越来越多高性能的开源AI模型,不需要超级计算机就能孕育出来,这意味着更民主化的AI能力获取方式。从更深远的角度思考:如果推理能力的很大一部分是在预训练阶段形成的,那么除了合并,还有哪些方式可以在不重新训练的情况下激活和重组这些潜在能力?这个问题值得每一个关注AI发展方向的人持续追踪。有兴趣深入了解这套方法全貌的读者,可以通过arXiv编号2605.14386找到完整的论文原文,研究团队也把所有模型、代码和工具都以Apache 2.0开源协议对外发布,可在Hugging Face上直接获取。
---
Q&A
Q1:Darwin框架里的MRI诊断评分具体是怎么计算的,和医学MRI有什么关系?
A:Darwin框架的MRI(模型层响应重要性)和医学MRI名字相同但原理不同,只是借用了"扫描诊断"的比喻。它通过两部分来评估每个参数层的重要性:一是分析参数的统计特征(如分布熵和变异幅度),二是用专门的测试题让模型运行,记录该层在处理推理题和普通问题时的激活差异。差异越大,说明这一层对推理越关键。两部分各占50%权重,合并后用于指导参数混合比例。
Q2:Darwin合并出来的模型为什么能超过父本,而不是变差或者介于两者之间?
A:关键在于两个父本在能力上是互补的,而不是相同的。父本通常有更稳健的基础知识和推理框架,母本有经过强化的推理策略。DARE-TIES算法会主动丢弃两个父本中相互冲突的参数部分,只保留能协同增效的成分。加上进化算法帮助找到最优的混合比例,结果类似于保留了父本的稳定性和母本的锐利度,综合效果超过任何一个单独来源。
Q3:达尔文家族模型现在普通人能用吗?
A:可以直接使用。达尔文家族的所有模型都已经在Hugging Face开源发布,包括Darwin-27B-Opus、Darwin-31B-Opus等主要版本,协议为Apache 2.0,可免费下载和商用。社区用户bartowski和mradermacher还制作了GGUF格式的量化版本,可以在普通个人电脑上运行。截至2026年4月,整个家族的社区下载量已超过96000次。