UC Berkeley、Mila与UT Austin联手打造“双轨学习”AI:让大模型既会快速适应又不忘老本

问AI · 快慢训练如何避免大模型灾难性遗忘?

这项由加州大学伯克利分校、蒙特利尔学习算法研究所(Mila)和德克萨斯大学奥斯汀分校联合开展的研究,于2026年5月12日以预印本形式发布,论文编号为arXiv:2605.12484v1,有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。

**研究概要**

你有没有遇到过这样一种人——他们不仅学东西学得快,而且学了新东西之后也不会忘记原来会的技能?大多数人在密集学习某个专业方向之后,往往会对之前的知识有所生疏,这在心理学上叫做"遗忘效应"。现如今,最先进的人工智能大模型也面临着几乎一模一样的困境。

当研究人员试图让大语言模型(也就是我们常说的"大模型",比如驱动各类AI助手的核心技术)更擅长某项特定任务时,他们通常会对模型的"大脑参数"进行深度调整。这种调整能让模型在特定任务上表现更出色,但代价是模型会越来越忘记原本具备的广泛能力。更糟糕的是,经过深度调整的模型在面对全新任务时,往往"学不进去"了——就像一块被写满了字的黑板,想要重新写上新内容,必须先费力地擦掉旧内容。

来自上述三所顶级研究机构的团队提出了一个名为"快慢训练"(Fast-Slow Training,简称FST)的全新框架,试图从根本上改变大模型学习的方式。这个框架的核心思路颇具哲学意味——它受到人类认知科学中"系统一与系统二"理论的启发,将AI的学习行为分成了两条并行的轨道:一条是缓慢但持久的"慢轨道",负责积累深层能力;另一条是快速灵活的"快轨道",负责吸收具体任务的即时信息。实验结果表明,这种双轨并行的学习方式能让大模型在特定任务上的学习速度提高最多3倍,同时保留更强的通用能力,并在面对新任务时展现出更好的适应性。

---

**一、黑板写满了字,该怎么继续学?**

要理解这项研究解决的核心问题,可以把一个大语言模型比作一位博学的学者。这位学者经过多年积累,脑子里装满了语言、逻辑、科学、历史等各种知识。现在,有人希望这位学者专门去研究"数学竞赛题",于是每天给他做大量的训练。慢慢地,这位学者在数学竞赛题上的能力越来越强,但与此同时,他的历史知识开始模糊,语言感知也开始钝化——这就是AI领域所说的"灾难性遗忘"。

更严峻的问题还不止于此。经过长期的专项训练,这位学者的思维方式被固化了,对数学竞赛题的思路变得越来越单一,当有人突然要求他改学物理时,他发现自己竟然很难再学进去新东西——这就是"可塑性丧失",一种让AI"定型"后难以再进化的现象。

目前的主流训练方式,无论是监督微调(简单理解为"给模型看大量正确示例让它模仿")还是强化学习(理解为"给模型奖惩信号让它自己摸索出正确做法"),都必须通过修改模型的参数来让模型"记住"新学到的东西。参数就相当于这位学者的大脑神经连接,每次修改都是在对大脑动手术。手术做得越多、越专一,大脑就越难以保持原有的广度和弹性。

另一方面,还存在一种完全不修改参数的学习方式,叫做"上下文学习"——简单说,就是通过调整给模型看的"提示语"(Prompt)来改变它的行为。这就好像不去修改学者的大脑,而是在他桌上放一张精心准备的"备忘卡",告诉他这次任务的特殊要求和技巧。备忘卡的优点是可以随时替换、不伤大脑,但问题是,靠备忘卡能学到的东西终究有限,无法触及深层能力的提升。

这项研究的出发点正是这个两难困境:既然单纯修改参数会伤害大脑,单纯靠备忘卡又能力有限,为什么不能两者同时使用、各司其职呢?

---

**二、快慢结合:给AI装上两种不同节奏的学习引擎**

人类学习是有节奏差异的。当你刚刚背完一首诗,短时记忆里的内容可以被快速提取;而经过多年反复使用,这首诗才真正"刻"进了长时记忆。神经科学家把这种现象归纳为"互补学习系统"理论——大脑的海马体负责快速吸收新信息,大脑皮层则负责缓慢地将信息整合为持久知识。

这项研究将这一人类认知机制转化为AI的训练框架。在FST体系中,模型的参数充当"慢权重"——它们更新缓慢、代价昂贵,但能持久保存深层的推理能力;而经过优化的"提示语上下文"充当"快权重"——它们可以被频繁地、廉价地修改,能迅速吸收特定任务的表层知识,而不需要动用模型的大脑参数。

具体来说,这个框架将训练过程分成了两个交替运行的循环。慢循环负责用强化学习来更新模型参数,每次更新只依赖一个简单的标量奖励信号(就像考试分数,只告诉你对还是错,不告诉你哪里错了)。快循环则负责用一种叫做GEPA的方法来优化提示语库,这个过程不仅能看到简单的对错信号,还能阅读模型完整的推理过程、工具调用记录、错误信息以及详细的文字反馈——这相当于不仅知道考试得了多少分,还能看到老师写下的详细批注。

GEPA方法的运作方式颇像一个进化算法。它维护着一个提示语的"种群",每一代都会让模型用现有的提示语做一批推理任务,然后请一个"反思模型"(一个独立的、参数被冻结的语言模型,专门扮演评审员角色)来分析哪些推理步骤出了问题,并提出对提示语的改进建议。这个过程持续迭代,就像物种通过自然选择不断进化。特别之处在于,GEPA不只保留一个"最优提示语",而是维护一个"帕累托前沿"(理解为"各有所长的提示语精英团队")——不同的提示语在不同类型的题目上各有优势,互相补充。

两个循环交替进行:每隔固定的强化学习步数,快循环就更新一次提示语库;更新后的提示语库再被用于接下来的强化学习步骤,为慢循环提供更丰富的学习条件。这样一来,快权重迅速捕获任务的表层特征,让慢权重的梯度信号更加丰富;而慢权重的能力提升又让快权重的优化有了更好的基础,两者相互促进。

---

**三、双轨并行的实际效果:快了多少、强了多少?**

研究团队在三个性质迥异的推理任务上验证了FST的效果,这三个任务分别考察代码执行预测(给你一段程序,预测它运行的输出结果)、数学推理(解答竞赛级别的数学难题)和多跳事实验证(追踪多个线索来验证一个复杂陈述是否属实)。所有实验都基于千亿参数量级以下的Qwen3-8B模型进行。

在学习速度方面,FST展现出了相当显著的提升。在代码执行预测任务上,FST只需要纯强化学习所需步数的三分之一,就能达到后者的最佳表现水平。在多跳事实验证任务上,同样是三分之一的步数。在数学推理任务上,提速稍微温和一些,但也达到了1.4倍的效率提升。换一种方式来理解这个数字:如果纯强化学习需要一整个工作周来训练,FST只需要两天就能达到同等水平。

不仅速度更快,FST的"天花板"也更高。研究团队用一条数学曲线来拟合每种方法的学习轨迹,找出它们最终会收敛到的性能上限。在代码执行预测任务上,FST的性能上限是47.4%,而纯强化学习只有43.0%,差距4.4个百分点。在数学推理上,FST的上限是49.2%,纯强化学习是46.4%,差距2.9个百分点。在多跳事实验证上,差距最为明显,FST上限25.0%对比纯强化学习的17.3%,足足高出7.7个百分点。这说明FST不只是"学得快",它能到达的终点本身就比纯强化学习更远。

研究团队还检验了FST训练出的模型在面对未见过的任务时是否还能表现良好——毕竟如果一个模型只是在训练数据上表现好,那价值就很有限了。结果令人满意:经过FST训练的模型,在跨领域泛化能力和从简单到困难的迁移能力方面,均与甚至略优于经过更多步数训练的纯强化学习模型。

---

**四、靠近大本营:为什么FST让模型"走得不太远"?**

这里有一个微妙但非常重要的发现,需要稍微解释一下背景知识。

大语言模型在经过大规模预训练之后,具备了广泛的基础能力——它能写诗、能解题、能翻译、能对话。这个状态可以理解为模型的"大本营"。每次对模型进行任务专项训练,模型都会从大本营出发,朝着某个特定方向"行军",离大本营越来越远。衡量这段距离的工具叫做KL散度(简单理解为"模型现在的行为习惯与原始状态相差多远")。

研究团队发现,在达到相同的任务表现水平时,FST训练出的模型与原始模型之间的KL散度比纯强化学习模型低了多达70%。换句话说,FST让模型在同样优秀的情况下,离大本营近了很多。

为什么这件事很重要?因为离大本营越远,意味着模型越专一,熵(可理解为"行为多样性"和"输出灵活性")越低,在训练任务以外的领域表现越差,而且越难以继续学习新知识。通过让快权重承担大部分任务专项适应的职责,慢权重(模型参数)就不需要走那么远的路,得以更好地保留通用推理能力。

---

**五、不忘旧技能,还能学新本领:可塑性保留测试**

研究团队设计了一个两阶段实验来直接测量模型的"学习弹性"。第一阶段,分别用纯强化学习和FST把同一个基础模型训练成数学推理专家或物理推理专家。第二阶段,把这两种训练产物分别用作起点,再去训练多跳事实验证任务,观察它们各自的学习进展。

结果非常鲜明。从数学推理任务迁移到多跳事实验证任务时,纯强化学习训练出的模型在开始新任务后的短短40步内就急速崩溃,验证准确率跌到接近零,并在整个400步的观察期内始终趴在地上爬不起来。而以FST训练产物为起点的模型,则表现得与直接从基础模型出发训练几乎一样好,稳步向上攀升。从物理推理迁移到多跳事实验证的实验中,FST起点的模型在400步时达到了24.2%的准确率,而且趋势仍在上升;纯强化学习起点的模型只有19.9%,且已接近停滞。

这个实验揭示了一个深刻的问题:纯强化学习在让模型精通数学的同时,也把模型的"学习神经"损伤了。过度的专项训练使得模型的梯度信号对新任务几乎没有响应,就像一块肌肉长期固定在某个姿势后失去了灵活性。FST由于通过快权重分担了大量专项适应的压力,慢权重保持了足够的弹性,能够在新任务到来时重新激活学习能力。

---

**六、连续学习:模拟真实世界的任务切换**

以上实验都是在任务固定的条件下进行的。但真实世界中,AI模型往往需要应对不断变化的任务环境——今天处理数学问题,明天处理代码,后天处理科学事实核查。研究团队设计了一个更贴近实际的连续学习实验来考察这种场景。

实验设置是:让模型在一次不间断的训练过程中,每200步就切换一个完全不同的任务,顺序依次是多跳事实验证、代码执行预测、物理问题推理。这相当于考察一个学生在完全没有休息的情况下,连续参加三场性质截然不同的考试,能否每次都学到东西。

FST在这个测试中展现出了让人印象深刻的稳定性。在三个任务阶段中,FST都能在每个阶段内迅速攀升到接近该阶段的最佳表现水平,学习速度与单任务实验中观察到的效率提升保持一致。

纯强化学习的表现则形成了鲜明对比。在第一个任务(多跳事实验证)上,纯强化学习也能正常学习并取得进展。但进入第二个任务(代码执行预测)之后,纯强化学习几乎完全停滞——在整整200步的训练预算内,其准确率仅从18.3%爬升到20.7%,总共只提升了2.5个百分点。而FST在同样的200步内,从相同的起点出发,达到了37.7%的准确率,提升了19.6个百分点,相当于纯强化学习同期效率的8倍。到了第三个任务(物理推理),纯强化学习有所恢复,但仍然明显落后于FST的表现。

这组数据说明,纯强化学习在通过第一个任务"刻深了脑子里的痕迹"之后,对第二个性质不同的任务产生了强烈的排斥反应,系统的学习弹性已经严重受损。FST则因为始终让参数保持在离基础状态不太远的位置,得以在每次任务切换时都能以较为灵活的状态进入新的学习过程。

---

**七、拆开来看:到底是快权重在贡献,还是慢权重?**

研究团队还进行了一系列"拆解实验",试图弄清楚FST的性能提升究竟来自哪里,快权重和慢权重各自贡献了多少。

第一组实验关注的是学习速度和探索能力。研究团队专门设计了一个极端困难的"星形图路径搜索"任务:给定一个以某个节点为中心向外辐射出25条枝干的图结构,要求模型找到连接两个指定节点的正确路径。这个任务的难点在于,只有25条枝干中的1条通向目标,随机乱猜的成功率仅有4%,而模型的"先入为主"直觉会让它倾向于走错误的路径,导致初始奖励接近于零。

在这个零奖励的困境中,纯强化学习在最初的约300步内完全无法获得任何有效的学习信号——因为模型从来没答对过,也就从来没收到过正向反馈,完全不知道该往哪个方向调整。FST则不同,在第50步左右就已经开始获得可测量的奖励,领先纯强化学习整整6倍的步数。这个早期的突破几乎完全由快权重驱动——GEPA在头几个周期内,通过分析失败的推理轨迹,快速"领悟"到了任务的关键规律,并将其编码进提示语,让模型即便参数还没有更新,也能以更好的状态来面对问题。这就好比:在学生还没有真正理解知识之前,一张精心准备的备考笔记已经先帮他得到了一些分数,而这些分数又提供了足够的信号来引导真正的学习。

第二组实验关注的是性能上限。研究团队比较了四种方法:纯强化学习、仅使用GEPA优化提示语(不改参数)、将GEPA优化出的提示语"蒸馏"到参数中(一种将快权重的知识转移给慢权重的技术),以及完整的FST。结果是:仅使用GEPA能达到的性能上限明显低于有参数学习参与的方法,说明快权重独自无法替代慢权重的深层能力;蒸馏方法比单纯的GEPA更好,但仍不如完整FST;完整FST获得了最高的性能天花板,说明快慢两条轨道必须同时运转、相互协作,才能发挥出最大潜力。此外,研究团队还观察到,FST训练过程中模型输出的多样性(用"熵"来衡量)始终高于纯强化学习,这解释了为什么FST不容易陷入"只会一种解法"的固化状态。

---

**八、设计细节:哪些参数选择真的有影响?**

研究团队对FST的设计参数进行了系统的消融实验,这些实验的发现对于理解框架的工作原理非常有价值。

提示语种群的大小是最直接影响效果的参数。即便只有一个经过优化的提示语(种群大小K=1),相比纯强化学习也已经有1.5个百分点的提升。随着种群增大到K=8(即同时维护8条各有特长的提示语),提升扩大到3个百分点以上。这说明提示语多样性本身就是有价值的——不同的提示语在不同类型的题目上各有所长,为强化学习提供了更丰富的条件。

奖励计算方式同样关键。研究团队测试了两种不同的做法:一种是让每条提示语的奖励只和使用同一提示语的其他输出对比(按提示语分组),另一种是把使用所有提示语的输出放在一起对比(按题目分组)。后者的效果明显更好,原因在于:按题目分组时,强化学习信号不仅能看到"同一提示语下哪种回答更好",还能看到"不同提示语之间哪种更有帮助",信息量更丰富。

快循环的更新频率也很重要。每隔6步强化学习更新一次提示语库,比每隔12步更新一次效果明显更好。这个现象背后的逻辑直观易懂:随着模型参数不断更新,之前优化好的提示语会逐渐"过时",因为它们是针对老版本的参数优化的。更新越频繁,提示语库与当前参数状态的匹配度就越高,学习效率就越高。

此外,研究团队还发现,GEPA的"轻量版"(使用较小预算和增量式修改策略)比原始的"重量版"(使用更大预算和全文重写策略)效果反而更好。这与直觉相符:当基础模型还在持续变化时,对提示语进行小幅、精准的调整比大刀阔斧地全面重写更能保持提示语的稳定性和有效性。

---

**九、提示语是如何进化的:一个真实的例子**

为了让读者更直观地感受到快权重的学习过程,研究团队在论文附录中展示了FST训练过程中提示语的变化轨迹,这是非常罕见的详细记录。

以代码执行预测任务为例,初始的种子提示语非常简洁:大意是"你是Python函数输出预测专家,请仔细追踪执行过程,注意控制流、可变状态和最终返回值,以JSON格式输出结果"。这条提示语言简意赅,但没有针对任何具体的常见错误类型给出指导。

经过约650步的训练(其间经历了多轮GEPA优化),进化后的提示语变成了一份详尽的"错误排查清单"。它明确指出:不要估算或凭直觉猜测,必须严格按照代码逻辑一步一步追踪;对于涉及随机数的代码,不能用期望值替代具体的随机结果;当Python使用浮点数时,必须保留足够的精度而不能四舍五入中间结果;对于使用NumPy的代码,必须精确处理数组形状和广播规则……整条提示语从简短的一段话变成了覆盖数十种具体错误模式的详细指南。

这个变化过程揭示了快权重学习的本质:GEPA通过反复观察模型的失败案例,像一位经验丰富的导师一样,将模型最容易犯的错误逐一整理成了"注意事项",并将这些注意事项编码进提示语,提前给模型打好"预防针"。不同任务的提示语进化轨迹各有特点,但都呈现出同样的规律——从通用性描述走向针对性的错误预防,整个提示语变得越来越像一份从失败经历中总结出来的实战手册。

---

**十、一个节省计算资源的小技巧:轨迹复用**

研究团队还提出了一个颇具实用价值的优化技巧。在FST的训练流程中,每轮提示语优化结束后,GEPA会保存一批在评估过程中产生的模型输出记录(包括每道题用了哪条提示语、模型的推理过程是什么、最终得了多少分)。这些记录在GEPA做完评估之后本来会被丢弃,然后在强化学习阶段重新生成。

研究团队发现,这些刚刚生成的输出记录完全可以直接复用到紧随其后的强化学习步骤中——因为提示语没有变,模型参数也还没有更新,这些记录与重新生成的结果在统计上没有实质差异。通过这种"轨迹复用"机制,约22%的强化学习训练数据可以直接从缓存中获取,不需要再次调用模型推理,从而将每个强化学习步骤的平均耗时从66秒缩减到47秒,提速约29%。更重要的是,这种效率优化完全没有影响最终的训练效果,使用轨迹复用的FST与不使用轨迹复用的FST在验证集上的表现几乎完全一致。

---

**结语**

说到底,这项研究做的事情其实很朴素:它指出了一个大家都忽视的问题——AI训练不应该只有一条学习通道,就像人类不会只靠死记硬背来掌握所有技能一样。把快速变化的任务知识装进提示语,把持久稳定的推理能力装进参数,让两者各司其职、协同运作,这个思路听起来简单,但实验数据证明它的效果是切实的。

这对AI的实际应用意味着什么?当未来的AI系统需要在不同工作场景之间频繁切换时,FST这类框架提供了一条让系统保持灵活性、避免"一学就废"的可行路径。当然,这项研究也有坦诚承认的局限性——目前的实验规模有限,快权重优化中的计算开销还有进一步降低的空间,如何更高效地复用训练过程中积累的数据仍是开放问题。

这项研究让人不禁思考:如果AI系统能像人一样在"学习"和"应用"之间保持动态平衡,而不是把所有知识都死死锁进参数里,那么未来的AI会不会更接近那种"越学越灵活、越用越聪明"的理想状态?有兴趣深入探讨这些问题的读者,可以在arXiv平台通过编号2605.12484找到完整论文。

---

**Q&A**

Q1:快慢训练(FST)和普通的强化学习有什么本质区别?

A:普通强化学习只修改模型的参数来学习新任务,而FST同时使用两条通道:参数更新负责积累深层能力(慢),提示语优化负责快速吸收任务特征(快)。两者分工协作,避免了所有信息都挤进参数导致的遗忘和僵化问题。

Q2:FST中的"提示语进化"是怎么自动完成的,不需要人工干预吗?

A:对,整个过程是自动的。系统使用一个叫GEPA的方法,让一个独立的"评审模型"分析失败的推理案例,自动提出改进建议,然后测试新旧提示语的效果,保留较好的版本,整个优化循环不需要人工写提示语。

Q3:FST训练出的模型在切换新任务时为什么比普通强化学习训练出的模型适应得更好?

A:因为FST让参数离原始状态更近,保留了更强的"学习弹性"。普通强化学习让参数深度专化,导致神经网络对新任务的梯度信号几乎没有响应,而FST通过快权重分担专化压力,参数始终保持足够的灵活性来接受新的学习信号。