这项由北卡罗来纳大学教堂山分校与Advanced Micro Devices(AMD)公司联合开展的研究,以预印本形式发布于2026年4月27日,论文编号为arXiv:2604.24003,有兴趣深入了解的读者可通过该编号查询完整论文。
当你问ChatGPT或类似的AI助手一道数学题时,你可能注意到它有时会给出超长的"思考过程",把一道简单的加减法拆成十几步、洋洋洒洒写好几百字,最后才告诉你答案。这种现象在AI圈里被称为"过度思考"。就像某些同学考试时写解题过程,明明三步就能解出来,却偏要写满整张纸——这不仅浪费时间,还让阅卷老师头疼。
对于AI来说,"过度思考"带来的代价是真实的计算资源消耗。每多输出一个字,服务器就要多跑一点,电费就要多花一点,用户等待的时间也就更长。于是,研究人员开始思考:能不能让AI学会"话少事好",用更短的推理过程得出同样准确的答案?
这个问题促成了本篇论文的诞生。研究团队提出了一种名为"步骤级优势选择"(Step-level Advantage Selection,简称SAS)的训练方法,试图在不牺牲准确率的前提下,让AI的推理过程更加精炼高效。
一、先搞清楚:AI是怎么"学会思考"的?
要理解这项研究,得先弄明白现代推理AI是怎么训练出来的。目前最强的推理型大语言模型,比如DeepSeek-R1,使用了一种叫做"强化学习"的训练方式——简单来说,就是让AI反复尝试解题,答对了给奖励,答错了不给奖励,AI在这个过程中慢慢学会哪些解题策略更有效。
在这套训练体系里,有一个叫做GRPO(群体相对策略优化)的具体算法。它的工作原理可以用班级考试打比方:老师让同一个班的同学同时解同一道题,然后把大家的成绩放在一起比较。成绩高于班级平均分的同学会得到正向反馈("你这种做法是对的,继续"),成绩低于平均分的同学会得到负向反馈("你这种做法不对,改一改")。
关键在于,这种反馈是"一刀切"的。如果一个同学最终答案是对的,那他在解题过程中写下的每一行字、每一个步骤,都会被系统认为是"正确做法"——哪怕其中有好几步是他自言自语、东拉西扯、绕远路走的废话。反过来,如果一个同学最终答案是错的(或者没写完),他解题过程中所有的步骤都会被认为是"错误做法"——哪怕他前面的推理其实完全正确,只是时间不够没写到最后。
这种"结果决定一切"的评判方式,在正常情况下运行得还算不错。但是,当研究人员把训练的"纸张长度"(也就是AI可以使用的上下文窗口)大幅缩短时,麻烦就来了。
二、一个被忽视的"隐藏开关":缩短上下文窗口
现有的大多数让AI"说话变短"的研究,都会在训练时给AI设置各种明确的"减字奖励"——比如答案越短加分越多,或者超过某个字数就扣分。研究人员普遍认为,正是这些显式的"缩短奖励"让AI学会了精炼表达。
然而这项研究的团队发现了一件有趣的事情:如果在训练时把AI能看到的"作答纸张"长度直接缩短(从原来训练时用的16000-24000个词,缩减到只有4000个词),哪怕完全不给任何"说话要简短"的奖励,AI的输出长度也会自动大幅下降!
这就好像给同学们发了一张比以前小得多的答题纸:即使老师没有说"要简洁",同学们也会自然而然地把字写小、把废话省掉,因为空间就这么多。研究团队通过实验证实,仅仅把训练时的上下文窗口从16K缩减到4K,AI的平均输出长度就能降低到与现有最先进的"精简推理"方法相当甚至更短的水平——而这一切都不需要任何专门的"缩短奖励"设计。
这个发现揭示了一个此前被严重忽视的变量:过去那些声称"通过奖励机制让AI说话变短"的研究,实际上可能把"短上下文窗口带来的天然压缩效果"与"奖励机制的效果"混为一谈了。
不过,这个"天然压缩"并非没有代价。
三、压缩的代价:越训练越乱
研究团队在实验中观察到了一个令人担忧的现象:随着训练的推进,AI的输出确实越来越短,但它的答题准确率却开始剧烈波动,时好时坏,并且总体上呈现出逐渐下滑的趋势。训练到后期,AI的"思维"越来越僵化,倾向于走固定的路子,不再敢于尝试多样的解题方式——就像一个被反复批评的学生,最后变得畏手畏脚,只敢重复最保险的答题套路。
为什么会这样?研究团队给出了一个合理的解释:当答题纸变短之后,AI经常还没写完解题过程就"用完了纸",这时系统的自动批改功能(verifier)看不到最终答案,就会判定这次作答"失败",给零分。
然而,这些被判"失败"的解题过程,前面的推理步骤往往是完全正确的——只是没写完而已。这就好像一个同学考试时思路清晰、前面推导全对,但铃声响了还没写到最后一步,老师直接给了零分。更糟糕的是,在强化学习的训练框架下,这个零分会让系统对这个同学所有的推导步骤都打上"错误"的标签,反过来惩罚他好好的推理方式。
研究团队做了一个具体的量化实验来验证这个猜想:他们取出AI在8000词长度下生成的解题过程,人为截断到4000词,然后重新用批改程序打分。结果发现,原本正确的解题过程中,有约29%在截断后变成了"无法判断对错"(因为最终答案被截掉了)。这说明在短上下文训练中,大量"好的推理"正在被冤枉地打入"错误"的冷宫。
正是这种冤假错案式的惩罚,导致了训练的不稳定性和准确率下滑。
四、解决方案:给每个推理步骤单独打分
研究团队的核心贡献,就是针对上述问题提出了SAS方法。与其用一个最终结果来评判整条推理链的好坏,不如对推理过程中的每一个步骤分别进行评估,然后有选择地决定哪些步骤的评价结果应该被用于训练,哪些应该被忽略(设为零)。
这个思路可以用一个更贴切的比方来理解:假设你是一位厨艺学校的评委,要给一道最终没有端上桌的菜评分(因为厨师时间不够,菜没做完)。传统做法是直接打零分,并告诉厨师他从选食材到切菜到炒制的每一步都是错的。但SAS方法会说:先等一下,我们来看看厨师在各个步骤上做得怎么样。如果他选食材选得很好、切菜切得很规范,那这些步骤就不该被惩罚,哪怕最后菜没上桌。
具体来说,SAS的操作分为两个方向。
首先,针对"最终答对了"的解题过程:即便整体是正确的,里面也可能有一些低质量的步骤——比如AI在自我质疑、原地打转、重复说同样的话。这些步骤的训练信号被设置为零,意思是"这些步骤我们不学、也不批评,当它不存在"。判断一个步骤是否"低质量"的方法,是看AI自己对这个步骤的"自信程度",也就是AI在生成这个步骤时,给自己每个词打出的概率分数(log概率)的平均值。自信程度低的步骤,往往是AI自己也不确定、在瞎写的步骤。
然后,针对"最终被判失败了"的解题过程(包括那些被截断的):里面可能有很多步骤其实做得相当好、推理清晰正确。对于这些高质量的步骤,同样把它们的训练信号设置为零,意思是"这些步骤我们不惩罚它,就当没看到"。
把训练信号设置为零,在GRPO的数学框架里有一种非常优雅的效果:对于"答对了"的解题过程,零信号低于其他正确步骤的正向分数,所以低质量步骤的影响被压制;对于"答错了"的解题过程,零信号高于其他步骤的负向分数,所以高质量步骤被保护,不会受到不公正的惩罚。这种双向保护机制,让训练过程变得更加稳定、更加公平。
在实现层面,SAS需要把AI的推理过程切分成一个个"步骤"。研究团队使用了双换行符("\n\n")作为步骤的分隔符——这不是随意选择的,而是因为这个模型家族在训练时本来就用双换行符来分隔推理步骤,所以这种切分方式与模型的内部认知结构完全一致。
五、在实验室里验证:数字说明了什么?
研究团队选择了DeepScaleR-1.5B-Preview作为基础模型——这是一个专门针对数学推理能力优化过的15亿参数规模的语言模型,在发布时已经是同等规模模型中推理能力最强的之一。
在测试阶段,团队把SAS方法与多个现有的"精简推理"方法进行了对比,包括:不加任何改动的标准GRPO(只是把上下文窗口缩短到4K)、L1-Max(通过明确的长度约束来控制输出长度)、ThinkPrune(通过强化学习逐步剔除冗余步骤)、以及LAPO(通过建模成功解题的长度分布来自适应控制长度)。
在五个数学推理基准测试(包括AIME2024、AIME2025、MATH、AMC和OlympiadBench)上,SAS展现出了清晰的优势。与基础的DeepScaleR模型相比,SAS把平均输出长度从5118个词降低到3407个词,缩短了约33%,同时把平均答题准确率从52.37%提升到54.54%,提高了约2.2个百分点——也就是说,SAS不仅让AI说话变短了,还让它说得更对了。
与其他精简推理方法相比,SAS的表现同样出色。L1-Max虽然把输出长度压缩得最厉害(平均只有1828个词),但代价是准确率暴跌,只剩48.04%,连基础模型都不如。ThinkPrune和LAPO在准确率上保持得不错,但长度缩减幅度有限,综合效率得分偏低。SAS则在两者之间取得了最佳平衡:比ThinkPrune和LAPO短了约15%的输出,同时准确率高出约1个百分点。
研究团队使用了一个叫做"准确率-效率评分"(AES)的综合指标来量化这种权衡:SAS的得分是0.46,明显高于ThinkPrune的0.27、LAPO的0.25,以及纯短上下文训练的0.33。
除了数学推理,团队还在三个"领域外"的通用推理基准上测试了SAS,包括GPQA-Diamond(研究生级科学问题)、LSAT(法学院入学考试逻辑题)和MMLU(大规模多任务语言理解)。结果同样显示,SAS在准确率和输出长度两个维度上都优于或匹配其他方法,说明这个方法的效果不局限于数学领域,具有更广泛的适用性。
值得关注的一个实验细节是训练稳定性的变化。研究团队追踪了训练过程中AI的"政策熵"——可以把它理解为AI在解题时的"思维活跃度"或"探索意愿"。纯短上下文训练(不加SAS)的情况下,这个指标快速崩塌,说明AI很快变得僵化,只会走固定的套路。而加入SAS之后,这个指标在整个训练过程中保持在一个明显更高、更稳定的水平,说明AI在学习压缩推理的同时,并没有失去探索多样解题路径的能力。
六、拆解实验:每个设计决策都是必要的吗?
为了证明SAS各个组成部分的必要性,研究团队做了系统的消融实验——也就是把方法的各个部件逐一拆掉,看看少了哪个部件效果会变差。
首先,他们测试了"只保护正确解题过程中的高质量步骤,不保护错误/截断解题过程中的好步骤"的变体(论文中称为"Only Correct")。结果发现,这个变体的综合效率得分从0.46降到了0.43,准确率也从54.54%降到53.90%。说明那些被错误判定为"失败"的解题过程中,确实藏着大量有价值的推理步骤,保护它们对于稳定训练至关重要。
接着,他们测试了"随机选择步骤设为零,而非基于自信度选择"的变体(论文中称为"Random Steps")。这个变体的效率得分进一步下降到0.38,输出长度也变长了。这说明SAS的效果不仅仅来自于"减少了一些步骤的训练信号",而是关键在于"有选择地、智能地选择了正确的步骤"。自信度作为判断步骤质量的依据,是这个方法的核心。
然后,他们测试了"在词(token)级别而非步骤级别进行选择"的变体(论文中称为"Token Level")。这个变体同样表现不如原始方法,准确率更低、输出更长,综合效率得分只有0.39。这说明把一个完整的推理步骤作为整体来评估,比把每个单独的词孤立地评估更有意义——毕竟,一步推理的好坏是由整个步骤共同体现的,而不是由其中某个词单独决定的。
团队还研究了自信度阈值参数(即"选择多大比例的步骤来设为零"这个比例r)的影响。他们发现,在r=0.1到r=0.9的宽泛范围内,SAS的表现都优于基础模型,最佳值在r=0.3附近,但即使r=0.9(也就是90%的步骤都被设为零),结果依然相当不错。这说明SAS方法在参数选择上非常稳健,实际部署时不需要精确调参。
为了进一步验证"用AI自己的token概率来衡量步骤质量"这个核心设计假设,团队还做了一个交叉验证实验:他们从MATH500数据集上采样了8000条AI推理过程,把每个步骤同时用"AI自身log概率"和"外部专业评估模型(Qwen2.5-Math-PRM-7B)"来打分,然后比较两种打分方式对步骤质量的排序是否一致。结果,两种方式的排序相关性高达0.9022——几乎完全一致。这意味着AI自己的"自信程度"确实是一个可靠的步骤质量代理指标,不需要额外引入昂贵的外部评估模型。
在计算开销方面,SAS相比标准GRPO每一训练步骤额外耗时约17%(从279秒增加到327秒)。这个开销主要来自步骤切分和计算步骤自信度,不需要额外的模型前向传播或额外的采样,内存占用也没有变化。考虑到SAS带来的准确率提升和推理效率改善,这个17%的额外训练时间代价是可以接受的。
说到底,这项研究揭示了一件此前没人认真追问过的事:让AI推理变短,真的需要专门设计各种"说短话的奖励"吗?答案是:不一定,单纯把训练时的"草稿纸"变小,就已经能把AI的推理压缩到相当程度。但草稿纸变小之后,AI会开始因为"没写完"而冤枉地惩罚自己正确的推理步骤,导致越训练越乱。
SAS的核心贡献,是在不改变奖励设计的前提下,通过更精细地决定"哪些步骤的对错判断值得参考、哪些应该忽略",来解决这个问题。这个方法简单、轻量、稳健,并且在数学推理和通用推理两类任务上都得到了验证。
对于关心AI实际应用效率的读者来说,这项研究的意义在于:它表明,让AI更高效并不总是需要复杂的新机制,有时候,更好地处理训练信号中的"噪音",就能带来可观的改进。对于未来研究方向,这项工作也留下了一些开放的问题:SAS在更大规模的模型上(如70亿参数以上)是否同样有效?在不同训练上下文长度下,SAS的行为会如何变化?步骤级优势选择背后的理论基础是什么?这些问题都值得进一步探索。
有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2604.24003找到完整论文。
Q&A
Q1:步骤级优势选择(SAS)是如何判断一个推理步骤质量高低的?
A:SAS使用AI模型自身生成每个词时的概率(log概率)的平均值来衡量步骤质量。如果AI在生成某个步骤时每个词的概率都比较高,说明它对这一步很"自信",认为是高质量步骤;反之,概率低的步骤说明AI自己也不太确定,这类步骤被认为是低质量的。研究团队验证了这种自信度评分与专业外部评估模型的打分结果有高达0.9022的相关性,说明这个简单指标确实可靠。
Q2:短上下文训练为什么会让AI推理变短?
A:短上下文训练相当于给AI发了一张比以前小得多的答题纸。当可用的空间变少时,AI在训练过程中会自然学会更简洁地表达,因为在有限空间内完成解题才能获得奖励。这个压缩效果非常强,即使不设计任何"输出要短"的奖励,仅靠把训练上下文从16000词缩减到4000词,AI的输出长度就能降低到与专门设计了缩短奖励的方法相当的水平。
Q3:SAS方法与ThinkPrune、LAPO等现有精简推理方法相比有什么优势?
A:ThinkPrune和LAPO等方法的准确率保留较好,但压缩效果有限;L1-Max压缩效果强但准确率损失大。SAS在两者之间实现了更好的平衡:平均输出长度比ThinkPrune和LAPO短约15%,同时平均准确率高出约1个百分点,综合效率得分(AES=0.46)明显高于所有对比方法。此外,SAS不需要设计额外的奖励函数,也不需要引入外部评估模型,实现更简单。