“世间的捷径,皆有代价”
大家好,我是含萧。
近日,在 OpenAI 计划长达十二天的"Shipmas"的前两天发布中,满血版 o1 系列以及强化微调技术 RFT(Reinforcement Fine-Tuning)面世。
其中,完全体 o1 更智能、更快、多模态输入、更擅长指令遵循、编码效能提升、错误率降低约 34%、思考速度提升约 50%。
而 RFT 技术则声称,仅用少量数据(官方说法:_dozens to thousands of high quality tasks_,数十到数千个高质量数据)就可以帮助用户微调出某一领域的专家模型,视频 demo 中仅用 1100 个数据就让 o1-mini 在对应领域的表现超越了 o1,让许多人都对这项新技术振奋不已,也猜测这就是实现 o1 的重要技术之一。
这也引发了我的好奇,o1 的背后究竟藏着什么独门秘技?
“xx 年高考压轴题居然被它解出来了”
“我没写出来的 hard 题它给出了完美解”
...
o1 强大的数学和代码能力让无数人琢磨起它的技术实现。
在之前,一个主流猜想是 o1 很可能使用了 OpenAI 在 23 年发布的一篇论文——
"Let’s Verify Step by Step"
论文中提出了 PRM 模型(过程奖励模型)以及 ORM 模型(结果奖励模型)等技巧。
而前几日,OpenAI 提出的强化微调 RFT,也让人们关注起前段时间字节发布的一篇论文:
"ReFT: Reasoning with Reinforced Fine-Tuning"
它通过监督微调(SFT)和强化学习 RL(PPO 算法)结合,来提高大语言模型在解决数学问题方面的推理能力。
论文中描述的带 Resoning 的 CoT 参与 SFT 和 Warm-up/RL 的两阶段微调,和 OpenAI 在 demo 里提出的概念和方法非常相似,这也给 o1 的技术复现提供了更明确的理论支撑。
但是,这些方法的实现往往过于繁琐且耗费巨大,PRM 需要对 CoT 过程进行打分标注,MCTS 需要解决如何在四阶段高效 rollout 等难题,而 ReFT 需要多个模型为最终效果服务。
在道路尚不清晰的情况下,选择一种理论方法去尝试复现 o1 模型,但是最终发现结果不尽人意,其中的代价是绝大多数研究者和企业都难以承担的。
那么,如果不需要繁琐复杂的技巧来增加变量,只需要利用合成数据进行微调训练,就能达到优异的结果甚至击败 o1-preview 呢?
今天,我想和大家聊聊一篇引人深思的论文。
上海交大的作者们仅用数万条数据,通过简单的蒸馏,就在 AIME2024 评分上超越了 o1-preview。
这篇论文对当前 o1 模型复现热潮中缺乏技术透明度的现象提出了质疑,设立了一套技术透明度评测标准,向大众提供一条快速追赶 o1 的捷径的同时,也提醒我们不能做简单的“蒸馏发明家”,需要注意过度依赖蒸馏可能带来的潜在问题。
论文标题:
O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?
论文链接:
https://arxiv.org/abs/2411.16489
开源仓库:
https://github.com/GAIR-NLP/O1-Journey
快速复现类 o1 能力的方法:蒸馏 SFT
在大型语言模型(LLM)时代,训练数据的质量成为模型开发的关键因素。例如,LIMA 仅通过使用 1000 个高质量的提示和回答进行监督微调(SFT),就可以拥有优于使用大量低质量数据训练的模型的表现;Phi-1 利用从 GPT-3.5 合成的高质量数据就在多个基准测试中超越了更大参数量的模型。
而随着市面上通用类 LLM 不断的迭代优化,它们往往具备全面的知识、复杂的推理能力和强大的指令遵循能力。同时,这些大模型使用成本的逐步下降,各种原因让从这些模型中蒸馏高质量数据以训练更小模型的做法日益普遍。
论文的作者们通过深入研究,发现了一个令人惊讶的现象:
通过简单的知识蒸馏,就能让一个基础模型在复杂的数学推理任务上以及泛化性上取得优异的表现。
具体来说,分为两个步骤。
首先,作者们精心挑选和重构了部分公共数据集的数据,,让模型能熟练地产生详细的推理并遵守标准化的输出样式,为后续的蒸馏阶段做好准备。
其次,他们利用 o1 模型的 API 获得高质量且详细的解答过程(即“长链路 CoT”)推理数据,使用这些数据对 Qwen2.5-Math-72B 模型进行第二段 sft 微调,来增强它的推理能力并确保产生精确和连贯输出的一致性。结果显示,他们的模型在美国数学邀请赛(AIME)上的准确率超过了 o1-preview。
有趣的是,作者们还发现,通过在数学问题上的蒸馏训练,模型在其他任务上也表现出了不错的泛化能力。
例如,在开放领域的问答任务中,模型能够给出详细且准确的回答;在安全性测试中,模型表现出了更高的谨慎性,减少了错误和不当的回答。
这表明,数学问题求解中固有的系统思维模式和结构化方法可以有效地转移到其他领域,而模型在蒸馏出来的数学领域数据集微调后,在数学领域能力的提升同样可以辐射到其他领域。
如果只需要简单的蒸馏数据就能达成这种效果,好像还挺划算?
这似乎是一个“低投入、高回报”的捷径,我们为什么还需要去做过程监督,搞强化学习 PPO,优化 CoT?
直接精心蒸馏一个数据集,我的模型就可以“打败”o1 了!
但是,事情往往没有这么简单。
技术透明度指数(TTI)
首先,为了系统地评估和比较各种复现尝试,作者们提出了“技术透明度指数”(TTI),从以下四个方面对 o1 复刻的尝试进行评估:
数据透明度:数据集的来源、处理和使用是否公开透明。 方法透明度:研究方法、算法细节和实验设置是否详尽披露。 评估透明度:模型的性能评估是否公正、全面、可复现。 资源开源:代码、模型、数据等资源是否对外开放。
他们对多个声称复现 o1 的团队进行了评估,结果显示,大部分团队在 TTI 评分上并不理想,尤其是在数据和方法透明度方面,而本论文的 Part 1 和 Part 2 中构建的模型,在这些方面都有不错的得分。
Part1 论文链接:
https://arxiv.org/pdf/2410.18982
捷径并非长久之计
在文章最后,作者们指出,从 o1 模型进行知识蒸馏的显著成功,为快速复现 o1 类模型提供了一种诱人的捷径。但是,过度依赖简单蒸馏,可能会带来一系列负面影响:
难以突破的性能上限:无论蒸馏过程多么复杂,都很难真正超越原始 Teacher 模型的能力,这会导致少数拥有强大 Teacher 模型的机构始终对使用蒸馏技术的机构有强大的统治性,扩大行业内的技术鸿沟。 技术创新与第一性原理的缺失:o1 的真正突破在于其对 inference time scaling 和 CoT 的深刻构思,依靠蒸馏缺乏对基础技术的创新。研究人员从头研发 CoT 检索算法、实践 inference time scaling 和构建 reasoning mechanisms 的过程,不仅提供了宝贵的时间经验,还迫使研究者深入理解模型行为和局限性,从而建立系统的问题解决策略和算法设计直觉。如果缺失这些第一性思维的实践,可能导致研究者习惯于应用现成方案,难以开拓新的解决路径。 人才培养与研究文化的负面转变:当通过蒸馏提升模型能力成为首要选择且“快速且有效”时,学生和早期研究人员可能会优先选择最便捷的方法,而不会深层思考去解决本质问题。长此以往,这种从“How it works”到“What works”的转变很可能会带来研究者心态的根本性变化,对该领域的未来创新能力产生深远的影响。
因此,他们呼吁,AI 研究者们应该重视基础技术的研究和创新,保持对第一性原理的探究精神,而不是一味追求捷径。
结语
这篇论文在验证蒸馏数据的有效性的同时,也为我们敲响了警钟。简单的蒸馏方法,虽然能带来一时的成效,但从长远来看,过度依赖蒸馏可能会限制我们的视野和潜力。
这并不是说蒸馏本质上是有问题的——它仍然是一个有价值的高性价比方法。关键在于,不能让蒸馏的便利使我们偏离了更艰难但最终更有价值的本质性创新之路。研究者应该在两者之间找到平衡点,既能通过快速蒸馏应对工作中可能的 ddl 压力,又能不忘初心,坚持技术创新的本质。
毕竟,追寻足迹的影子,永远无法变成光。