OpenAI Day2:支持微调o1, 核心技术竟更早来自字节跳动!「强化微调」技术分析

图片

夕小瑶科技说 原创
作者 | 海野

OpenAI第二天直播日程:

一句话总结,你可以快速、低成本地微调o1了

图片

好多人觉得没意思,奥特曼也没在场,但是对于科研领域和专业领域的研究者相当有价值!

因为这意味着,可以把你的数据和o1牛逼的推理能力结合起来,让你快速拥有某个领域的o1模型。

具体就是,通过 「强化微调」 实现。

直播嘉宾还是3男1女的组合,三位是OpenAI的研究员Mark Chen、John Allard、Julie Wang,还有伯克利实验室计算生物学家Justin Reese。

直播中特意强调,这不是普通的微调,是强化微调。

图片

奥特曼更是赞扬这是2024年最大惊喜之一。

图片

这次发布的主题虽然和普通人没什么关系,但是给领域垂直模型、小型化模型等开辟巨大的想象空间。

在现有模型基础上,花费有限算力和数据做增强改进,训练出一个更强的模型。

未来很快,就会出现各个领域的o1模型。

前有OpenAI已经搞定一个强基模型,加上一些高质量的推理问题数据集(不需要正确的推理过程,只要有正确的答案就行),任何人都可以通过Reinforcement Learning Fine-tuning,在现有强大的推理模型基础上训练出推理能力更强的模型。

或者,蒸馏出一个更紧凑的小模型,有了领域私有数据和业务逻辑复杂的推理数据集,训出表现更好领域模型。

图片

介绍中是这样说的:

强化微调(Reinforcement Fine-Tuning,简称ReFT),是一种全新(区别于之前的监督微调)的模型定制技术,允许开发者通过数十到数千个高质量任务的数据集,对模型进行针对性优化,并根据提供的参考答案对模型的响应进行评分,使AI在特定领域的复杂任务中表现得更为精准。

经常关注OpenAI的小伙伴可能知道,OpenAI去年初支持对GPT模型的微调,仅是监督式微调(Supervised Fine-Tuning,简称SFT)。

与SFT相比,强化微调不仅是教模型记住数据并进行模仿,而是教模型在特定领域进行推理。

图片

强化微调只需要少量的数据(官方说法:as little as a few dozen examples,少到几十个示例)即可适应任意专业领域。

在官方直播演示里,他们设置了一个实验:在给定症状列表的情况下,用模型预测可能导致罕见遗传疾病的基因,并让模型解释为什么选这些基因。

实验人员使用三种模型进行对比:o1 mini、o1满血版、o1 mini强化微调版。

对于o1 mini强化微调版,实验人员汇集了大约1100个病例报告作为训练和验证的数据集,在使用训练数据集对模型进行训练后,上传验证数据集对模型推理能力进行反复测试和调整,同时保证验证数据集和训练数据集之间的正确基因没有重叠,以防模型作弊。

评估结果时,实验人员设置了三项指标:

第一项,模型一次答对的概率;

第二项,模型前五次预测中有正确答案的概率;

第三项,模型预测中有正确答案的概率。

结果如下图所示,o1 mini的强化微调版,甚至战胜了昨天刚发布的o1。

图片

ReFT概念更早来自字节

Reinforcement learning fine-tuning,简称为ReFT,它结合了监督微调(SFT)和强化学习(RL)的方法,通过引入多条推理路径的学习,对这些路径与正确答案的匹配程度进行自动评估,从而优化模型生成高质量解答的能力。

而且,这个技术路线,更早竟然是字节跳动提出发出的,论文还发布在今年ACL 24上。

字节跳动在ACL 2024顶会上发表的ReFT论文是:

REFT: Reasoning with REinforced Fine-Tuning

研究内容为,通过监督微调(SFT)和强化学习RL(PPO算法)结合,来提高大语言模型在解决数学问题方面的推理能力。

图片

ReFT 由两个阶段组成:预热(Warm-up)阶段和强化学习RL阶段。首先使用 SFT 对模型进行预热,然后采用在线强化学习(在该工作中具体是 PPO 算法)进行优化。

图片

预热阶段(Warm-up)

Warm-up是ReFT的初始步骤,其目的是为模型提供一个基础,使其能够生成对数学问题的基本正确响应。这个阶段使用监督式微调SFT实现:

这一阶段使用包含“Question”和“思维链CoT”元组的数据集:(x, e)。模型在这些“Question-CoT”对上进行微调,通常持续1-2个epoch。这个过程将模型的预测能力调整到能够生成适当的响应。

RL阶段

在预热阶段之后,模型进入强化学习阶段,这个阶段使用PPO(Proximal Policy Optimization)算法来进一步提升模型的性能。

这一阶段使用包含“Question”和“Answer”元组(x,y)组成的数据集。

具体来说,模型通过反复生成多种可能的CoT推理路径,还有一个评估器,专门评估响应的答案正确性,生成reward信号反馈。正确答案会给予正奖励,错误答案则不给予奖励。

这个过程,类似于AlphaZero在围棋领域的自对弈(self-play)学习。

图片

从结果上看,ReFT在所有数据集上都显示出比SFT更好的性能,特别是在CodeLLAMA模型上,ReFT在GSM8K数据集上的准确率比SFT提高了近10个百分点。

图片

论文地址:https://arxiv.org/pdf/2401.08967

o1的发布和强化微调证明了,给定优质推理数据集,通过RL可以确定性提高模型的推理能力。

在RL路线下,垂直领域的应用开发者和研究者,不用再头疼业务性能的问题了,可以做的事情更多了。

可以通过Reinforcement Learning Fine-tuning的方式,结合领域数据和领域经验(私域场景里独有业务逻辑、工作流程、专家经验等),去训练一个垂直领域的模型,提升AI在特定领域的推理能力,这样以来,就大大加速了AI在各个应用场景落地的速度。

对开发者和企业来说,这样做的好处不言而喻:

提升了AI模型性能的同时,也加深了业务的护城河。

总结

在今晚直播开始前,已经有网友在网上放出了一些预告:今天OpenAI是面向开发者的一天。

图片

结果,今天的新预告确实足够振奋人心。

不过目前OpenAI只开放了alpha测试,公开使用要等2025年春季了。

图片

另外,Altman又放出了一个新的信号……

图片

图片

参考资料: