夕小瑶科技说 原创
作者 | 海野
OpenAI第二天直播日程:
一句话总结,你可以快速、低成本地微调o1了。
好多人觉得没意思,奥特曼也没在场,但是对于科研领域和专业领域的研究者相当有价值!
因为这意味着,可以把你的数据和o1牛逼的推理能力结合起来,让你快速拥有某个领域的o1模型。
具体就是,通过 「强化微调」 实现。
直播嘉宾还是3男1女的组合,三位是OpenAI的研究员Mark Chen、John Allard、Julie Wang,还有伯克利实验室计算生物学家Justin Reese。
直播中特意强调,这不是普通的微调,是强化微调。
奥特曼更是赞扬这是2024年最大惊喜之一。
这次发布的主题虽然和普通人没什么关系,但是给领域垂直模型、小型化模型等开辟巨大的想象空间。
在现有模型基础上,花费有限算力和数据做增强改进,训练出一个更强的模型。
未来很快,就会出现各个领域的o1模型。
前有OpenAI已经搞定一个强基模型,加上一些高质量的推理问题数据集(不需要正确的推理过程,只要有正确的答案就行),任何人都可以通过Reinforcement Learning Fine-tuning,在现有强大的推理模型基础上训练出推理能力更强的模型。
或者,蒸馏出一个更紧凑的小模型,有了领域私有数据和业务逻辑复杂的推理数据集,训出表现更好领域模型。
介绍中是这样说的:
强化微调(Reinforcement Fine-Tuning,简称ReFT),是一种全新(区别于之前的监督微调)的模型定制技术,允许开发者通过数十到数千个高质量任务的数据集,对模型进行针对性优化,并根据提供的参考答案对模型的响应进行评分,使AI在特定领域的复杂任务中表现得更为精准。
经常关注OpenAI的小伙伴可能知道,OpenAI去年初支持对GPT模型的微调,仅是监督式微调(Supervised Fine-Tuning,简称SFT)。
与SFT相比,强化微调不仅是教模型记住数据并进行模仿,而是教模型在特定领域进行推理。
强化微调只需要少量的数据(官方说法:as little as a few dozen examples,少到几十个示例)即可适应任意专业领域。
在官方直播演示里,他们设置了一个实验:在给定症状列表的情况下,用模型预测可能导致罕见遗传疾病的基因,并让模型解释为什么选这些基因。
实验人员使用三种模型进行对比:o1 mini、o1满血版、o1 mini强化微调版。
对于o1 mini强化微调版,实验人员汇集了大约1100个病例报告作为训练和验证的数据集,在使用训练数据集对模型进行训练后,上传验证数据集对模型推理能力进行反复测试和调整,同时保证验证数据集和训练数据集之间的正确基因没有重叠,以防模型作弊。
评估结果时,实验人员设置了三项指标:
第一项,模型一次答对的概率;
第二项,模型前五次预测中有正确答案的概率;
第三项,模型预测中有正确答案的概率。
结果如下图所示,o1 mini的强化微调版,甚至战胜了昨天刚发布的o1。
ReFT概念更早来自字节
Reinforcement learning fine-tuning,简称为ReFT,它结合了监督微调(SFT)和强化学习(RL)的方法,通过引入多条推理路径的学习,对这些路径与正确答案的匹配程度进行自动评估,从而优化模型生成高质量解答的能力。
而且,这个技术路线,更早竟然是字节跳动提出发出的,论文还发布在今年ACL 24上。
字节跳动在ACL 2024顶会上发表的ReFT论文是:
REFT: Reasoning with REinforced Fine-Tuning
研究内容为,通过监督微调(SFT)和强化学习RL(PPO算法)结合,来提高大语言模型在解决数学问题方面的推理能力。
ReFT 由两个阶段组成:预热(Warm-up)阶段和强化学习RL阶段。首先使用 SFT 对模型进行预热,然后采用在线强化学习(在该工作中具体是 PPO 算法)进行优化。
预热阶段(Warm-up)
Warm-up是ReFT的初始步骤,其目的是为模型提供一个基础,使其能够生成对数学问题的基本正确响应。这个阶段使用监督式微调SFT实现:
这一阶段使用包含“Question”和“思维链CoT”元组的数据集:(x, e)。模型在这些“Question-CoT”对上进行微调,通常持续1-2个epoch。这个过程将模型的预测能力调整到能够生成适当的响应。
RL阶段
在预热阶段之后,模型进入强化学习阶段,这个阶段使用PPO(Proximal Policy Optimization)算法来进一步提升模型的性能。
这一阶段使用包含“Question”和“Answer”元组(x,y)组成的数据集。
具体来说,模型通过反复生成多种可能的CoT推理路径,还有一个评估器,专门评估响应的答案正确性,生成reward信号反馈。正确答案会给予正奖励,错误答案则不给予奖励。
这个过程,类似于AlphaZero在围棋领域的自对弈(self-play)学习。
从结果上看,ReFT在所有数据集上都显示出比SFT更好的性能,特别是在CodeLLAMA模型上,ReFT在GSM8K数据集上的准确率比SFT提高了近10个百分点。
论文地址:https://arxiv.org/pdf/2401.08967
o1的发布和强化微调证明了,给定优质推理数据集,通过RL可以确定性提高模型的推理能力。
在RL路线下,垂直领域的应用开发者和研究者,不用再头疼业务性能的问题了,可以做的事情更多了。
可以通过Reinforcement Learning Fine-tuning的方式,结合领域数据和领域经验(私域场景里独有业务逻辑、工作流程、专家经验等),去训练一个垂直领域的模型,提升AI在特定领域的推理能力,这样以来,就大大加速了AI在各个应用场景落地的速度。
对开发者和企业来说,这样做的好处不言而喻:
提升了AI模型性能的同时,也加深了业务的护城河。
总结
在今晚直播开始前,已经有网友在网上放出了一些预告:今天OpenAI是面向开发者的一天。
结果,今天的新预告确实足够振奋人心。
不过目前OpenAI只开放了alpha测试,公开使用要等2025年春季了。
另外,Altman又放出了一个新的信号……