360gpt2-o1上线360智脑API平台,具备反思机制

日前,360 方面发布自研AI大模型360gpt2-o1,并表示“该模型是继今年10月推出360智脑大模型360gpt2-pro之后的重要更新”。目前,360gpt2-o1已经在360智脑API平台上线

据了解,360gpt2-o1推理能力显著提升,在数学和逻辑推理任务上表现出色。在多项基础数学评测(如MATH、高考数学)以及权威数学竞赛(包括AIME24、AMC23)中,360gpt2-o1均取得了显著的成绩,不仅超越了前代模型360gpt2-pro,也优于GPT-4o。而且在数学竞赛评测中,360gpt2-o1超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。

图片

同时360gpt2-o1使用树搜索构建思维链,并引入了反思机制,使用强化学习训练,具备自我反思与纠错的能力。对此360方面表示,360gpt2-o优异的模型效果主要得益于360gpt2-pro在合成数据优化、模型后训练和“慢思考”范式三个层面,均取得了重大进展。

其中在合成数据层面,为了增强模型的推理能力,360方面通过指令合成、质量/多样性筛选等方法,有效解决了高质量数学与逻辑推理数据稀缺的问题,为模型提供了丰富的训练数据集。

在模型后训练层面,360方面采用了两阶段训练策略。具体而言,先利用小模型生成多样化的推理路径,然后借助大模型进行RFT训练和强化学习训练,从而进一步提升了模型的推理能力和反思纠错能力。

据360方面透露,之所以选择使用小模型来生成并筛选数据,是因为大模型的采样成本过高。例如若对10万条指令每条进行100次采样,将产生1000万条数据,使用大模型处理这样的数据量将耗费巨大。相比之下,小模型不仅生成数据的速度更快、成本更低,而且其生成的推理路径也更为多样化。

在“慢思考”范式层面,该范式利用蒙特卡洛树搜索探索多样化的解决方案,并引入LLM进行错误验证和纠错,最终形成包含反思、验证、纠错和回溯的长思维链。

【本文图片来自网络】