360gpt2-o1上线360智脑API平台，具备反思机制

三易生活

2024-12-15 16:17发布于湖北三易生活官方账号

日前，360 方面发布自研AI大模型360gpt2-o1，并表示“该模型是继今年10月推出360智脑大模型360gpt2-pro之后的重要更新”。目前，360gpt2-o1已经在360智脑API平台上线。

据了解，360gpt2-o1推理能力显著提升，在数学和逻辑推理任务上表现出色。在多项基础数学评测（如MATH、高考数学）以及权威数学竞赛（包括AIME24、AMC23）中，360gpt2-o1均取得了显著的成绩，不仅超越了前代模型360gpt2-pro，也优于GPT-4o。而且在数学竞赛评测中，360gpt2-o1超过了阿里巴巴最新开源的o1系列模型QWQ-32B-preview。

同时360gpt2-o1使用树搜索构建思维链，并引入了反思机制，使用强化学习训练，具备自我反思与纠错的能力。对此360方面表示，360gpt2-o优异的模型效果主要得益于360gpt2-pro在合成数据优化、模型后训练和“慢思考”范式三个层面，均取得了重大进展。

其中在合成数据层面，为了增强模型的推理能力，360方面通过指令合成、质量/多样性筛选等方法，有效解决了高质量数学与逻辑推理数据稀缺的问题，为模型提供了丰富的训练数据集。

在模型后训练层面，360方面采用了两阶段训练策略。具体而言，先利用小模型生成多样化的推理路径，然后借助大模型进行RFT训练和强化学习训练，从而进一步提升了模型的推理能力和反思纠错能力。

据360方面透露，之所以选择使用小模型来生成并筛选数据，是因为大模型的采样成本过高。例如若对10万条指令每条进行100次采样，将产生1000万条数据，使用大模型处理这样的数据量将耗费巨大。相比之下，小模型不仅生成数据的速度更快、成本更低，而且其生成的推理路径也更为多样化。

在“慢思考”范式层面，该范式利用蒙特卡洛树搜索探索多样化的解决方案，并引入LLM进行错误验证和纠错，最终形成包含反思、验证、纠错和回溯的长思维链。

【本文图片来自网络】

查看原图 49K