上海AI实验室版o1上线!数学题、Leetcode全拿下,还会玩24点

奇月 发自 凹非寺
量子位 | 公众号 QbitAI

国产o1新选手登场!

它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。

这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!

新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程中进行自我反思和纠正

先来一起看两个例子感受一下:

比如官方展示的这个有点复杂的填字游戏

InternThinker不仅一步步从易到难猜测出了答案,而且还能在做题的过程中不断检查是否存在冲突。

图片

听说这次InternThinker的编程能力也变强了,量子位马上帮大家测试了一下。

在解答一道中等难度的Leetcode赛题中,InternThinker不仅根据题目要求分步写出了解决思路,而且还在编写完代码之后针对整体逻辑和边界条件进行了检查:

图片

把这个代码直接提交了一下,结果真的通过了。

图片

国外网友也都称赞不已:中国公司的进步速度太快了!

图片
图片

在推理中自我反思、纠正

上海人工智能实验室(上海AI实验室)今年7月发布的书生·浦语2.5已经实现了开源模型中领先的推理能力,而InternThinker则使大模型的推理能力再上新台阶。

团队表示,在OpenAI o1模型发布之前,他们就已开展了相关技术的独创性探索与实践:

在训练数据侧,在国内率先开发出大规模合成数据技术;在任务场景侧,新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力,并具备一定的任务泛化性。

最新的强推理模型书生InternThinker具备长思维能力,并能在推理过程中进行自我反思和纠正,在数学、代码、推理谜题等多种复杂推理任务上都取得了更优结果。

图片

量子位还测试了更多InternThinker的实际体验案例,一起来看看吧。

首先考察一下模型的数学能力,以2024年第65届IMO国家集训队第一阶段试题题目为例,模型在读取题目信息后会先列出相关的知识点,然后逐步进行推理计算,和人类解题的方式非常接近。

图片

再来看看另外一个大家都很熟悉的数字游戏24点,模型也能做到先列出相关的计算方法,然后根据最可能成功的思路进行尝试,并在失败时及时进行反思和重新尝试。

图片

最后来看一个比较抽象的推理问题:1天24小时之内时针和分针有多少次处于相对的位置。

这对人类来说都是一个很有难度的题,然而InternThinker在分析了时钟角度和时针的对应关系之后,得出了公式规律,最终得出了正确答案!

图片

怎么做到的

InternThinker的表现真的让人非常惊喜,据上海AI实验室团队的信息,他们主要利用了以下3种策略:

1.利用元认知理论学习思维模式

为高效提升模型的推理能力,InternThinker采用了更接近人类学习方式的路径。

人在学习解决复杂推理任务时,更多是学习思维模式,即通过回忆相关知识点,对正确的解题过程进行理解、记忆,对错误解题等过程进行反思和修正,进而解决更多的问题。

这种对自我的认知过程进行觉察和调节的能力也被称作元认知能力。

受元认知理论的启发,研究团队设计了一系列元动作来引导模型解决问题的过程,如对问题的理解、知识回忆、规划、执行、反思、总结等。

模型在面对复杂任务时,会显式且动态地选择元动作,再进一步展开相关动作的具体思维过程。通过这种设计,利用部分训练任务,可强化模型对关键元动作组合的使用,显著提升模型学习效率。

研究团队认为,模型在思考过程中能更灵活、多样、有效地使用元动作,是模型在推理阶段能够利用更多思考时间解决更复杂任务的重要原因。

图片

2.“通专融合”的高密度监督数据路径

图片

InternThinker率先独创性地采用了基于通专融合的技术路线生产所需数据。

这样一来,模型就可以获取已有强推理模型的思维链数据并进行蒸馏,这也是提升数学等榜单性能及复现强推理模型的“捷径”。

为此,研发团队设计了多种通用模型和专业模型的协作流程

首先基于专家模型搜索出针对复杂任务的正确解决轨迹(但这种轨迹数据并不直接适用于元动作思维能力的训练);

进而由通用模型对复杂任务解决过程进行觉察、分析、改造和质量完善,基于正确轨迹提升思维链的格式规范性和可学习性,最终产出用于模型训练的数据。

在此过程中,模型和数据会交替迭代,达到协同增强的效果。

3.构建大规模沙盒环境:交互中获得反馈信号

在训练模型中,面对丰富多样的推理任务,如何准确地获得过程和结果反馈也非常重要。

为此,团队针对专业任务构建了大规模的沙盒环境,为可形式化验证的推理任务提供反馈信号,包括数十种编程语言的高效率代码执行编译环境,以及代码领域之外的通用推理任务沙盒。

通过自动化专家模型、人机协同策略生成等方法,构建了超过50种不同逻辑思维方式的推理任务思考过程,通过沙盒环境提供思考过程的反馈,形成自下而上对模型思维能力的构建,为模型的自主演进提供精准的反馈信号,这些策略使得InternThinker解决专业任务的能力得到了非常大的提升。

下一步,上海AI实验室将把相关技术融入下一代书生大模型,并继续沿着通专融合发展路径,通过开源与产学研各界共同推动技术进步。

InternThinker已经开启了测试使用,你可以通过下方链接测试更多有趣的题目!

图片

试用链接:https://internlm-chat.intern-ai.org.cn