国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

全文4526字,阅读约需13分钟,帮我划重点

划重点

01国内首款具备中文逻辑推理能力的o1模型——天工大模型4.0 o1版由昆仑万维推出,具备通用能力和解决更难问题的能力。

02Skywork o1模型包含开源版本和专用版本,其中开源版本Skywork o1 Open在数学和代码指标上实现显著提升。

03除此之外,昆仑万维还开源了两个针对推理任务的Process-Reward-Model(PRM),分别为Skywork o1 Open-PRM-1.5B和Skywork o1 Open-PRM-7B。

04天工大模型4.0 o1版在推理能力方面取得了显著进步,有望推动更多样垂类任务和领域的应用。

以上内容由腾讯混元大模型生成,仅供参考

机器之心原创
编辑:杜伟、泽南

没想到,技术发展得竟然这么快。最近,人们已经开始畅想 AI 时代后的生活了。

上周末,摩根大通 CEO 杰米・戴蒙(Jamie Dimon)表示,由于人工智能技术,未来几代人每周可以只工作三天半,活到一百岁。

一些研究认为,生成式 AI 等技术可以让目前占用人们工作时间 60-70% 的任务实现自动化。这些变革需要的技术从何而来?那一定是突破性 AI,有人整理出了各位 AI 领域大佬对通用人工智能(AGI)出现时间的预测。DeepMind 的哈萨比斯就认为,我们距离 AGI 的出现还差两到三个重大技术创新。

图片

像 OpenAI CEO 山姆・奥特曼,甚至认为 AGI 明年就会出现。想来想去,如此自信的原因可能在于最近人们让大模型学会了「推理」的方法

就在 9 月份,OpenAI 正式公开前所未有的复杂推理大模型 o1,这是一个重大突破,新模型既具有通用的能力,也可以解决比此前的科学、代码和数学模型能做到的更难问题。实验结果表明,在绝大多数推理任务中,o1 的表现明显优于 GPT-4o。

图片
o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

OpenAI 为大模型的能力开启了新方向:「能不能像人一样思考与推理」已经成为了评判它们能力的重要指标。厂商发布的新模型要是不带点思维链,恐怕都不好意思拿出手了。

不过直到如今,o1 的正式版仍然迟迟没有推出。AI 社区尤其是国内大模型公司正在向 o1 的霸主地位发起冲击,并开始在一些权威评测中取得领先。

今天,国内首款具备中文逻辑推理能力的 o1 模型来了,它便是由昆仑万维推出的「天工大模型 4.0」 o1 版(英文名:Skywork o1)。这也是近一个月来,该公司在大模型及相关应用上的第三次大动作,此前天工 AI 高级搜索实时语音对话 AI 助手 Skyo 先后亮相。

图片


自即日起,Skywork o1 将开启内测,想要体验的小伙伴赶紧申请起来了。

三款模型并举
角逐推理新战场

此次,Skywork o1 包含了以下三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本。

其中,开源版本的 Skywork o1 Open 参数为 8B,在各项数学和代码指标上实现显著提升,并将 Llama-3.1-8B 的性能拉到同生态位 SOTA,超越了 Qwen-2.5-7B instruct。同时,Skywork o1 Open 还解锁了 GPT-4o 等更大量级模型无法完成的数学推理任务(如 24 点计算)。这也为推理模型在轻量级设备上的部署提供了可能性。

图片


图片

另外,昆仑万维还将开源两个针对推理任务的 Process-Reward-Model(PRM),分别是 Skywork o1 Open-PRM-1.5BSkywork o1 Open-PRM-7B。此前开源的 Skywork-Reward-Model 仅能对整个模型回答打分,而 Skywork o1 Open-PRM 可以细化到对模型回答中的每个步骤进行打分。

相较于开源社区现有的 PRM,Skywork o1 Open-PRM-1.5B 能达到 8B 的模型效果,例如RLHFlow 的 Llama3.1-8B-PRM-Deepseek-Data、OpenR 的 Math-psa-7B。Skywork o1 Open-PRM-7B 更强,能同时在大部分基准上接近甚至超越 10 倍量级的 Qwen2.5-Math-RM-72B

据介绍,Skywork o1 Open-PRM 还是第一款适配代码类任务的开源 PRM。下表为以 Skywork-o1-Open-8B 作为基础模型,使用不同 PRM 在数学和代码评测集上的评估结果。

图片


图片
注:除 Skywork-o1-Open-PRM 外,其他开源 PRM 均未针对代码类任务上进行专门优化,故不进行代码任务的相关对比。

详细技术报告也将在不久后发布。目前模型和相关介绍已在 Huggingface 开源。

开源地址:https://tinyurl.com/skywork-o1

Skywork o1 Lite 具备了完整的思考能力,达到了更快的推理与思考速度,在中文逻辑和推理、数学等问题上表现尤为突出。Skywork o1 Preview 是此次完整版推理模型,搭配自研的线上推理算法,对比 Lite 版本可以呈现更多样和深度的思考过程,做到了更完善和更高质量的推理。

也许你会问,当前复现 o1 模型的工作都在推理层面下足了功夫,Skywork o1 又有什么与众不同呢?

昆仑万维表示,该系列模型在模型输出上内生了思考、计划和反思等能力,在慢思考中一步步地进行推理、反思与验证,解锁了「深思熟虑」等典型的进阶版复杂人类思考能力,确保了回答的质量和深度。

当然,Skywork o1 的成色如何,我们还是得看实战效果。

一手实测
这次 Skywork o1 彻底拿捏住了推理

机器之心提前拿到了测试资格,对 Skywork o1 系列模型,尤其是 Lite 和 Preview 版本的推理能力进行了全方位的考察。下图为 Skywork o1 Lite 的界面展示。

图片

我们先让 Skywork o1 Lite 自报家门,可以看到,模型并没有直接给出答案,而是将包括问题定位、自我能力剖析等在内的完整思考过程直观展现给用户,并且会显示思考时间,这也是如今推理模型的显著特点。

图片

接下来正式进入测试环节,我们搜罗了各种类型的推理问题,看究竟能不能绕晕 Skywork o1。

比大小、数「r」问题,不再翻车

此前,大模型在面对一些看起来非常简单的比大小、数数问题时往往翻车。现在这些问题再也难不倒 Skywork o1 Lite 了。

在比较 13.8 与 13.11 孰大孰小时,Skywork o1 Lite 给出了完整的思维链路,找出解题的关键在于小数位大小。同时模型还自我反思,二次检查自己得出的结论,并提醒容易答错的点。

图片

同样地,在正确回答「Strawberry 中有多少个 “r”?」时,Skywork o1 Lite 也是思考、验证、确认的完整链路。

图片

在回答具有扰乱项的问题时,Skywork o1 Lite 很快厘清思路,不受干扰因素的影响。

图片

玩转脑筋急转弯,不陷入语言陷阱

大模型有时会被中文语境下的脑筋急转弯问题搞糊涂,导致给出错误的答案。这次 Skywork o1 Lite 可以轻松拿下这类问题。

图片

图片

两对父子只钓到三条鱼,却每人都分到了一条,Skywork o1 Lite 能弄明白是怎么回事。

图片

掌握各种常识,告别智障属性

大模型能不能在常识推理层面接近人类水平,是提高其自身可信度、增强决策能力、拓展多领域应用的重要指标之一。Skywork o1 Lite 和 Preview 在这点上都表现不错。

比如长度(英寸、厘米、码)与质量单位(公斤)的区分。

图片

比如盐水冰块为什么比纯水冰块更容易融化。

图片

再比如一个人站在完全静止的船上,当向后跳跃时船向前运动。Skywork o1 Lite 解释清楚了现象背后的物理知识。

图片

化身做题小能手,高考题也不在话下

数学推理是解决复杂任务的基础能力,具备强大数学推理能力的大模型有助于用户高效地解决跨学科复杂任务。

在求解序列问题「2, 6, 12, 20, 30... 这个序列的第 10 项是多少?」时,Skywork o1 Lite 观察数字排列特点、找到规律、验证规律,最终给出了正确答案。

图片

在求解组合(从 10 人中选出 3 人组成一队,共多少种选择)问题时,Skywork o1 Preview 在全链路思考过后,答案正确。

图片

再来一道动态规划(硬币面值 1、3、5,最少几枚硬币凑出 11?)问题,Skywork o1 Lite 给出了最优解。

图片

我们接下来给 Skywork o1 Lite 上上难度,考它两道高考数学题,题目出自 2024 年高考全国甲卷数学(文)。

首先是一道概率题(甲、乙、丙、丁四人排成一列,丙不在排头,且甲或乙在排尾的概率是多少),Skywork o1 Lite 很快给出了正确答案。

图片

然后是函数题(图片),Skywork o1 Lite 解题思路、答案一气呵成。

图片

心思缜密,逻辑思辨能力很强

大模型的逻辑推理是实现更强通用人工智能的核心能力之一,而 Skywork o1 Lite 在解答这类问题时颇有心得。比如经典的说谎问题,Skywork o1 Lite 从逻辑自洽的角度分辨出谁说实话、谁在说谎。

图片

对于悖论问题,Skywork o1 Lite 也没有被蒙蔽头脑。

图片

面对道德困境,做到不偏不倚

伦理决策很大程度上是保证人工智能安全发展、遵守社会道德规范、增强用户信任与接受度的重要因素,大模型更要谨言慎行。

关于「救老婆还是救老妈」这个千古难题,Skywork o1 Lite 没有给出绝对答案,而是权衡利弊,并给出了合理的建议。

图片

还有「救多救少」的两难取舍问题,Skywork o1 Preview 也没有轻易下结论,而是提出了一些更深层次的思考。

图片

弱智吧考验,也能 hold 住

弱智吧问题常常用来考验大模型的智力水平,Skywork o1 Lite 能够轻松应答这类问题,比如高考满分 750、考上 985 的区别。

图片

再比如「午餐肉能不能在晚上吃」,Skywork o1 Lite 显然没有受到食物名称的误导。

图片

代码问题也能搞定

Skywork o1 Lite 能够解决一些代码问题,比如 LeetCode 上的孤岛个数(Number of islands)问题。

题目为「给定一个 2 维网格图,其中 “1”(陆地) 和 “0”(水),计算岛屿的数量。岛屿被水包围,通过水平或垂直连接相邻的陆地形成,你可以假设网格的四边都被水包围着。」

图片

到这里,我们可以下一波结论了:

一方面,以往大模型经常翻车的「小」问题,在推理能力加持下的 Skywork o1 眼里都是小菜一碟。另一方面,通过完整的思考与规划、自我反思以及自我验证链路,Skywork o1 在复杂问题场景同样具备缜密的思辨能力,可以更加准确、高效地输出结果。

如此一来,相较以往强得多的推理能力将激发 Skywork o1 在更多样垂类任务和领域的应用潜力,尤其是容易翻车的逻辑推理和复杂的科学、数学任务。同时上线天工之后,也势必将进一步优化在创意写作等高质量内容生成与深度搜索领域的任务效果。

国产 o1 模型
自研技术驱动

此前,我们已经见证过昆仑万维提出的一系列生成式 AI 垂直类应用,包括但不限于搜索、音乐、游戏、社交、AI 短剧等方向。在这背后,在大模型基础技术的研发上,昆仑万维早有布局。

自 2020 年起,昆仑万维开始持续加码 AI 大模型投入,ChatGPT 刚上线一个月后,该公司就发布了自己的 AIGC 模型系列。在很多垂直领域,昆仑万维都已经推出了应用,包括全球首款 AI 流媒体音乐平台 Melodio、AI 音乐创作平台 Mureka、AI 短剧平台 SkyReels 等等。

在基础技术层面上,昆仑万维目前已经构建起「算力基础设施 — 大模型算法 —AI 应用」的全产业链布局,其中「天工」系列大模型是其核心。

去年 4 月,昆仑万维发布自主研发的「天工 1.0」大模型。到今年 4 月,天工大模型升级到了 3.0 版本,采用 4 千亿级参数 MoE 混合专家模型,并同步选择开源。如今,天工 4.0 版本又基于智能涌现的方法实现了逻辑推理任务上的能力提升。

在技术上,Skywork o1 在逻辑推理任务上性能大幅提升,要得益于天工三阶段自研的训练方案,包括如下:

一是推理反思能力训练。Skywork o1 通过自研的多智能体体系构建了高质量的分步思考、反思和验证数据,并辅以高质量、多样性的长思考数据对基座模型进行继续预训练和监督微调。

二是推理能力强化学习。Skywork o1 团队研发了最新的适配分步推理强化的 Skywork o1 Process Reward Model(PRM),不仅可以有效捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响,而且结合自研分步推理强化算法进一步加强了模型推理和思考能力。

三是推理 planning。基于天工自研的 Q * 线上推理算法配合模型在线思考,并寻找最佳推理路径。这也是全球首次将 Q * 算法实现和公开,在 MATH 等数据集上可以显著提升 LLM 的推理能力,并降低计算资源的需求。

图片在 MATH 数据集上,Q * 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率,超越了 Gemini Ultra。

Q * 算法论文地址:https://arxiv.org/abs/2406.14283

可以看出,昆仑万维的技术已经达到了业界的领先水平,在竞争激烈的生成式 AI 领域,逐渐站稳了一席之地。

相对于目前生成式 AI 应用的百花齐放,在基础技术层面上,研究已经开始走进「深水区」。只有那些经过长期积累的公司,才能构建起改变我们生活的新一代应用。

期待昆仑万维在未来给我们带来更多、更强大的技术。