金磊 发自 凹非寺
量子位 | 公众号 QbitAI
家人们,o1大模型,最近着实是有点火啊。
就在今天,昆仑万维的Skywork o1首发中文逻辑推理能力,并开启了邀测。
那一波实测,这不就得安排一下么。
类似o1模型最大的特点就是其强悍的推理能力,因此,我们直接上一道AIME数学竞赛题,看看够不够“开门”。
(AIME:美国数学邀请赛,是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。)
题目翻译过来是这样的:
每天早晨,Aya会进行一段长度为9公里的散步,然后在一家咖啡店停留。当她以每小时s公里的恒定速度行走时,整个散步加上在咖啡店停留的时间一共需要4小时,其中包含在咖啡店停留的t分钟。当她以s+2公里每小时的速度行走时,整个过程(包括在咖啡店停留的时间)需要2小时24分钟。
假设Aya以s+1/2公里每小时的速度行走,求她在这种情况下(包括在咖啡店停留的时间)的总时间(以分钟为单位)。
上下滑动查看所有内容:
从Skywork o1整体的回答来看,它先是将问题分解为不同场景,通过建立方程组描述步行速度、时间和距离的关系。
随后利用代数方法求解,确保了表达式简化和单位换算的正确性。
而比较重要的一点,是Skywork o1可以代入结果验证计算过程的自洽性,并明确得出总时间。
最终,它所给出的答案“204”,与今年AIME这道题的标准答案一致。
接下来,我们再拿今年的高考数学题做一番测试。
AI请听题:
已知函数$f(x) = a(x - 1) - \ln x + 1$.
(1)求f(x)的单调区间;
(2)当α小于等于2时,证明:当x大于1时, $f(x) < e^{x-1}$ 恒成立。
对于这个问题,Skywork o1给出的思考和答案如下(上下滑动查看所有内容):
AI整体的思路和刚才一样,都是属于分步而治之,主打的就是一个step by step。
期间哪怕是遇到“陷阱”,Skywork o1也会及时发现并提醒自己,整个过程宛如把人类思考的过程复刻并呈现了出来一般。
最终给出的答案也是与标准答案一致。
需要注意的是,Skywork o1其实是一个系列,更具体而言,包括三个细分模型:
Skywork o1 Open:基于Llama 3.1的8B开源模型,解锁了许多轻量级模型无法解决的复杂数学任务。
Skywork o1 Lite:具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。
Skywork o1 Preview:本次完整版的推理模型,搭配自研的线上推理算法,使推理过程更完善、高质量。
不仅如此,Skywork o1 Open也参与到了类o1模型Benchmark的比较,能力上可谓是有了大幅的提高。
将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B-Instruct)。
同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。
这也为推理模型在轻量级设备上部署提供了可能性。
△
在MATH数据集上,Q*(论文地址:https://arxiv.org/abs/2406.14283)帮助Llama-3.1-7B提升并超越了同生态位的SOTA Qwen2.5-7B-instruct。
同时,昆仑万维也将开源两个的推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。
对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。
Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。
详细技术报告也将在不久后发布。目前模型和相关介绍已在Huggingface开源 (https://tinyurl.com/skywork-o1)。
那么除了纯数学题之外,Skywork o1在其它推理任务上的表现又会如何?
接下来,我们继续用更多维度的测试来考验一番。
AI自我思考、规划和反思
9.9和9.11哪个大?
首先,我们就用曾经难倒一众AI大模型的经典问题“9.9和9.11哪个大”来做一下测试。
虽然现在几乎所有大模型都能给出正确答案,但在这个测试中,我们将更关注AI思考的过程。
从过程来看,Skywork o1依然采用分而治之的策略。
先比较整数位,判定二者的整数位相同;再判断小数位,将其转换为相同的格式,即0.90和0.11之间的比较,判定9.9大于9.11。
最后,Skywork o1还是把过程再次验证了一遍,认定结果是正确的。
从它的思路来看,和人类比较这两个数字的逻辑是一致的。
脑筋急转弯
接下来,我们再来一道脑筋急转弯:
一个箱子里装了2个苹果,拿走了两个,但箱子里还是有2个苹果。这可能吗?
对于这样的脑筋急转弯,很多人思考的过程,会先看下是否符合常理;若是属于“不按套路出牌”的那种,就会再找找题面有没有trick了。
那么到了AI这边,它又会如何思考?
Skywork o1先审视了一下题目,初步判定不符合常理,应当就开始抓细节了,脑洞大开地想了好几种可能。
例如又有人放了2个苹果进去、画上去的苹果、光学错觉、箱子里有镜子等等……
但上述的想法都被自己给否了,理由是太牵强。
最后,Skywork o1认定,这个题目的trick就在“拿走”这个词儿身上,给出的解释也是正解:
把苹果从箱子里拿出来,但没有带离箱子,仍在箱子的范围内。
加密问题
测试大模型的逻辑推理,加密问题可以说是一种非常适合的类型。
因为加密问题往往需要从有限的已知条件推导出未知信息,这需要模型具备强大的逻辑推理能力,能够在多个条件之间找到关联并推导出结论。
那么,话不多说,AI请听题:
已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 请基于这个例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 对应的原文。
Skywork o1从已知的加密规则和密文-明文对中归纳出字符映射关系,并基于映射规则对新密文进行解码。
在这个过程中,模型逻辑清晰,分步拆解问题,逐步验证假设,并在映射不完整的情况下,通过推测加密模式进一步完善解码方案。
尤其是它对加密规则的归纳能力,不仅识别了每个字母被映射为两个字符的规律,还通过字符位置和字母表的偏移发现了加密过程的具体算法(奇偶位置的偏移逻辑)。
但也并非完美
虽然Skywork o1在目前种种推理任务中表现还算不错,但当我们把任务难度降到极低的时候,也发现了一个问题——有点啰嗦了。
例如问它“1+1等于几”:
Emmmm……繁琐,着实有点繁琐了。
但同时,模型考虑到了这道问题是否是在问不同进制情况下的答案,也体现了模型多样性的思考能力。
不过在与昆仑万维团队交流过程中我们得知,对于这样简单的问题,团队后续也会进一步对Skywork o1的解答做优化。
在看完效果之后,接下来的一个问题便是:
怎么做到的?
整体来看,Skywork o1之所以能有如此的思考、规划及反思能力,主要得益于一个三阶段的自研技术方案。
首先第一阶段,是一个推理反思能力训练的过程。
Skywork o1通过自研的多智能体体系构造出高质量的分步思考、反思和验证数据。
这些多样化的长思考数据用于对基础模型进行进一步的预训练和监督微调,从而提升了模型在复杂任务中的推理能力。
其次第二阶段,是推理能力强化学习。
Skywork o1团队研发了Skywork o1 Process Reward Model(PRM),适用于分步推理的强化学习过程。
该模型能够有效捕捉到复杂推理任务中每一步对最终答案的影响;通过结合自研的分步推理强化算法,模型的推理和思考能力得到了显著增强。
PRM的核心在于其对推理过程的精细化奖励机制。
传统的强化学习模型往往只关注最终结果的正确性,而PRM则在每一个推理步骤中引入了奖励评估,从而确保模型能够在每一步中不断优化其推理路径。
PRM能够对模型的每一个思考过程进行评分,从而帮助模型纠正错误思维链,提升整体推理质量。
Skywork o1团队还在PRM中加入了多任务训练数据,使其不仅能够在单一领域表现出色,同时具备在多样化任务场景中灵活应用的能力。
通过这种方式,Skywork o1能够有效应对各类复杂的推理挑战。
最后,则是推理规划(planning)。
这也是昆仑万维首次将Q*算法应用并公开,用于线上推理。
Q*算法与模型的在线思考能力结合,能够寻找最佳推理路径,从而显著提高了模型的在线推理能力。
值得一提的是,这也是全球首次实现Q*算法落地,使得Skywork o1的推理能力进一步领先于其他同类模型。
为什么类o1模型重要?
早在Sam Altman发布o1模型之际,他便对此问题做了一些点评:
o1标志着一种新范式的开始:能够进行通用复杂推理的AI。
这一趋势也离不开行业发展的大背景,即市场对于具有强大推理能力的模型需求日益增加。
而类o1模型模型的推出,正好满足了这一需求,尤其是在需要复杂逻辑推理的应用场景中,如科学研究、编程、数据分析等领域。
因为它们对性能提升方式不同于传统的大规模预训练方式(通过增加参数量和数据量),是通过增加推理时的算力和时间投入,实现了性能的显著提升,这为模型的发展带来了新的Scaling Law。
并且通过内置思维链(CoT)逐步解决问题的方式,一定程度上模拟了人类慢思考过程;这种方式使得模型在推理时能够进行自我纠正,当模型检测到偏离正确的推理路径时,它可以回溯并尝试其他方案。
一言蔽之,是符合市场和行业硬需求。
而纵观昆仑万维在大模型时代这两年的表现,毫不夸张的说,每一次的技术新潮来临之际,国产选手中定然有它的身影出现,而且是属于早一批的那种。
例如其大底座天工大模型系列,包括天工1.0、天工2.0、天工3.0,以及今天正式邀请测试的「天工大模型4.0」 o1版(Skywork o1)。
其次在其它模态上,还包括AI搜索(天工AI搜索)、AI音乐(天工SkyMusic)、AI社交(Linky)、AI视频(AI短剧平台SkyReels)、实时语音对话助手(Skyo)等。
并且开源,也是从昆仑万维从一开始布局至今以来的特点之一;正如此次的开源模型Skywork o1 Open,也将加速国内开源社区复现o1的进程。
最后,Skywork o1邀测地址放下面喽,感兴趣的小伙伴快去申请吧~
申请地址:www.tiangong.cn