智谱发布推理模型初代版本

12月31日,国内明星大模型创业公司北京智谱华章科技有限公司推出基于扩展强化学习技术训练的推理模型GLM-Zero-Preview,擅长处理数理逻辑、代码和需要深度推理的复杂问题。

GLM-Zero-Preview是GLM-Zero的初代版本。智谱表示,目前的GLM-Zero-Preview与OpenAI的o3模型仍有不少差距,因此未来将持续优化迭代强化学习技术,推出正式版GLM-Zero,将深度思考能力从数理逻辑扩展到更多更通用的技术。

与现有模型不同,GLM-Zero-Preview能够初步实现推理过程中自主决策、问题拆解和尝试多种方式解决问题。团队发现,随着强化学习训练量的增加,模型在深度推理等方面的效果稳步提升。团队也深入探究了模型在推理阶段的scaling law(尺度定律),随着模型可以思考的token数变多以及更多的计算量,模型给出的结果质量稳步提升,体现了“自我反思和优化、复杂问题分解、尝试用不同方法解决问题”等能力,这与人类的思考决策过程类似。

图片

在7、9、11、13中如何用3个数字相加得到30,GLM-Zero-Preview识别逻辑漏洞。

在逻辑推理方面,GLM-Zero-Preview善于识别逻辑漏洞,能够模拟多种假设和可能性。例如在7、9、11、13中如何用3个数字相加得到30,GLM-Zero-Preview能够识别图中数字,通过反思发现答案的关键在于9可以倒置为6(6+11+13=30)。

在数学方面,GLM-Zero-Preview具有更强的归纳与演绎能力,能够快速处理复杂的数学运算,解答包括代数、微积分、概率统计等领域的问题。以2025年考研数学一为例,GLM-Zero-Preview得分为126(总分150),达到优秀研究生水平。GLM-Zero-Preview能够提供详细的解题过程,帮助用户理解问题的核心思路。

GLM-Zero-Preview能够熟练使用多种编程语言,帮助开发者快速编写代码。在代码调试方面能够快速识别错误,给出详细修复建议。例如只需要输入指令“帮我用html写一个有趣的第一人称射击游戏”,GLM-Zero-Preview便能迅速独立完成游戏。