划重点
01智谱版o1发布了名为GLM-Zero-Preview的推理模型,声称擅长解决数理问题。
02通过测试,Zero模型在数学和代码方面表现出色,能够生成正确的答案和代码。
03此外,Zero模型还具有视觉推理能力,能够根据数字与符号的关系推导出潜在规律。
04除此之外,Zero模型还能进行加密问题和解密,以及生成经典问题9.9和9.11的比较。
05最后,智谱发布了全栈大模型,包括文本生成、图像生成、视频生成等多个领域。
以上内容由腾讯混元大模型生成,仅供参考
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
终于,在2024年的最后一天,智谱版o1也来了!
名字叫做GLM-Zero-Preview,Zero推理模型(下文简称Zero模型),自称是擅长通过逻辑推理来解决数理问题。
既然如此,那么我们就直接一套2024年考研数学真题来伺候一下吧~
规则也很简单,就是把真题的题目以截图的方式“喂”给Zero模型,这样也可以顺便考验一下它的视觉理解能力。
例如我们小试牛刀地截取第一道函数选择题:
这道题怎么解?
从Zero模型生成的结果来看,主要分为四大部分:
读题审题
深度思考
解题步骤
最终答案
有意思的是,Zero模型在深度思考过程中,它的思维方式像极了人类,而且每一步思考也描述的非常详细,最终给出了正确答案:C。
但同样的问题给到了ChatGPT o1……Emmm,先败在了“识图”这一步。
再来第二道测试题——线性代数:
还是同样的“配方”,来看下Zero的解题过程:
Zero模型按照逻辑顺序一步步拆解了这个问题,从基本定义、条件推导到最终结果,展示了较为清晰的解题思路。
在过程中,Zero模型对关键条件还进行了分步分析,同时对结果的数学意义进行了验证。
最终,依旧是给出了正确答案:D。
在函数、线性代数之后,我们再来一道概率统计:
我们来看下Zero模型的解析过程:
回答依然正确:D。
在尝试不同类型的选择题之后,我们不妨再来测一波大题。
直接上压轴题!
值得注意的一点是,这道题需要同时解答两个问题,我们来看下结果:
Zero模型统统答对了!
看来智谱版o1敢把“擅长数理问题”直接打出来,确实是有点东西在身上的。
据官方介绍,同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。
并且它在AIME 2024、MATH500 和 LiveCodeBench评测中,已经取得了与OpenAI o1-preview相当的效果。
而且有一说一,抛出解析过程和结果,相比其它类o1大模型来说,单是整体的布局这块,不论是文字和公式,似乎更加符合数学之美。
但毕竟数学还是只是评测大模型推理能力的维度之一,因此,我们继续开启更多维度的“极限挑战”。
一句话让马斯克跳舞变字符画
代码编程能力,同样也是类o1推理模型重要的一面。
我接下来就实测一下Zero模型能否用一句话生成小游戏:
用HTML做一个贪吃蛇。
Zero模型根据要求,一步一步推理过后生成了一段完整的代码(上下滑动查看所有内容):
然后我们只需复制粘贴到了IDE里,并在浏览器中运行,一个可玩的简单版贪吃蛇游戏就做好了。
再来一个有意思的:
HTML实现动态黑客帝国雨,全屏幕,竖着下,错落有致,敏感交错。
我们同样先来看下生成出来的代码(上下滑动查看所有内容):
还是一个复制粘贴的动作,来看下效果:
嗯,确实是有点那个味道了。
或许你会说,这些代码功能过于简单了,别急,我们这就来上点难度——
把马斯克跳舞名场面视频,一句话变成字符画版本!
我们的Prompt是这样的:
在Mac中,用Python把输入视频内容变成字符画,然后再输出一个新的视频。
然后Zero模型就给出了代码(上下滑动查看所有内容):
同样仅需复制粘贴,然后设置一些输入、输出文件的路径,运行代码后我们就可以得到这样的视频啦:
(PS:背景音乐为后期所配)
如果想再来点颜色,也是一句话的是:
在上面的代码基础上,进行彩色化处理。
由此可见,Zero模型在代码生成方面可以说是过关的。
更多维度实测
在数学和代码之后,我们继续从更多维度来全方面测试一下Zero模型。
视觉推理
请听题:
以下是一组数字与符号的对应关系:
1→♡
2→
3→♢
4→♡
请推测 6 的符号表示,并解释推导过程。
上下滑动查看所有内容:
Zero模型能够根据数字与符号的关系,分析出潜在规律,推导过程的过程也是清晰地阐述了出来。
再来:
这几个数字能组合成的最大数字是多少?
Zero模型给出的答案是这样的(上下滑动查看所有内容):
可以看到,Zero模型先是准确识别出了台球上的数字,然后用推理能力一步步尝试将能够组合成的最大数值给了出来,但很可惜差了一点。
加密问题
我们再来一道可以考验大模型能力的加密问题。
请听题:
已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 请基于这个例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 对应的原文。
而这里出现的结果就比较有意思了。
Zero模型给出的答案是:hard work pays off.
但我们同时还用ChatGPT o1和DeepSeek V3做了比较:
ChatGPT o1生成结果:pray before you code.
DeepSeek V3生成结果:planned forest consented.
各家大模型的结果均不相同,这道题到底是谁正确,小伙伴们可以亲测一下,然后在评论留言讨论哦~
经典问题:9.9和9.11哪个大?
最后一道测试,我们还是用那个非常经典的问题:
9.9和9.11哪个大?
嗯,这个问题已经是难不倒Zero模型了。
智谱的大模型再添一块拼图
在2024年的最后一天,智谱也是终于在各大玩家之后发布了类o1模型。
由此,其大模型的矩阵也变得更加庞大:
文本生成(GLM)、图像生成(CogView)、视频生成(CogVideoX)、音效生成(CogSound)、音乐生成(CogMusic)、端对端语音(GLM-4-Voice)、自主代理(AutoGLM)、AI推理(GLM-Zero-Preview)。
能够以如此“全栈”姿态在大模型时代角逐的玩家,着实是屈指可数。
而另一方面,若是细数今年内智谱的技术发布时间轴,结果是更加的密集且紧凑:
11月,发布AutoGLM升级版,可自主执行超50步的长步骤操作,也可以跨app执行任务,开启“全自动”上网新体验,支持基于浏览器的数十个网站的无人驾驶。
11月,发布GLM-PC内测,基于智谱多模态模型CogAgent,探索“无人驾驶”PC。可代替用户参与视频会议、处理文档、搜索网页并总结、远程定时操作。
11月,视频模型CogVideoX升级,支持10s时长、4k、60帧超高清画质、任意尺寸以及更好人体动作和物理世界模拟。
10月,GLM-4-Voice端到端情感语音模型发布,并上线清言app,能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。
10月,AutoGLM内测版发布,只需接收简单的文字/语音指令,就可以模拟人类操作手机,不受限于API调用。
10月,和三星、高通宣布合作,分别共同打造AI产品和端侧多模态交互大模型。
8月,发布跨文本音频和视频模态实时推理大模型GLM-4-Videocall,实现AI与人实时视频通话。通过API接口可无缝部署在包括手机在内各类带摄像头端侧设备。
8月,新一代基座大模型GLM-4-Plus发布,语言理解、指令遵循、长文本处理等方面性能全面提升。
7月,视频生成模型“清影”在清言PC端、移动应用端以及小程序端正式上线,提供文本生成视频和图像生成视频的服务,30秒即可完成6秒视频生成,真实还原物理世界中的运动过程。
6月,GLM-4-9B模型,支持100万Tokens长文本和26种语言,多模态能力比肩GPT-4V。
1月,新一代基座大模型GLM-4发布,整体性能相比上一代大幅提升,支持更长上下文,具备更强多模态能力,推理速度更快,支持更高并发,大大降低推理成本。
这也有就很好理解为何在前不久,智谱能够拿到30亿元的新一轮融资,估值已超200亿元。
模型够全栈,技术够密集,市场够认可,智谱可以说是给今年画上了较为圆满的句号。
除此之外,智谱选择在今年最后一天发布类o1模型,其实也在预示着明年的大模型发展依旧会在推理Scaling Law上发力。
但与此同时,诚如ChatGPT o3这般“烧钱猛兽”目前也无法完全应对Frontier Math、ARC-AGI等超高难度的测试。
那么智谱又将会在推理这块如何出奇制胜,是值得期待一波。
Zero模型体验地址:
1、智谱清言:
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
2、智谱开放平台:
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview
2000万token免费体验资源包领取地址:
https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K
参考链接:
https://kaoyan.eol.cn/shiti/shuxue/202312/t20231225_2550980_7.shtml