GLM-4-Plus体验测评:擅长数理逻辑、会解视频还能开发游戏

图片

作者|冰拿铁

编辑|星奈

媒体|AI大模型工场

这个国庆你是怎么过的?有人去蓬莱看海,有人在北京打卡中轴线,还有人逃离北上广,在阿勒泰吹旷野的风……而随着假期圆满收官,打工人意犹未尽地回到工位上时,我们发现,还有人在假期偷偷放大招、“卷”行业:

在基座大模型GLM-4-Plus引领下,智谱全模型家族全面上线了!

智谱在近期发布的若干更新模型,以基座大模型GLM-4-Plus推出为标志,智谱宣布,即日起全模型家族正式上线开放平台(bigmodel.cn),包括新基座大模型GLM-4-Plus——智谱迄今为止最强大的模型,也是智谱全模型家族的“扛把子”能力底座。

梳理发现,新基座大模型GLM-4-Plus之上,智谱大模型全家桶面面俱到。新上线了视频通话API:GLM-4-Plus-VideoCall ,它是清言视频通话背后的模型,可以实现视频通话、语音多轮交互等多种跨模态能力。

此前7月上线了视频生成模型 CogVideoX,8月上线了图像/视频理解模型GLM-4V-Plus,文生图模型CogView-3-Plus也迎来重要升级,效果接近目前一线水平的MJ-V6和FLUX等。

从单一文字模态进步到图像、视频在内的多模态,从自然语言到代码,从简单对话到复杂智能体互动,从一种工具到多工具自动调度……智谱在模型能力方面还是太全面了。

此外,GLM-4-Plus在性能上也非常能打。根据最近行业内相继出炉的几份权威测评,GLM-4-Plus等模型在国际排名靠前的同时,多个单项上表现不俗,得分甚至超出领先o1-preview等国外顶尖模型。

01

GLM-4-Plus有哪些“长板”?

一直以来,基座模型都最能体现大模型厂商实力,是大模型内功比拼的核心。这是因为,作为“重基建”,基座模型的训练涉及复杂的算法设计、模型训练和优化等过程,极其考验厂商技术积淀,并需要投入大量的计算资源、存储资源和数据资源以形成规模优势。

同时,基座模型也是构建AI生态、吸引更多的开发者和企业的基础,决定了厂商在AI领域的综合实力和影响力。

而GLM-4-Plus面世后,其在多个评测中皆表现不俗。2024年9月版本最新的《SuperBench大模型综合能力评测报告》中,选取了24个海内外具有代表性的大模型测评,结果显示,国内模型在对齐、智能体、数理逻辑等多个评测中均有明显进步,其中,GLM-4-Plus排名第三,超过了Claude系列模型,破了之前国外模型垄断前三甲的局面;在国内模型中,GLM-4系列蝉联榜首。

图片

值得一提的是,GLM-4-Plus在部分单项表现尤为突出,甚至超过了o1-preview等:如在作为智能体能力的评测中,国内模型首次超过了国外模型,GLM-4-Plus排名第一;中文语言能力上,GLM-4-Plus以8.58分领跑,领先o1-preview;在语义理解能力评测中,GLM-4-Plus领先o1-mini 1分。

在第三方测评博主toyama nao的横评中,在难度较高的水果热量计算上,需要合理搭配水果,使总热量刚好在一个区间,大部分模型并没有真的懂题目,回答多是盲目枚举。但GLM-4-Plus完全理解了题意,采用逐步凑数的方法,如果总数超过范围,还知道反过来减少水果用量。回答非常有“人味”,是第一个在此题拿到满分的模型。

不过,俗话说,“能拔脓的才是好膏药”,在个体、企业日常具体应用中,智谱的表现真的那么丝滑吗?让我们来全面测试一下!

02

GLM-4-Plus全面测评:时事热点、语言理解、逻辑推理等花式考察,更有羊毛可薅

为此,我们设置了以下测评题目,结合当下的互联网语境、广大网友关注的前沿热点,旨在全面考察其语言理解、数理逻辑、语言理解、指令遵循、长文本处理等方面的水平,以及经济、时事政治、文学艺术等知识面覆盖程度,以及应对工作、学习、生活等具体场景的能力:

1、综合知识考查、时事热点分析

画风“阴森”、迷雾重重、瀑布险崖……近期,一位抖音博主“勇闯哀牢山”的视频在网络走红,也让哀牢山再次走进公众视野,那么,哀牢山为什么被称为生命禁区?把这个问题抛给GLM-4-Plus,其从地形地貌、气候条件、生态系统及文化心理等角度进行了综合分析,看得出有一定知识储备,上演“大模型带你走近科学”。

图片

2、语言理解与深度解析

提到文学,就离不开语言。随后,在考察语言理解与深度解析的过程中,我们选了之前让网上很火,被广泛应用在外国网友评论区并让其摸不着头脑的一个段子:“鱼片是死鱼片;等红灯是在等绿灯;咖啡因来自咖啡果;救火是在灭火;生前是死前;要你管=不要你管……”结果显示,GLM-4-Plus没有被绕进去,很好地get到了中文的博大精深,并进行逐个击破。

图片

而在更考验中文功底和传统文化底蕴的红楼梦判词隐喻解析,以及《哀江南赋序》的用典考查中,GLM-4-Plus也可以有条不紊地按照逻辑链进行逐步拆解、分析,并有条理地综合输出。

图片

看得出来,GLM-4-Plus对传统文化信手拈来,那么,作为其“亲兄弟”的图像/视频理解模型GLM-4V-Plus能否拆解传统文化中的视觉语言?恰逢电影《只此青绿》上映,我们把宣传片片段投喂给GLM-4V-Plus,让其描述视频内容。

结果显示,其不仅能够按照时间顺序描述预告片场景,且对人物、物品等要素的识别也非常到位。而对于画卷中“群山起伏,绿树成荫,山间云雾缭绕,给人以宁静、悠远感觉”等细节,GLM-4V-Plus也能按照要求“用古典美的语言”进行描述。

图片

除了拆解视觉语言,我们继续上难度,询问“视频中出现三人一起跳舞的画面是第几秒”,GLM-4V-Plus能够准确理解并感知时间,精准地定位到事件发生的具体时间点。

图片

3、逻辑推理与数学证明

当然,光语文好还不够,还得有逻辑、数学好,不偏科。随后,我们给出了即一个包含多个步骤和条件的逻辑推理谜题——“博物馆偷画难题”,要求GLM-4-Plus逐步推理并给出最终答案,结果显示,GLM-4-Plus能够在复杂的信息关系中找到正确的逻辑关系,并顺利地解出了逻辑难题。

图片

而在勾股定理的证明中,GLM-4-Plus不仅给出了详细的证明步骤,还画图做出了分析。

图片

最后,上一个曾经让很多大模型翻车的问题“9.24和9.8谁更大”,GLM-4-Plus也通过慢思考得出了正确答案,没有掉进陷阱。

图片

4、代码理解与应用

而在代码理解与应用环节,我们先是提供了一段代码,要求GLM-4-Plus理解代码功能,智谱得出了“用于计算用户平均绩点”的准确结论;随后,再让其写个测试程序,也基本不在话下,可以解放一个程序员的双手:

图片

不过,在实际应用中,据程序员群体反馈,大模型代码生成最有价值的地方,在于辅助完成BUG查找/修复,以及自动续写等工作,从而将其从繁琐的重复劳动中解放出来,专注于创造性工作。

正如沙利文联合头豹研究院发布报告的《2024年AI代码生成市场观测报告-里程碑》年度报告指出,AI代码生成工具尤其在代码测试与检查、代码标注等方面表现突出。

为此,我们投喂GLM-4-Plus一段有bug的代码,让其进行解释、修改,结果显示,GLM-4-Plus精准找出了bug位置,并进行了详细的解释及修改,有望在未来成为程序员群体的“啄木鸟”

图片

而在帮助程序员“补齐写了一半的作业”的自动补全环节,我们投喂给GLM-4-Plus一个残缺不全的Python脚本,运行目的是根据天气情况,发送提醒信息到控制台(例如,如果下雨,打印“记得带伞!”;如果温度超过30摄氏度,打印“天气炎热,穿轻便衣服!”等),要求GLM-4-Plus帮助我把代码补全:

图片

结果显示,其基本流畅地补全了代码,并贴心地附注了说明。

最后,对于代码小白来说,也可以基于GLM-4-Plus一键写出自己的代码,例如,要求用GLM-4-Plus用JavaScript+CSS+HTML写一个贪吃蛇游戏,无需下载软件即可在网页上检测,并顺利跑通——或许大模型热潮下,“人人都是程序员”的时代真的要来了。

图片

那么,除了写代码外,面对工作、生活中的写文章、做计划等任务,GLM-4-Plus的完成度和熟练程度如何?

5、工作、生活搭子

首先,让GLM-4-Plus替我工作,以自媒体博主身份写一篇《国庆假期结束后快速调整状态》的文章,从结果来看,结构清晰、文笔成熟,微调后就可以进行编辑发布了,让我在复工第一天顺利摸鱼:

图片

既然不用工作了,那么就尽情畅想下次的出游吧!在「AI 婚纱照」火上各大平台热搜的当下,让CogView-3-Plus帮我生成一幅背景在卢浮宫的婚纱照,看得出来质感还不错,让人“身未动心已远”,已经开始期待下一个长假了。

图片

不止如此,“双十一”提前大促的热潮竟然也蔓延到了大模型圈!最近两天,智谱还在开放平台上线了一个从10月1日起、为期一个月的“国庆特惠月”优惠活动,有很多花式优惠,如最高赠1亿Tokens、API调用最高打1折等等。

这让人感叹,大模型圈提前过双十一了——这是不是预示着智谱又率先打响了“第二波价格战”?而且是福利、资源包与降价齐飞的“花式乱斗”。

图片

这让人感叹,第二波大模型价格战就这么水灵灵地来了——此前,在头部厂商纷纷响应的第一波价格战中,AI技术的门槛显著降低,使得更多中小企业、初创团队乃至个人开发者能够轻松接入并使用到顶尖的大模型服务,推动大模型在各个领域的广泛应用,如自然语言处理、图像识别、智能客服等,进而形成了更加丰富的应用场景和生态体系。