+关注

手机看

微信扫一扫，随时随地看

GLM-4-Plus体验测评：擅长数理逻辑、会解视频还能开发游戏

AI大模型工场

2024-10-11 19:26发布于北京

+关注

作者｜冰拿铁

编辑｜星奈

媒体｜AI大模型工场

这个国庆你是怎么过的？有人去蓬莱看海，有人在北京打卡中轴线，还有人逃离北上广，在阿勒泰吹旷野的风……而随着假期圆满收官，打工人意犹未尽地回到工位上时，我们发现，还有人在假期偷偷放大招、“卷”行业：

在基座大模型GLM-4-Plus引领下，智谱全模型家族全面上线了！

智谱在近期发布的若干更新模型，以基座大模型GLM-4-Plus推出为标志，智谱宣布，即日起全模型家族正式上线开放平台（bigmodel.cn），包括新基座大模型GLM-4-Plus——智谱迄今为止最强大的模型，也是智谱全模型家族的“扛把子”能力底座。

梳理发现，新基座大模型GLM-4-Plus之上，智谱大模型全家桶面面俱到。新上线了视频通话API：GLM-4-Plus-VideoCall ，它是清言视频通话背后的模型，可以实现视频通话、语音多轮交互等多种跨模态能力。

此前7月上线了视频生成模型 CogVideoX，8月上线了图像/视频理解模型GLM-4V-Plus，文生图模型CogView-3-Plus也迎来重要升级，效果接近目前一线水平的MJ-V6和FLUX等。

从单一文字模态进步到图像、视频在内的多模态，从自然语言到代码，从简单对话到复杂智能体互动，从一种工具到多工具自动调度……智谱在模型能力方面还是太全面了。

此外，GLM-4-Plus在性能上也非常能打。根据最近行业内相继出炉的几份权威测评，GLM-4-Plus等模型在国际排名靠前的同时，多个单项上表现不俗，得分甚至超出领先o1-preview等国外顶尖模型。

GLM-4-Plus有哪些“长板”？

一直以来，基座模型都最能体现大模型厂商实力，是大模型内功比拼的核心。这是因为，作为“重基建”，基座模型的训练涉及复杂的算法设计、模型训练和优化等过程，极其考验厂商技术积淀，并需要投入大量的计算资源、存储资源和数据资源以形成规模优势。

同时，基座模型也是构建AI生态、吸引更多的开发者和企业的基础，决定了厂商在AI领域的综合实力和影响力。

而GLM-4-Plus面世后，其在多个评测中皆表现不俗。2024年9月版本最新的《SuperBench大模型综合能力评测报告》中，选取了24个海内外具有代表性的大模型测评，结果显示，国内模型在对齐、智能体、数理逻辑等多个评测中均有明显进步，其中，GLM-4-Plus排名第三，超过了Claude系列模型，破了之前国外模型垄断前三甲的局面；在国内模型中，GLM-4系列蝉联榜首。

值得一提的是，GLM-4-Plus在部分单项表现尤为突出，甚至超过了o1-preview等：如在作为智能体能力的评测中，国内模型首次超过了国外模型，GLM-4-Plus排名第一；中文语言能力上，GLM-4-Plus以8.58分领跑，领先o1-preview；在语义理解能力评测中，GLM-4-Plus领先o1-mini 1分。

在第三方测评博主toyama nao的横评中，在难度较高的水果热量计算上，需要合理搭配水果，使总热量刚好在一个区间，大部分模型并没有真的懂题目，回答多是盲目枚举。但GLM-4-Plus完全理解了题意，采用逐步凑数的方法，如果总数超过范围，还知道反过来减少水果用量。回答非常有“人味”，是第一个在此题拿到满分的模型。

不过，俗话说，“能拔脓的才是好膏药”，在个体、企业日常具体应用中，智谱的表现真的那么丝滑吗？让我们来全面测试一下！

GLM-4-Plus全面测评：时事热点、语言理解、逻辑推理等花式考察，更有羊毛可薅

为此，我们设置了以下测评题目，结合当下的互联网语境、广大网友关注的前沿热点，旨在全面考察其语言理解、数理逻辑、语言理解、指令遵循、长文本处理等方面的水平，以及经济、时事政治、文学艺术等知识面覆盖程度，以及应对工作、学习、生活等具体场景的能力：

1、综合知识考查、时事热点分析

画风“阴森”、迷雾重重、瀑布险崖……近期，一位抖音博主“勇闯哀牢山”的视频在网络走红，也让哀牢山再次走进公众视野，那么，哀牢山为什么被称为生命禁区？把这个问题抛给GLM-4-Plus，其从地形地貌、气候条件、生态系统及文化心理等角度进行了综合分析，看得出有一定知识储备，上演“大模型带你走近科学”。

2、语言理解与深度解析

提到文学，就离不开语言。随后，在考察语言理解与深度解析的过程中，我们选了之前让网上很火，被广泛应用在外国网友评论区并让其摸不着头脑的一个段子：“鱼片是死鱼片；等红灯是在等绿灯；咖啡因来自咖啡果；救火是在灭火；生前是死前；要你管=不要你管……”结果显示，GLM-4-Plus没有被绕进去，很好地get到了中文的博大精深，并进行逐个击破。

而在更考验中文功底和传统文化底蕴的红楼梦判词隐喻解析，以及《哀江南赋序》的用典考查中，GLM-4-Plus也可以有条不紊地按照逻辑链进行逐步拆解、分析，并有条理地综合输出。

看得出来，GLM-4-Plus对传统文化信手拈来，那么，作为其“亲兄弟”的图像/视频理解模型GLM-4V-Plus能否拆解传统文化中的视觉语言？恰逢电影《只此青绿》上映，我们把宣传片片段投喂给GLM-4V-Plus，让其描述视频内容。

结果显示，其不仅能够按照时间顺序描述预告片场景，且对人物、物品等要素的识别也非常到位。而对于画卷中“群山起伏，绿树成荫，山间云雾缭绕，给人以宁静、悠远感觉”等细节，GLM-4V-Plus也能按照要求“用古典美的语言”进行描述。

除了拆解视觉语言，我们继续上难度，询问“视频中出现三人一起跳舞的画面是第几秒”，GLM-4V-Plus能够准确理解并感知时间，精准地定位到事件发生的具体时间点。

3、逻辑推理与数学证明

当然，光语文好还不够，还得有逻辑、数学好，不偏科。随后，我们给出了即一个包含多个步骤和条件的逻辑推理谜题——“博物馆偷画难题”，要求GLM-4-Plus逐步推理并给出最终答案，结果显示，GLM-4-Plus能够在复杂的信息关系中找到正确的逻辑关系，并顺利地解出了逻辑难题。

而在勾股定理的证明中，GLM-4-Plus不仅给出了详细的证明步骤，还画图做出了分析。

最后，上一个曾经让很多大模型翻车的问题“9.24和9.8谁更大”，GLM-4-Plus也通过慢思考得出了正确答案，没有掉进陷阱。

4、代码理解与应用

而在代码理解与应用环节，我们先是提供了一段代码，要求GLM-4-Plus理解代码功能，智谱得出了“用于计算用户平均绩点”的准确结论；随后，再让其写个测试程序，也基本不在话下，可以解放一个程序员的双手：

不过，在实际应用中，据程序员群体反馈，大模型代码生成最有价值的地方，在于辅助完成BUG查找/修复，以及自动续写等工作，从而将其从繁琐的重复劳动中解放出来，专注于创造性工作。

正如沙利文联合头豹研究院发布报告的《2024年AI代码生成市场观测报告-里程碑》年度报告指出，AI代码生成工具尤其在代码测试与检查、代码标注等方面表现突出。

为此，我们投喂GLM-4-Plus一段有bug的代码，让其进行解释、修改，结果显示，GLM-4-Plus精准找出了bug位置，并进行了详细的解释及修改，有望在未来成为程序员群体的“啄木鸟”。

而在帮助程序员“补齐写了一半的作业”的自动补全环节，我们投喂给GLM-4-Plus一个残缺不全的Python脚本，运行目的是根据天气情况，发送提醒信息到控制台（例如，如果下雨，打印“记得带伞！”；如果温度超过30摄氏度，打印“天气炎热，穿轻便衣服！”等），要求GLM-4-Plus帮助我把代码补全：

结果显示，其基本流畅地补全了代码，并贴心地附注了说明。

最后，对于代码小白来说，也可以基于GLM-4-Plus一键写出自己的代码，例如，要求用GLM-4-Plus用JavaScript+CSS+HTML写一个贪吃蛇游戏，无需下载软件即可在网页上检测，并顺利跑通——或许大模型热潮下，“人人都是程序员”的时代真的要来了。

那么，除了写代码外，面对工作、生活中的写文章、做计划等任务，GLM-4-Plus的完成度和熟练程度如何？

5、工作、生活搭子

首先，让GLM-4-Plus替我工作，以自媒体博主身份写一篇《国庆假期结束后快速调整状态》的文章，从结果来看，结构清晰、文笔成熟，微调后就可以进行编辑发布了，让我在复工第一天顺利摸鱼：

既然不用工作了，那么就尽情畅想下次的出游吧！在「AI 婚纱照」火上各大平台热搜的当下，让CogView-3-Plus帮我生成一幅背景在卢浮宫的婚纱照，看得出来质感还不错，让人“身未动心已远”，已经开始期待下一个长假了。

不止如此，“双十一”提前大促的热潮竟然也蔓延到了大模型圈！最近两天，智谱还在开放平台上线了一个从10月1日起、为期一个月的“国庆特惠月”优惠活动，有很多花式优惠，如最高赠1亿Tokens、API调用最高打1折等等。

这让人感叹，大模型圈提前过双十一了——这是不是预示着智谱又率先打响了“第二波价格战”？而且是福利、资源包与降价齐飞的“花式乱斗”。

这让人感叹，第二波大模型价格战就这么水灵灵地来了——此前，在头部厂商纷纷响应的第一波价格战中，AI技术的门槛显著降低，使得更多中小企业、初创团队乃至个人开发者能够轻松接入并使用到顶尖的大模型服务，推动大模型在各个领域的广泛应用，如自然语言处理、图像识别、智能客服等，进而形成了更加丰富的应用场景和生态体系。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。