我用8道变态烧脑题,测出了o1的国内最强平替

我本来以为今年的模型考核就到这儿了,没想到老朋友智谱在 2024 年最后一天又整活儿了,突然就发布了 GLM 系列的类 o1 模型——GLM-Zero-Preview

图片

而且,还是保持一如既往的作风,一发布就可以调用 API,而且在网页端和 APP 端都可以免费用,非常有诚意。

但,这也不能成为逃脱咱们号无情 case 突突的理由。

但凡是被咱们逮住的重要模型发布,是骡子是马,必须要出来按咱们号的规矩遛一遛。

老规矩,先看下 GLM-Zero-Preview 的榜单表现——

图片

一言以蔽之,在数学(AIME2024、MATH500)、代码(LiveCodeBench)的测试基准上,以显著的优势超越 o1-preview,而在知识推理(GPQA Diamond)、逻辑推理(Zebra Logic)的测试基准上,看起来不如 o1-preview。

GLM-Zero-Preview 传送门:
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh

见智谱清言网页版左侧的「Zero 推理模型」智能体;APP 端和智谱 API 开放平台也有。

这次评测与以往咱们评测阿里 QVQ、Kimi 视觉思考、上海 AI Lab 书生、Deepseek R1 等其他类 o1 国产模型时均不一样——

本次评测,不止上了难度,还增加了变态级的烧脑推理题

有多变态呢,我一道题能钻半个小时后崩溃的那种。

咱们都知道,类 o1 模型最牛逼的地方就在于推理,推理不行,肯定干啥啥不行。在之前的测试中,我追求的更多是数学、编程和图形推理。就在最近,我从知乎上还有独家渠道找到了不少非常适合测试类 o1 模型文字层面深度推理能力的题目。

来,先抛一个你们感受一下!

题目 1:世间最强的毒药

在很远很远的地方,有一个出产各种毒药的国家。不过,那里的物理法则和我们有些不一样。在这个国家,如果有人喝下了致命的毒药,那么他只要在毒性完全发作前喝下另一瓶毒性更强的毒药,就可以让两种毒药的药性中和。注意,一定是要毒性更强的毒药才能作为解药!

正因为存在着这样的物理法则,这个国家的国王迫切地想要得到全世界毒性最强的毒药。这样一来,他就再也不用担心别人对他下毒了。因为如果有人对他下毒的话,他只要马上喝下这种最强毒药就可以了。既然是最强的毒药,那么当然可以中和一切其他毒药。

为了搞到这种毒药,国王想了一个点子。他给自己的御医和宰相下了命令,让他们一个月后各自带着自己弄到的最毒的毒药到王宫来。然后,他们每个人要先喝下对方的毒药,然后再喝下自己带来的毒药。这样一来,带来的毒药较强的那个人会平安无事,毒药较弱的那个人则会当场死亡。

国王觉得自己简直是太聪明了。因为事关自己的性命,宰相和御医都一定会拼命找到最毒的毒药带到王宫里来。

宰相和御医接到这么一个倒霉的任务,也没有办法,只好抓紧时间去弄毒药。在接下来的一个月里,宰相在全国四处奔波,高价收购各种毒药,然后挑出了其中最毒的一种。但在进王宫的前一天晚上,宰相越想越不对劲。全国制毒水平最高的人当然非御医莫属,自己在市场上买来的毒药,怎么可能有御医调制出来的毒药强呢?

想到这里,宰相感到无比地绝望,他明天是死定了。但在半夜的时候,宰相突然想到了一个巧妙的方法可以让自己赢得明天的对决。在这之后,他满意地睡觉去了。

与此同时,御医也在做着最后的准备。他非常自信自己调制出来的一定是全国毒性最强的毒药。但就在他准备上床睡觉的时候,他也突然觉得不对劲。宰相难道不知道自己调制出来的毒药一定比他的强吗?那个老滑头怎么可能这么轻易就被自己毒死?对方一定会采取其他的对策。御医想啊想啊,终于在半夜想到了宰相的策略。然后,他根据猜到的宰相的策略,拟定了自己的对策。接着,他也忐忑不安地去睡觉了。

第二天,宰相和御医都来到了王宫里。按照国王的命令,他们都喝下了对方带来的毒药,然后喝下了自己的毒药。不一会后,宰相倒在地上死了,而御医则平安无事。不过,国王最后并没有真正得到他想要的东西。

请问,究竟发生了什么事呢?

先吹一波,这道题,智商高达 250 的我,成功推测出来了答案。

如果你也做对了,欢迎在评论区抢首发!

先来看看本文期待值拉的最高的主角智谱GLM-Zero-Preview 的答案——

图片

啊这,第一个题目就翻车了?这答案明显不对啊。

再来看看 o1 的回答——

图片

蛤,没想到 o1 也翻车了,看来我的智商是在 o1 之上的。

继续,Kimi视觉思考版——

图片

同样翻车了。

Deepseek R1 我也试了下,最后也没答对。

图片

篇幅所限,其他几个前文提到的国内模型就先不测了,以免本文过长。本文剩余题目默认评测o1、智谱Zero、Kimi视觉思考和Deepseek R1,加测过其他AI的小伙伴可以把它的回答打到评论区!

好吧,AI 集体阵亡。现在你知道本文测试有多变态了吧。

为了能更好的区分出 AI 的推理能力,我决定降一降难度。

下面这道题,五年级小学生都能做出来。

题目 2:银行金库里的小偷

有一个小偷费劲力气进入到了银行的金库里。在金库里他找到了一百个箱子,每一个箱子里都装满了金币。不过,只有一个箱子里装的是真的金币,剩下的 99 个箱子里都是假的。真假金币的外形和质感完全一样,任何人都无法通过肉眼分辨出来。它们只有一个区别:真金币每一个重量为 101 克,而假金币的重量是 100 克。在金库里有一个电子秤,它可以准确地测量出任何物品的重量,精确到克。但很不幸的是,这个电子秤和银行的报警系统相连接,只要被使用一次就会立刻失效。请问,小偷怎么做才能只使用一次电子秤就找到装着真金币的箱子呢?

看到这道题的时候,我甚至觉得在小学还是初中的奥数题上看到过。

来看看智谱的回答——

图片

果然做对了。

o1:

图片

同样做对了。

Kimi:

图片

做对 +1。

Deepseek:

图片

这道题竟然全都做对了。

我甚至有点怀疑他们是不是做过小学奥数题训练,可能训练阶段已经见过这道题了。

再来一道!

题目 3:池塘取水

假设有一个池塘,里面有无穷多的水。现有 2 个空水壶,容积分别为 5 升和 6 升。问题是如何只用这 2 个水壶从池塘里取得 3 升的水。

先来看看智谱:

图片

看起来这道题对智谱来说毫无压力,解题过程也非常干净。

o1:

图片

o1 也不出意外,没有难倒它。

嗯?这道题太简单了?

Kimi:

图片

kimi 在尝试了 8 种方法后,最后错了。

看来这道题也不简单。

再来看看 Deepseek:

图片

竟然跟 kimi 犯了类似的错误,答错了。

本题目智谱和 o1 打平!其余 AI 出局。

看完这 3 道题,我相信很多人已经扛不住了,CPU 要烧了。

下面安排一道“轻松愉快”的编程题休息一下。

题目 4:编程,画一只狗头

你的女朋友想要一张像素画的狗头作为惊喜。你需要编写一个 Python 程序,命令行中绘制出这个狗头。注意,不允许直接通过连续 print 图形行字符串或事件将图形存到变量里的方式实现。

智谱版代码:

图片

来看看智谱画的狗头:

图片

有点抽象啊...中间这一长条是舌头还是哈喇子?

o1:

运行一下——

图片

o1 你这更抽象了,还不如智谱画的呢。

Deepseek:

图片

运行一下——

图片

好吧,论抽象,还得是 deepseek,但我盯着看的时间多了之后,竟然真觉得有点像狗?

都不太满意,最后寄希望于 kimi 哥了。

Kimi:

kimi 中间经过了 N 多个版本的在线调试——

运行一下——

图片

这是狗头?有点过于妖娆了吧...

kimi 哥哥啊,莫非你理解成了狗头萝莉

题目 5:奥数题

还记得前几天测评 Deepseek v3 的时候吗,上了一道北大与阿里联合打造得国产版奥数题,来自 Omni-MATH,这道题难度更大,把 Deepseek v3 都难哭了。

Define the sequences by

1) If , find the value of ; 2) If , determine which is larger between and .


先来看看老大哥 o1 能否做对——

图片

o1 答对了!接下来压力给到国产模型——

智谱:

牛!智谱果然没有让我失望,竟然也做对了。

再来看看 Deepseek:

做对了 +1。

最后压力给到 Kimi:

Kimi 不幸没有扛住压力,做错了。

我开始有点相信智谱的 GLM-Zero-Preview 不是在吹了。

再来一道绝对不会出现在奥数题上的烧脑推理——

题目 6:卖水的最大利润

有一人有 240 公斤水,他想运往干旱地区赚钱。他每次最多携带 60 公斤,并且每前进一公里须耗水 1 公斤(均匀耗水)。假设水的价格在出发地为 0,以后,与运输路程成正比,(即在 10 公里处为 10 元/公斤,在 20 公里处为 20 元/公斤......),又假设他必须安全返回,请问,他最多可赚多少钱?

剧透答案:f(x)=(60-2x)*x,当 x=15 时,有最大值 450, 450×4 次=1800 元;另外,需要证明的是,每次运 60 公斤水是最优的。

是不是看答案觉得很简单?

先来看看 o1:

图片

o1 都做错了,别小瞧这道题的难度。

下面机会给到国产代表队——

智谱:

图片

诶,不得不说,在这种烧脑数学题上,我发现智谱的表现确实很稳。

继续,压力给到 kimi:

图片

这次 kimi 扛住了压力。

来,最后让 Deepseek 再来羞辱一番 o1——

蛤,竟然翻车了。

上一道题,kimi 翻车,deepseek 扛住压力;这道题反过来了。只有智谱表现稳如老狗。

但不管怎么说,能感知到,国产类 o1 模型与 o1 的差距正在肉眼可见的缩小。

下面这道题,不是一道传统的数学推理,而是细思极恐的悬疑推理——

题目 7:红衣女孩

我们小镇上流传着这样一个传说:午夜 12 点,到任何一条小巷里去,就可以看到一个红衣小女孩背对着你。我是一个天生就对鬼神有着浓厚兴趣的人。当天晚上 12 点,我准时到了小巷,一眼就望到了那个红色衣服的小女孩。我大喜过望,准备明天叫朋友李某过来看,吓吓她。第二天晚上 12 点,我和李某准时到了同一条小巷,可是却没看到小女孩。突然我想到了什么,丢下她一个人跑了。

我为什么跑了?

先来看看 o1 的回答——

图片

哈?这就离谱了,你说我保护自己就罢了,你还说我跑路是为了保护朋友...

再来看看国产队——

智谱:

图片

智谱的回答没有 o1 那么离谱,但也显然不对。

再来看看 Kimi:

图片

不是,kimi 哥你是不是听到了 o1 的回答的精髓,所以直接非常了当的给出了“为了保护她,我选择先跑开”。

建议将来找 AI 女友的时候得多练练...

再来看看 Deepseek:

图片

Deepseek 的回答跟 o1 很像,也说是为了保护自己或朋友。

总之,通过本题来看,AI 完全不懂啥叫细思极恐,在这种超自然的恐怖推理上,AI 的推理深度都非常浅,甚至变得离谱。也难怪,毕竟 AI 没有情绪,真有个鬼站身边也不知道害怕的。

话说回来,知道本题答案的小伙伴,记得评论区抢首发!

最后,用一道我们测评以来的最刁钻题目来结束本文评测,让 AI 们也体验一把玩狼人杀的快乐。

题目 8:谁是养猫的人

5 个人来自不同地方,住不同房子,养不同动物,吸不同牌子香烟,喝不同饮料,喜欢不同食物。根据以下线索确定谁是养猫的人。

1. 红房子在蓝房子的右边,白房子的左边(不一定紧邻)

2. 黄房子的主人来自香港,而且他的房子不在最左边。

3. 爱吃比萨的人住在爱喝矿泉水的人的隔壁。

4. 来自北京的人爱喝茅台,住在来自上海的人的隔壁。

5. 吸希尔顿香烟的人住在养马人的右边隔壁。

6. 爱喝啤酒的人也爱吃鸡。

7. 绿房子的人养狗。

8. 爱吃面条的人住在养蛇人的隔壁。

9. 来自天津的人的邻居(紧邻)一个爱吃牛肉,另一个来自成都。

10.养鱼的人住在最右边的房子里。

11.吸万宝路香烟的人住在吸希尔顿香烟的人和吸“555”香烟的人的中间(紧邻)

12.红房子的人爱喝茶。

13.爱喝葡萄酒的人住在爱吃豆腐的人的右边隔壁。

14.吸红塔山香烟的人既不住在吸健牌香烟的人的隔壁,也不与来自上海的人相邻。

15.来自上海的人住在左数第二间房子里。

16.爱喝矿泉水的人住在最中间的房子里。

17.爱吃面条的人也爱喝葡萄酒。

18.吸“555”香烟的人比吸希尔顿香烟的人住的靠右

为了避免你们看懵,这道题我就不藏答案了,先摆出来答案:

第一间是蓝房子,住北京人,养马,抽健牌香烟,喝茅台,吃豆腐;第二间是绿房子,住上海人,养狗,抽希尔顿,喝葡萄酒,吃面条第三间是黄房子,住香港人,养蛇,抽万宝路,喝矿泉水,吃牛肉第四间是红房子,住天津人,抽 555,喝茶,吃比萨;第五间是白房子,住成都人,养鱼,抽红塔山,喝啤酒,吃鸡。

我觉得这道题,不会有 AI 做对了,算是给他们一个集体的下马威吧,督促它们好好修炼,别骄傲。

先看看 o1:

图片

看吧,果然强如 o1 也稳稳做错了。

再来看看智谱:

图片

我没看错吧,竟然推理对了!

图片

果然,推理打榜分数不能说明一切。虽然在逻辑推理测试基准上,智谱自称自己不如 o1-preview,结果在这道我觉得不会有 AI 搞定的题上,智谱竟然直接干过了 o1。

再来看看其他国产 AI 能否创造奇迹。

kimi:

白搭了。

加油啊,压抽出场的 Deepseek:

图片

蛤?这个回答我也是没想到的——

Deepseek 竟然直接弃赛了,好歹你蒙一个呀,万一蒙对了呢...

我觉得测到这里,迄今为止的 o1 国内最强平替,答案也很清晰了。

对于没有出现在本文测试中的 AI,欢迎小伙伴测完后将其战绩补充到评论区!

这 8 道变态烧脑题,虽然不具备统计显著性,但可以很直观的让大家感受到 AI 整体的擅长领域和知识盲区。

推理的概念很大,不仅局限于数学、编程等,像本文提到的“红衣女孩”这种玄学推理问题,这类题目我实测了很多道,发现 AI 全部集体阵亡。AI 还有很长的路要走。

不过,今年下半年以来,类 o1 的国产 AI 进步速度整体上确实超出我预期了。

上海 AI Lab 书生 InternThinker、Deepseek R1、Kimi 视觉思考、阿里 QVQ 相继发布,而年底最后一天祭出的智谱 GLM-Zero-Preview,实属压轴王炸,给国产类 o1 模型的 24 年答卷画上了漂亮的句点。

AI 圈子很流行一句话,OpenAI 是不断的拉高人们对于 AI 的想象,而国产 AI,则是率先把这个想象落地到现实中来。

最后,愿每一个在夕小瑶公众号里陪伴着我们的家人:

新年快乐!

25 年,我们与各大明星 AI 厂商继续加油,一起见证 AGI 的降临!

图片