+关注

手机看

微信扫一扫，随时随地看

大模型是色盲吗？

赛博禅心

2025-01-16 18:14发布于广东

+关注

先说结论：

多数模型，是色盲

人的绝大多数信息，来源于视觉输入。

我们用眼睛去看朝阳，看皎月，看大漠孤烟，看碧海雄关。那么，当我们拍下美景，来和大模型去讨论的时候：大模型看到的，和我们一样吗？

或许，大模型看到的，和我们，并不一样。

于是就有了这个测试：大模型是色盲吗？

做体检的时候，大夫可能会拿出几张图，问你是什么数字，就像下面这种

这是石原氏色盲检测图，由多种颜色的圆点组成多个数字：色觉正常者可以正确区分，而色盲患者则会判断错误。

那么，当我们把这些测试图给到 AI，让他来看看。这里取了两张最经典的：一个是色盲看不出来数字（红绿色盲读错），一个是只有色盲才能看出来数字

测试 A

正常读数：74

红绿色盲：21

测试 B

正常读数：无数字

红绿色盲：5

被测试方，选了 4 家：

OpenAI 的 GPT-4o
Claude(Anthropic) 的 3.5 Sonnet，通过 Claude
Gemini(Google) 的 2.0 (exp-1206)
智谱的 GLM-4

Prompt 统一使用：图里有数字吗？如果有的话，是什么？

第一题

正常读数：74；红绿色盲：21

ChatGPT 的 GPT-4o，回答正确

Claude 的 3.5 Sonnet，有些色盲

Gemini 的 2.0 (exp-1206)，实锤红绿色盲

智谱的 GLM-4，回答正确

小结：OpenAI 和智谱的模型，在这个测试中，色觉正常。Gemini 是红绿色盲，Claude 不知道是什么色盲

第二题

正常读数：无数字；红绿色盲：5

ChatGPT 的 GPT-4o，回答出了一个 5，鉴定为半色盲

Claude 的 3.5 Sonnet，回答出了一个 5，鉴定为半色盲

Gemini 的 2.0 (exp-1206)，啥也不是

智谱的 GLM-4，回答正确

小结：在这个测试中，只有 GLM-4 回答正确。

得出结论　

先说结论：基于上面的色盲样本测试，智谱在视觉理解上比大多数模型都强。

	OpenAI	Claude	Gemini	智谱
测试 A	✅	❌	❌	✅
测试 B	❌	❌	❌	✅

难怪获得了白宫恐慌认证：《智谱：关于被美国商务部列入实体清单的声明》

然后，智谱在进实体清单当天，硬刚了一个对标 GPT-4o 的 realtime API，赋能硬件嘴巴和眼睛，且是有两分钟的记忆能力、能唱歌的端到端模型，应是当下国内最强。

理解模型 GLM-4V-Plus 也进行了全面升级（网页上的 GLM-4 在读图的时候，也是基于这个），支持了变分辨率功能，更省 token!（例如，224 * 224的分辨率下，输入的图像token数仅为原来的3%），同时支持4K超清图像和极致长宽比图像的无损识别。

当然，从开发者的角度，最值得吹嘘的还得是以下 4 种模型全免费：

语言模型 GLM-4-Flash
图像理解模型 GLM-4V-Flash
图像生成模型 CogView-3-Flash
视频生成模型 CogVideoX-Flash

在最后还得说，这个测试一点都不严谨，而且我们也应知道，模型和人看图的原理，就是不同，但很有意思：只有大模型对世界的观察，和我们一样，才能更好的服务于我们。

以及... 国内其他几家我也测了，结果并不理想。如果想知道结论，可拿文章里的图自来测，然后发到评论区。

查看原图 232K

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。