UC伯克利大学研究揭示:视觉语言AI模型竟然“视而不见”,装作理解图像却偷偷依赖文字猜测

想象你有一位朋友,声称自己精通艺术鉴赏,却总是在看画展时偷偷查阅介绍牌来回答你的问题。UC伯克利大学的研究团队最近发现,当今最先进的视觉语言AI模型正在做着类似的事情。这项由加州大学伯克利分校的Stephanie Fu、Tyler Bonnen、Devin Guillory和Trevor Darrell于2025年6月发表在arXiv上的突破性研究(论文编号:arXiv:2506.08008v1),就像是给AI界做了一次"视力检查",结果却发现这些号称能"看懂"图像的AI系统,实际上可能根本没有真正使用它们的"眼睛"。

这项研究的重要性就像发现了一个餐厅的大厨其实不会做菜,只是在重新包装外卖一样令人震惊。视觉语言模型(VLM)被誉为人工智能的未来,它们应该能像人类一样同时理解图像和文字,回答关于图片的复杂问题。从医疗诊断到自动驾驶,从教育助手到艺术分析,这些系统正在被广泛应用到我们生活的方方面面。然而,伯克利团队的发现表明,这些AI可能一直在"作弊"——它们虽然内置了强大的视觉处理系统,就像拥有一双敏锐的眼睛,但在实际工作时却选择闭上眼睛,主要依靠语言模型的"猜测"能力来回答问题。

研究团队选择了一个巧妙的研究角度。他们没有简单地测试这些AI在常规任务上的表现,而是像侦探一样,设计了一系列只需要"用眼看"就能解决的视觉任务,比如判断两个物体哪个离摄像头更近,或者在两张图片中找到对应的点。然后,他们做了一个关键的对比实验:一方面直接测试AI的视觉系统(就像直接询问AI的"眼睛"看到了什么),另一方面通过完整的视觉语言模型来回答同样的问题(就像让AI通过"大脑"来描述看到的内容)。

结果简直令人瞠目结舌。就像一个在视力测试中能清楚读出最小字母的人,到了实际生活中却表现得像个近视眼一样。AI的视觉系统本身表现优异,在深度估计任务中准确率高达88.7%,在艺术风格匹配中也能达到67.5%的准确率。然而,当这些强大的视觉能力需要通过语言模型来表达时,性能却急剧下降,许多任务的准确率跌至25%左右的随机猜测水平,就像抛硬币一样不靠谱。

更令人困惑的是,研究团队发现了一个颠覆性的现象:那些视觉能力最强的AI组件,在整合到完整系统后反而表现最差。这就好比最优秀的眼科医生在团队诊疗中却成了拖后腿的那个,完全违背了常理。传统上,研究人员一直认为提升视觉组件的能力就能改善整个系统的表现,就像给汽车换一个更强劲的引擎就能跑得更快一样。但这项研究表明,问题的根源并不在引擎,而在传动系统——AI系统无法有效地将视觉信息传递给语言处理部分。

为了验证这个发现,研究团队进行了更深入的"解剖"分析。他们发现,在整个AI系统的信息流动过程中,视觉信息并没有丢失或降解。就像水从山顶流向山脚的过程中,水质本身没有问题,但最终却没有被有效利用。更有趣的是,当他们给AI一个完全空白的图像(相当于蒙上眼睛)时,AI的回答模式几乎和看到真实图像时一模一样。这就像一个人无论你给他看什么图片,他的回答都是提前准备好的标准答案,根本没有真正"看"图片的内容。

这一发现对整个AI领域来说,就像发现了一个隐藏已久的秘密。长期以来,科学家们一直在努力提升AI的视觉识别能力,就像不断给一台相机换更好的镜头。但这项研究表明,真正的瓶颈可能在于AI系统的"大脑"——语言处理模块——根本不知道如何使用这些高质量的视觉信息。这不仅解释了为什么某些看似简单的视觉任务对AI来说却异常困难,也为未来的AI发展指明了新的方向。

一、视觉系统的"完美表演"与语言系统的"灾难性失误"

想象你正在观看一场奇特的表演:台上有两位演员,一位是技艺精湛的哑剧演员(视觉系统),另一位是能言善辞的讲解员(语言系统)。哑剧演员的表演完美无瑕,每个动作都精确地传达着故事情节,但讲解员却完全无视这些精彩的表演,自顾自地背诵着提前准备好的台词。这就是研究团队在当前最先进的AI系统中发现的令人震惊的现象。

研究人员选择了六个不同类型的视觉任务来进行这场"表演测试",每一个都像是专门设计的视力检查项目。第一个是深度估计任务,就像问AI:"这张照片里的桌子和书架,哪个离照相机更近?"这对人类来说轻而易举,我们的大脑能够自动处理空间信息。第二个是语义对应任务,相当于给AI看两张不同猫咪的照片,然后问:"第一只猫的左耳尖对应第二只猫的哪个部位?"这测试的是AI理解物体结构和相似性的能力。

第三个是物体功能对应任务,这个更加有趣。研究人员会给AI看一把茶壶的手柄,然后问它在另一张完全不同的图片中(比如一个水桶),哪个部位具有相似的功能。这就像问一个孩子:"茶壶的手柄用来抓握,那么这个工具箱上哪个部位也是用来抓握的?"第四个是低级匹配任务,测试AI能否在同一场景的不同照片中找到对应点,就像在白天和黄昏拍摄的同一建筑物照片中,找到同一扇窗户的位置。

第五个任务考验AI的艺术感知能力,给它看一幅画作,然后从两个选项中选择哪一幅与参考画作的风格更相似。最后一个是3D物体识别任务,就像玩"找不同"游戏一样,给AI看三到四个物体的图片,其中大部分是同一物体的不同角度,但有一个是完全不同的物体,需要AI找出这个"异类"。

当研究团队直接测试AI的视觉系统时,结果令人印象深刻。就像一位视力超群的神射手,AI的视觉组件在几乎所有任务上都表现出色。在深度估计任务中,使用DINOv2视觉系统的准确率达到了惊人的88.7%,远超人类的平均水平。在艺术风格匹配中,视觉系统也能达到67.5%的准确率,已经相当不错。即使是最具挑战性的语义对应任务,视觉系统也能维持在53.6%的准确率,虽然不算完美,但明显优于随机猜测。

然而,当同样的视觉信息需要通过完整的AI系统(包括语言处理部分)来回答时,情况发生了戏剧性的转变。就像那位技艺精湛的哑剧演员的表演被一位糟糕的翻译完全扭曲了。在深度估计任务中,完整系统的准确率骤降至65.3%,虽然仍然可用,但已经大幅下降。更糟糕的是,在语义对应任务中,准确率跌至22.5%,几乎和随机猜测无异。低级匹配任务的表现更是灾难性的,从视觉系统的81.9%暴跌至17%,这意味着AI系统在这个相对简单的任务上表现得比瞎猜还要糟糕。

这种巨大的差异就像一个人在眼科检查时能清楚地读出最后一行最小的字母,但在日常生活中却表现得像个严重近视患者。更令人困惑的是,不同视觉系统的排名在整合后完全颠倒了。DINOv2视觉系统本身是所有测试中的"学霸",在六个任务中的五个都排名第一,但当它被整合到完整的AI系统中时,却成了"差生",在所有任务中都没能排到第一名。

这个发现彻底颠覆了AI领域的传统认知。长期以来,研究人员一直相信"好的视觉系统等于好的视觉语言系统",就像相信"好的引擎等于好的汽车"一样理所当然。但这项研究表明,问题的根源可能根本不在于AI的"眼睛"有多好,而在于AI的"大脑"根本不知道如何解读眼睛看到的信息。这就像拥有世界上最先进的摄像设备,但操作员却不知道如何使用,只能凭感觉胡乱操作。

更有意思的是,研究团队还测试了其他几个知名的AI系统,包括InternVL、Phi-3-V和QwenVL。这些系统的视觉组件都经过了专门训练,专门为了与语言系统配合工作。然而,同样的现象依然存在:视觉系统单独工作时表现优秀,但一旦需要通过语言来表达,性能就大幅下降。这证明了这个问题不是某个特定系统的个例,而是整个行业面临的普遍挑战。

二、AI的"装模作样":蒙着眼睛也能答题的秘密

为了深入了解AI系统究竟在做什么,研究团队设计了一个巧妙的"盲测"实验,就像给AI蒙上眼睛,然后看它还能不能回答视觉问题。结果发现了一个令人震惊的秘密:AI在很大程度上根本没有在"看"图片,而是像一个经验丰富的考试作弊者,主要依靠对问题模式的记忆来给出答案。

想象你在参加一个选择题考试,但你完全没有看题目内容,而是凭借对出题老师习惯的了解来选择答案。如果这位老师总是喜欢把正确答案放在B选项,那么即使不看题目,你也能获得不错的成绩。AI系统似乎就在做类似的事情。当研究人员给AI展示完全空白的图像(相当于蒙上它的眼睛),然后问同样的视觉问题时,AI的回答模式几乎和看到真实图像时一模一样。

这个发现就像揭开了魔术师的把戏。在语义对应任务中,AI在看到真实图像时选择A、B、C、D选项的频率分别是40%、25%、20%、15%。当给它看空白图像时,这些比例变成了42%、23%、22%、13%,几乎没有变化。这种相似性不是巧合,而是AI系统内在偏好的体现。就像一个人在做选择题时,即使不知道正确答案,也会倾向于选择某些选项,AI也有自己的"偏好模式"。

在深度估计任务中,AI同样表现出了强烈的偏向性。当被问及两个物体哪个更靠近摄像头时,无论图像内容如何,AI都倾向于选择A选项(第一个物体)。这就像一个人在玩猜硬币游戏时,总是固执地猜"正面",即使连续十次都是反面,他还是会继续猜正面。这种偏向性来自于AI的语言处理模块,它在训练过程中可能接触到了某些模式,导致它在不确定时总是倾向于特定的答案。

更有趣的是,不同类型的任务表现出了不同的偏向模式。在艺术风格匹配任务中,AI强烈偏向于选择B选项(第二张图片),即使完全看不到图片内容。在3D物体识别任务中,AI则更喜欢选择A选项。这些偏向性就像每个人都有自己的小习惯一样,是AI系统"性格"的一部分,但它们与视觉信息处理毫无关系。

为了量化这种相似性,研究团队使用了一个叫做"总变差距离"的数学工具。简单来说,这个指标能够测量两个分布之间的差异程度,就像测量两个人在投票偏好上的相似程度。如果两个人的投票选择完全一致,距离为0;如果完全相反,距离为1。研究发现,AI看到真实图像和空白图像时的回答分布之间的距离通常在0.1-0.4之间,这意味着有60%-90%的相似性。这种高度相似性表明,AI的回答很大程度上与图像内容无关。

这个发现解释了为什么AI在某些看似简单的视觉任务上表现得如此糟糕。当一个系统主要依赖于预设的模式而不是真实的感知信息时,它就像一个色盲的人试图根据颜色来分类物品——即使他能记住一些规律(比如"苹果通常是红色的"),但在面对具体的分类任务时仍然会出错。

这种现象也揭示了当前AI训练方法的一个根本性问题。AI系统在训练过程中接触了大量的文本数据,其中包含了各种偏向性和模式。这些模式就像沉淀在AI"潜意识"中的习惯,在面对不确定情况时会自动浮现。当视觉信息无法被有效利用时,这些语言层面的偏向性就成为了AI决策的主要依据。

然而,这并不意味着AI完全无视视觉信息。在某些情况下,特别是当视觉信息非常明确和突出时,AI确实能够利用这些信息来调整自己的回答。但总体而言,视觉信息对AI决策的影响远远小于人们预期的程度。这就像一个人在做决定时,虽然会参考眼前的情况,但更多地是依赖于过往的经验和直觉。

三、深入AI内部:视觉信息的"失踪案"调查

为了找出视觉信息在AI系统中究竟发生了什么,研究团队开始了一场类似医学解剖的深入调查。他们想要确定:是视觉信息在传输过程中丢失了,还是AI的"大脑"根本不知道如何使用这些信息?这个问题的答案将决定未来AI改进的方向。

想象一下,AI系统就像一个复杂的工厂流水线。原材料(图像)首先进入视觉处理车间,被转换成各种"半成品"(特征表示)。然后这些半成品通过传送带(投影层)送到语言处理车间,最终被组装成"成品"(文字答案)。问题是:到底是哪个环节出了问题?是半成品在生产过程中变质了,传送带坏了,还是语言处理车间的工人不知道如何使用这些半成品?

研究团队采用了一种巧妙的"逐层检查"方法。他们在AI系统的每一个处理层次上都设置了"检查点",就像在工厂流水线的每个关键节点都安装监控摄像头。然后,他们在每个检查点都测试视觉信息的质量,看看这些信息是否还能用来解决原始的视觉任务。

令人惊讶的结果出现了:视觉信息在整个系统中几乎没有损失!就像一条清澈的溪流从山顶流向山脚,水质在整个过程中都保持着良好状态。在AI系统的32个处理层中,除了最后几层出现轻微下降外,视觉信息的质量基本保持稳定。这就好比半成品在传送带上运输时完好无损,传送带也没有故障,问题出在了最后的组装环节。

更具体地说,在语义对应任务中,视觉信息从系统的第1层到第28层都能维持53%左右的准确率,只有在最后几层才略有下降。在艺术风格匹配任务中,情况甚至更好——某些使用ImageNet预训练的视觉系统在经过语言处理的深层后,艺术风格识别能力不仅没有下降,反而有所提升,但最终的整体表现却只有53%。这就像一个人的理解能力在对话过程中越来越好,但最终说出的话却完全不相关。

这个发现指向了一个关键结论:问题不在于AI的"眼睛"或"传输系统",而在于AI的"决策机制"。视觉信息一直存在,而且质量良好,但AI系统在最终生成答案时却选择了忽略这些信息。这就像一个学生在考试时,所有的参考资料都摆在桌上,内容也都是相关的,但他却选择不看这些资料,而是凭感觉答题。

为了进一步验证这个假设,研究团队进行了"prompt tuning"实验,这相当于给AI提供更详细的"使用说明书"。他们在AI的输入中添加了一些可学习的"提示符",就像给一个不会使用新工具的工人提供详细的操作手册。这些提示符经过训练后,能够帮助AI更好地理解如何处理特定类型的任务。

然而,即使有了这些额外的"使用说明书",AI的表现改善也非常有限。在大多数任务中,准确率的提升只有5-10个百分点,远远不足以弥补与视觉系统直接评估之间的巨大差距。这就像给一个不会开车的人详细的驾驶手册,虽然有一定帮助,但仍然无法让他立即成为熟练的司机。

更重要的是,研究团队发现,即使增加更多的提示符(从1个增加到10个),性能改善也会快速达到饱和,出现递减效应。这表明问题的根源不在于"说明书不够详细",而是AI的基本"理解机制"存在缺陷。就像一个人如果缺乏基本的空间感知能力,无论给他多少关于方向的说明,他都难以准确导航。

这些发现collectively指向了一个重要结论:当前AI系统的瓶颈主要在于语言处理模块无法有效整合和利用视觉信息,而不是视觉信息本身的质量问题。这就像一个翻译问题——视觉系统说的是"视觉语言",语言系统说的是"文字语言",但两者之间缺乏有效的"翻译官"。

四、语言模型:视觉信息利用的最大瓶颈

经过前面的"侦查工作",研究团队把注意力聚焦到了真正的"嫌疑犯"——AI系统的语言处理模块。就像在一个团队项目中,如果最终成果不佳,问题可能出在团队协调上,而不是某个成员的个人能力。研究人员决定通过"分别训练"的方式来验证他们的假设:到底是谁在拖后腿?

想象一下,AI系统就像一个三人乐队:视觉系统是吉他手,投影层是贝斯手,语言模型是主唱。如果乐队的表演效果不好,是因为吉他手技术不行,贝斯手跟不上节拍,还是主唱不知道如何与乐器配合?为了找出答案,研究团队决定分别"培训"每个成员,看看谁的进步最大。

他们设计了一个公平的比较实验:给每个模块分配相同数量的"学习机会"(训练参数),然后在5000个样本上进行专门训练。这就像给乐队的每个成员相同的练习时间,然后看谁的进步最明显。结果令人震撼:在几乎所有任务中,训练语言模型带来的改善都是最显著的。

在语义对应任务中,单独训练视觉系统(吉他手)几乎没有带来改善,准确率从22.5%只提升到23%。训练投影层(贝斯手)的效果稍好一些,准确率提升到24%。但是当训练语言模型(主唱)时,准确率戏剧性地跃升到34%,虽然仍然不够理想,但改善幅度是其他方法的数倍。这就像发现主唱学会与乐器配合后,整个乐队的表演水平立即上了一个台阶。

在低级匹配任务中,这种差异更加明显。训练语言模型后,准确率从原来的17%提升到35%,几乎翻了一倍。而训练其他组件的效果都很微弱,几乎可以忽略不计。这个结果强烈暗示,问题的根源确实在于语言模型无法有效利用已有的视觉信息。

为了更深入地理解这个现象,研究团队进行了"注意力可视化"分析,这相当于用特殊的摄像技术来观察AI在"思考"时的大脑活动。他们发现了一个惊人的模式:在训练前,语言模型的注意力就像一个心不在焉的学生,虽然老师在黑板上画了重点内容,但学生的眼神却飘向窗外,完全没有关注关键信息。

具体来说,在对应匹配任务中,AI需要关注图片中标记的参考点(REF)和选择项(A、B、C、D)。但未经训练的AI的注意力分布非常分散,就像用手电筒照明时光束太散,无法聚焦在需要观察的细节上。然而,在对语言模型进行专门训练后,注意力模式发生了显著变化。AI开始像一个专注的侦探,把注意力精确地投向任务相关的关键区域。

这种注意力的改变主要集中在语言模型的第4-6层,这些层就像大脑的"视觉-语言协调中心"。在这些层中,训练后的AI显示出对参考点和选择项的强烈关注,注意力热点图显示出明亮的聚焦区域。这就像给一个散光的人配了合适的眼镜,突然间他能够清楚地看到之前模糊的细节。

有趣的是,单纯训练投影层或视觉系统并不能产生这种注意力集中效应。这进一步证实了语言模型在视觉信息整合中的核心作用。投影层就像一个翻译,负责把视觉"语言"转换成语言模型能理解的"方言",但即使翻译得再准确,如果语言模型不知道如何使用这些信息,最终结果仍然会很糟糕。

研究团队还发现了另一个有趣的现象:语言模型的训练不仅提高了任务表现,还显著改善了AI回答的"公平性"。还记得前面提到的AI的"作弊"行为吗?未经训练的AI总是偏向于选择某些选项,就像一个偏心的老师总是给某些学生高分。但经过语言模型训练后,AI的选择变得更加均衡和合理。

在深度估计任务中,未经训练的AI有强烈的A选项偏好,选择A的概率是60%,而选择B的概率只有40%。但经过语言模型训练后,这个比例变得更加平衡,接近真实数据中A和B选项的实际分布。这表明训练不仅教会了AI如何看,还教会了它如何公正地判断。

然而,研究团队也注意到了一个例外情况:在3D物体识别任务中,语言模型训练的改善效果相对有限。他们推测这可能有两个原因:首先,这个任务需要更抽象的视觉理解能力,不仅要识别局部特征,还要理解整体结构和三维关系,这超出了简单的注意力调整能够解决的范围。其次,他们使用的训练数据(ShapeNet渲染图)与测试数据(MOCHI基准)在视觉风格上有一定差异,就像用卡通画来训练,然后去测试真实照片的理解能力。

五、从"盲人摸象"到"明察秋毫":AI进化的可能路径

通过这项详尽的研究,伯克利团队就像给AI界做了一次全面的"健康体检",诊断结果既令人担忧又充满希望。担忧的是,当前被广泛应用的AI系统可能没有我们想象的那么"智能";希望的是,既然找到了病因,就有了对症下药的可能。

这个发现颠覆了AI领域长期以来的一个基本假设。就像人们一直认为要做出更美味的蛋糕,关键是要有更好的原料(视觉系统),但实际上问题可能出在厨师不知道如何使用这些优质原料(语言模型无法利用视觉信息)。这解释了为什么在过去几年中,尽管视觉识别技术突飞猛进,但视觉语言AI的某些能力似乎没有相应的提升。

研究结果对整个AI产业具有深远的影响。首先,它解释了为什么某些看似简单的视觉任务对AI来说却异常困难。比如,一个能够识别出图片中包含"猫"、"沙发"、"客厅"等元素的AI,却无法准确回答"猫在沙发的哪一边"这样的空间问题。这不是因为AI看不清楚这些物体,而是因为它不知道如何将空间关系信息转化为语言描述。

这个发现也解释了当前AI在实际应用中的一些"奇怪"表现。在医疗影像诊断中,AI有时能够发现非常细微的病变,但却无法准确描述病变的位置关系。在自动驾驶中,AI能够识别出路上的各种物体,但在处理复杂的空间关系判断时却可能出错。这些看似矛盾的表现,现在都有了合理的解释。

更重要的是,这项研究为AI的未来发展指明了新的方向。与其继续投入大量资源来改进已经相当优秀的视觉系统,研究人员应该更多地关注如何改善视觉信息与语言处理之间的"桥梁"。这就像修建一座桥梁,与其不断加强桥墩的质量,不如重点解决桥面的设计问题。

研究团队的实验表明,通过专门训练语言模型来更好地利用视觉信息,确实能够带来显著改善。虽然目前的改善幅度还不足以完全解决问题,但它证明了这个方向的可行性。这就像找到了正确的治疗方法,虽然还需要调整剂量和优化方案,但至少知道了努力的方向。

然而,这项研究也揭示了当前AI评估方法的局限性。长期以来,研究人员习惯于通过整体性能来评估AI系统,就像通过最终成绩来评估学生的学习状况。但这种方法可能掩盖了系统内部的真实问题。这项研究提出了一种新的评估范式:不仅要看AI能做什么,还要看它是如何做的,确保它真正在使用预期的能力,而不是在"作弊"。

这种新的评估方法对AI的安全性和可靠性具有重要意义。如果一个AI系统主要依赖于记忆模式而不是真实的感知能力,那么当它遇到与训练数据不同的新情况时,就可能出现不可预测的错误。这就像一个只会背地图而不会看路标的司机,在熟悉的路线上表现正常,但一旦遇到新路或临时改道,就可能迷失方向。

研究团队特别强调,他们的发现并不意味着当前的AI系统毫无价值。相反,这些系统在许多任务上仍然表现出色,特别是那些主要依赖于知识和推理的任务。问题在于,我们需要更清楚地了解这些系统的能力边界,避免在不适合的场景中过度依赖它们。

对于AI开发者来说,这项研究提供了宝贵的指导。在设计新的AI系统时,他们应该更多地关注视觉-语言整合机制的设计,而不是单纯追求更大的模型或更多的训练数据。这可能需要全新的架构设计和训练方法,但这种投入是值得的,因为它能够带来更可靠、更智能的AI系统。

对于AI用户来说,这项研究提醒我们在使用AI工具时要保持适当的谨慎,特别是在需要精确视觉判断的场景中。了解AI的真实能力和局限性,能够帮助我们更好地利用这些工具,同时避免潜在的风险。

最终,这项研究展示了科学研究的价值:通过深入细致的分析,揭示了表面现象背后的真实机制,为解决问题提供了科学依据。正如研究团队在论文中所说,语言确实为指定和评估视觉任务提供了强大的界面,但我们需要谨慎地使用这个界面,确保它真正反映了AI的视觉理解能力,而不是被语言层面的偏向性所误导。

这项突破性研究最终告诉我们:在AI的发展道路上,有时候最重要的不是走得更快,而是确保走在正确的方向上。通过深入理解AI系统的内在机制,我们才能构建出真正智能、可靠的人工智能系统,让它们成为人类更好的助手和伙伴。