这项由上海人工智能实验室、上海交通大学、香港中文大学、南京大学、同济大学、武汉大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.00814,感兴趣的读者可通过该编号查询完整论文。
有没有遇到过这样的场景:你和朋友聊天,聊着聊着,朋友突然开始说一些跟眼前照片完全不符的事情——明明照片里是个红色的苹果,他却越说越像在描述一个绿色的梨。这不是朋友在故意捣乱,而是因为说话太多,大脑里关于照片的印象被海量文字冲淡了。
现在的大型多模态AI模型,也就是那些既能看图又能说话的智能系统,正面临着同样的困境。这篇研究就是专门来解决这个问题的。研究团队把这个现象起了个形象的名字——"视觉信号稀释"(Visual Signal Dilution),并提出了一套叫做"持久视觉记忆"(Persistent Visual Memory,简称PVM)的解决方案。
一、AI为什么会在聊天时"忘掉"图片
要理解这个问题,得先明白这类AI的工作方式。现在最主流的多模态AI,比如Qwen3-VL这类模型,工作起来就像一个同时接收图片和文字的大脑。它先把图片翻译成一串数字符号(视觉tokens),然后把这些符号和文字符号混在一起,一个字一个字地往下生成回答。
关键问题在于,这个生成过程有一个内置的"注意力分配机制"。每次生成一个新字,模型都要回头看看之前所有的内容,然后决定哪些内容更重要。这就好比一个厨师在烹饪时需要不断回头翻阅食谱,但食谱越来越厚,前几页关于配料的说明就越来越容易被忽略。
研究团队用数学语言把这个问题描述得非常清晰。他们定义了一个叫"视觉注意力质量"(Visual Attention Mass)的指标,用来衡量模型在生成每个字时究竟给图片信息分配了多少注意力。分析发现,随着生成的文字越来越多,这个值会以一种非常规律的方式下降——下降的速度和生成文字数量成反比,专业上叫做O(t??)的衰减规律,通俗来说就是生成的字越多,图片信息越被稀释,稀释的速度还很稳定。
为什么会这样?核心原因是注意力机制的分母(即所谓的"配分函数")随着文字增多而不断膨胀。注意力的总量就像一块固定大小的蛋糕,文字每多一个字,就要切出一小块给它,图片那边能分到的就越来越少。图片的"地盘"是固定的(图片生成后不会再增加),但文字的"地盘"却在不断扩张,最终图片信息在这场"注意力争夺战"中彻底落败。
研究团队还进一步描述了这个失败过程的两个阶段。第一阶段是"幂律稀释阶段":文字一边生长,视觉注意力一边以可预测的速度被稀释,就像往一杯浓缩果汁里不断加水,颜色越来越淡。第二阶段更麻烦,叫做"高幅度饱和陷阱":虽然文字的增长最终会趋于稳定(毕竟模型有上下文长度限制),但此时文字占据的注意力已经比图片多了将近一百倍,系统陷入一种稳定的"低视觉注意均衡"状态——图片信息虽然还在,但已经微不足道,被彻底压制了。
为了验证这个理论,研究团队设计了一个非常聪明的实验,他们把它命名为"盲人画家"压力测试。具体做法是让Qwen3-VL-8B模型看一张图,然后要求它极其详细地用文字描述这张图,仿佛是在指导一个看不见图片的画家重新绘制,要求描述每一笔、每一缕头发、每一粒尘埃,写成一段无缝衔接的超长文字,直到达到token上限。这个设计的精妙之处在于,它强迫模型在每一步生成中都需要积极参考图片,而不是从一开始就转向纯文字推理,从而可以精确地观察视觉信号随时间衰减的全过程。
实验结果与理论完美吻合。在对数坐标图上,视觉注意力质量的衰减轨迹精确地贴合了理论预测的O(t??)曲线。更值得注意的是,这种衰减在模型的中间层(第8到27层)最为严重,而这些中间层恰恰是多模态推理最重要的区域——就像一家工厂的核心生产车间竟然是供应链最薄弱的地方。
研究团队还用另一个指标"文字对视觉比率"(TVR)来描述文字对图片的"碾压"程度。在实验中,这个比率在早期线性攀升,最终稳定在文字注意力是视觉注意力近两百倍的高位,完美印证了两阶段理论。
二、之前的修补方案为何适得其反
既然发现了这个问题,难道没有人想过解决吗?当然有。研究团队把已有的解决思路归类为"视觉注入"(Visual Injection)方法,并指出这类方法存在一个根本性的缺陷。
所谓视觉注入,就是在模型生成文字的过程中,定期把图片信息"强塞"回去。有的方法直接插入原始图片tokens,有的方法则把处理过的视觉特征融合进去。这听起来像是一个合理的补救措施,就好比给那杯越来越淡的果汁不断补充浓缩液。
然而问题在于,这种做法是直接打断模型正在进行的推理流程。现代AI模型在进行复杂推理时,需要在脑子里维持一条连贯的"思维链条",每一步都依赖前一步的推理状态。突然插入一段图片信息,相当于你正在解一道数学题,算到一半有人硬塞给你一张图片让你先看,然后再让你接着算。这种"串行干扰"会破坏逻辑一致性,尤其在需要精确推理的复杂任务中,代价非常高昂。
研究团队将这个困境描述为一种两难取舍:要么为了视觉准确性打断推理连贯性,要么为了推理连贯性牺牲视觉准确性。有没有一种方式可以两者兼得?
三、持久视觉记忆:开辟一条平行的"看图专线"
研究团队从对视觉稀释问题的分析中提炼出了两条关键洞见。第一条:既然主推理流会稀释视觉信号,就应该建立一条与主推理流结构上隔离的平行记忆通道。第二条:为了防止文字在配分函数中占主导,检索机制需要独立的注意力归一化,完全限定在视觉域之内。
顺着这两条洞见,PVM(持久视觉记忆)模块的设计思路自然浮现出来。
理解PVM的最好方式,是把它比作在一个图书馆里增设了一个专门的"图片档案查阅台"。原来的模型就像图书馆的主阅览室,书越来越多(文字越来越长),找旧照片就越来越难。PVM则在旁边专门开了一个小屋子,里面只放照片,有专职管理员(跨注意力机制),随时可以精准调取任何一张。主阅览室的工作照常进行,需要看图的时候只需向小屋子查询,两边互不干扰。
具体来说,PVM被作为一个并行分支插入到Transformer模块中,与原有的前馈网络(FFN)并排运行。在每个Transformer层处理时,信息流被分为两条路:原始的推理路径继续通过冻结的FFN进行推理,同时另一条"看图路径"启动PVM模块进行视觉检索。
PVM的计算分三步进行。第一步是"降维压缩":通过两个独立的可学习矩阵,分别把当前的文字隐状态和原始的视觉嵌入向量压缩到一个更小的潜在空间(维度从完整的模型维度d压缩到d',默认设为512)。这就像把一本厚厚的词典浓缩成一张精华索引卡,保留了核心语义,去掉了冗余信息。第二步是"潜在检索":在这个压缩空间中,以当前的文字状态为"查询"(Query),以压缩后的视觉特征为"键和值"(Keys and Values),执行一次跨注意力(Cross-Attention)操作,再接一个小型的前馈网络进行细化。关键在于,这个注意力操作的分母只对固定的视觉集合求和,完全隔绝了文字的干扰——图片检索台只认照片,不理会主阅览室的嘈杂。第三步是"复原投影":把检索到的潜在视觉特征通过一个上投影矩阵恢复到原始的高维空间,准备与主路径的输出合并。
合并的方式也经过精心设计。检索到的视觉信息通过一个"门控融合"机制注入主流,由一个可学习的标量参数λ控制注入的强度,初始值设为0,确保模型在训练初期不会被突然闯入的视觉信息干扰,可以稳定地热身。此外,还有一个"视觉静默掩码"(Visual Silencing Mask)的设计:这个注入操作只对文字tokens生效,对图片tokens本身不起作用,避免图片"自说自话"形成干扰性的自反馈回路。最终的输出是原始残差、FFN输出和PVM注入之和,整个输出形状与原始一致,可以无缝嵌入原有模型,不改变任何结构。
研究团队还对PVM的有效性进行了理论证明。在固定局部隐状态的假设下,PVM输出对序列长度t的偏导数为零,数学上严格证明了PVM的配分函数与文字历史长度解耦。这个假设虽然有局限性(真实推理中隐状态会随文字变化而漂移),但它精确地隔离了稀释问题的核心机制——配分函数的膨胀,从结构上证明PVM从根本上切断了这条稀释链路。
四、训练方式:两阶段打磨出精准的"看图侦探"
PVM模块设计好之后,还需要一套合理的训练策略让它真正学会"看图"。研究团队采用了两阶段训练流程,以Qwen3-VL-Instruct系列(4B和8B两个规模)作为骨干模型。
第一阶段叫做"视觉记忆对齐"(SFT阶段)。在这个阶段,模型的骨干网络被冻结,只有PVM模块和门控参数被允许训练。训练数据是从OpenMMReasoner-SFT-874K数据集中精心筛选出的52.6万条样本,筛选标准是视觉中心性和答案清晰度。这个阶段的目标是让PVM学会基本的语义映射——理解当文字在问某个视觉相关的问题时,应该去图片的哪个"档案"里查找对应信息。
第二阶段叫做"策略精炼"(GRPO阶段)。这里使用了一种叫做"群体相对策略优化"(Group Relative Policy Optimization)的强化学习方法,解冻语言模型主干(视觉编码器仍然冻结),让PVM和主干一起在复杂推理任务上接受进一步训练。训练数据是从MMK12、ThinkLite-VL-hard、ViRL39K、We-Math2.0-Pro等数据集中汇集的3600条高难度推理问题,每道题生成8条推理轨迹,只保留学习信号最强的样本。这个阶段的目标是让模型学会在真正需要精准视觉信息时主动调用PVM,而不仅仅依赖文字推理惯性。
值得一提的是PVM模块被插入的位置选择。根据视觉注意力分布分析(见第一章中的层级分析),研究团队将PVM模块注入8B模型的第8、16、24层,4B模型的第5、11、17层,这三个位置均匀覆盖了模型的浅、中、深三个区域,形成"跨步式全局覆盖"策略。这与另外两个对比策略形成鲜明差异:一种策略是只注入视觉注意力最高的层(第13、17、18层),另一种是只注入视觉注意力衰减最快的层(第14、19、22层)。实验证明,跨步均匀覆盖的效果最好,因为它确保了整个推理过程的每个深度都能持续接受视觉信号补充,而不是在某些深度"强化"之后其他深度仍然"断粮"。
整个PVM模块只引入了2792万个额外可训练参数,仅相当于8B模型总参数量的0.32%,可谓非常轻量级的改动。
五、实验结果:数字背后的真实突破
研究团队在八个多模态基准测试上对PVM进行了全面评测,覆盖通用多模态理解(MMMU、MMBench中英文版、MMStar、MMT-Bench)和数学科学推理(MathVerse、MathVision、AI2D)两大类别,每项测试取4次运行的平均准确率,推理温度设为0.7,统一使用lmms-eval评估框架确保公平对比。
对比的基准涵盖三类:内部基线(原版Qwen3-VL及其SFT、LoRA-SFT、RL增强变体)、视觉注入方法(MemVR、ICoT、CoMemo,均在相同的Qwen3-VL-8B骨干上重新实现)、以及当前领先的RL推理模型(Euclid-8B、PEARL-8B、OneThinker-8B)。
在8B规模上,仅经过SFT阶段训练的PVM模型(PVM-8B SFT)就达到了70.6%的总体准确率,超越了同等SFT基线的67.4%、LoRA-SFT的67.5%,也超过了MemVR(66.5%)和ICoT(68.3%)等视觉注入方法。经过GRPO第二阶段训练后,PVM-8B达到71.5%的总体准确率,相比原版Qwen3-VL-8B-Instruct(66.7%)提升了4.8个百分点,并超越了Euclid-8B(69.5%)和PEARL-8B(69.3%)等经过专门RL训练的强竞争者。
在数学和科学推理类任务上,提升尤为显著。MathVerse从52.9%提升至59.8%(+6.9个百分点),MathVision从45.4%提升至51.3%(+5.9个百分点),AI2D从79.8%提升至82.8%(+3.0个百分点)。这三项恰恰是最需要反复参考图表细节才能正确推理的任务类型,PVM在这里展现出最明显的优势,直接验证了其核心设计目标。
在4B规模上,PVM同样稳定地带来了4.4个百分点的总体提升(从64.0%提升至68.4%),证明这一方法并非只在大模型上有效,具有良好的规模普适性。
六、越长越见效:最扎心的那份验证数据
如果只看平均准确率,也许还不够直观。研究团队专门设计了一个按"输出长度"分组的分析实验,结果令人印象深刻。
他们把MathVerse测试集的样本按模型输出的token长度分成四组:极短(平均120个token)、短(195个token)、中等(390个token)和长(3247个token)。然后分别比较原始模型和PVM模型在四组上的表现差异。
在极短组,PVM带来6.1%的相对提升;短组提升7.3%;中等组提升17.0%;而在长组,原始模型准确率从基线的39.1%大幅下滑,而PVM模型则维持在49.8%,相对提升高达27.3%。
这组数据说明了一件非常清晰的事:推理链越长,视觉信号稀释越严重,PVM的价值就越大。这不是一个锦上添花的小改进,而是一个越到关键时刻越显重要的结构性保障。那些需要多步推理、反复参考图表的复杂问题,恰恰最受益于PVM的持续视觉记忆。
七、机制分析:PVM究竟在模型内部做了什么
测试性能提升之外,研究团队还想搞清楚PVM到底如何改变了模型的内部运作方式,而不只是简单地增加了参数容量。他们使用了一种叫"LogitLens"的分析技术,把模型每一层的中间表示投影到词汇空间,计算每层的预测与最终输出之间的KL散度(一种衡量"差距有多大"的指标),从而绘制出模型"预测收敛"的速度曲线。
直觉上的理解是这样的:一个理想的模型应该尽早在较浅的层就开始"知道答案",而不是直到最后一层才突然顿悟。越早收敛,说明信息处理越高效,感知到推理的过渡越顺畅。
实验仍然在"盲人画家"测试条件下进行,以确保高视觉依赖场景下的严格验证。结果显示,相比原始基线、Euclid-8B和CoMemo,PVM模型的KL散度曲线整体更低,下降更陡。从第8层(第一个PVM注入点)开始,就出现了一个显著的"改善差距",并随着层数加深而持续扩大。
这意味着什么?PVM有效地"短路"了模型的感知-推理过渡过程:通过将视觉检索任务外包给平行分支,主干得以更快地从"看图"状态过渡到"推理"状态,加速了内部预测的收敛。这不是靠参数容量的暴力堆砌,而是结构性地改善了信息流的效率。
为了进一步排除"参数容量增加"这个干扰因素,研究团队专门设计了一个"等参数MLP对照实验":他们构建了一个与PVM参数量完全相同的并行MLP模块,但去掉了视觉跨注意力机制,只能处理文字隐状态,无法检索原始视觉信号。这个对照模型使用完全相同的两阶段训练流程在相同数据上训练。结果,等参数MLP在全部8个测试集上均低于PVM-8B模型,整体准确率差距2.5个百分点(69.0% vs 71.5%)。这就铁板钉钉地证明:PVM的收益来自视觉检索机制本身,而不是多出来的那些参数。
八、消融实验:每一个设计选择都有根据
除了上述主要分析,研究团队还做了一系列细致的消融实验,验证每个设计决策的必要性。
关于检索来源的消融实验非常说明问题。如果把PVM的K和V(即跨注意力中的"档案键值对")从原始视觉嵌入替换为当前的处理过的隐状态(即让PVM去检索文字处理后的混合状态,而非原始图片信息),模型在MathVerse、MathVision、AI2D三项测试上的得分出现灾难性坍塌,从基线的(52.9, 45.4, 79.8)跌至(27.9, 14.1, 58.2),平均分从59.4直接跌到33.4。这个结果揭示了一个深刻的道理:如果检索的是已经被文字"污染"的混合状态,就等于把文字主导的噪声再次注回系统,形成破坏性的自反馈回路。PVM的价值正是在于始终锚定原始、未经污染的视觉信号。
关于潜在维度大小的消融实验也得出了有趣结论。研究团队测试了d'=512、1024、2048三个配置,发现512效果最好(70.6%),更大的维度反而略微下滑(1024对应69.2%,2048对应69.8%)。研究团队将此归因于"数据容量失配"——更大的参数空间需要更多的训练数据才能被充分激活,在当前规模的数据集下,扩大维度更多引入了优化困难或对噪声的过拟合,而非真正带来更强的视觉表达能力。
关于推理开销的实测数据则令人放心:PVM的加入使每个输出token的生成时间从24.28毫秒增加到25.46毫秒,仅多了1.18毫秒,吞吐量从41.18 tokens/s降至39.28 tokens/s,降幅4.61%。对于4.8个百分点的准确率提升来说,这个计算代价几乎可以忽略不计。
说到底,这项研究做的事情听起来不复杂,却触及了多模态AI一个长期被忽视的结构性弱点。那些每天被我们用来解读图表、分析医学影像、辅助教学的AI助手,其实都在悄悄地"忘记"你给它看的图——推理越深入,图的印象就越模糊。研究团队的贡献在于,他们不只是发现了这个问题,还用清晰的数学语言描述了它发生的机制,并设计出了一个轻量、精准、不干扰原有推理流的解法。
一个轻巧的"图片档案查阅台",插在了AI大脑的关键节点,随时准备被调用。不打断正在进行的推理,只是安静地站在旁边,在最需要的时候递上那张图片。
这提醒我们,AI的进步有时不需要整体推倒重来,而只需要在正确的地方做一个结构性的小调整。感兴趣的读者可以通过arXiv编号2605.00814查阅完整论文,代码也已在论文中提到的GitHub仓库开放。
Q&A
Q1:视觉信号稀释问题是什么,为什么多模态AI会出现这个问题?
A:视觉信号稀释是指多模态AI在生成较长文字时,图片信息越来越被忽视的现象。原因在于注意力机制的工作方式:每次生成新字都要分配有限的"注意力"给所有已有内容,文字不断增多就占据越来越大的份额,而图片内容固定不变,最终被文字淹没。这个稀释速度遵循数学上的O(t??)规律,即生成字数越多,图片获得的注意力越少。
Q2:PVM(持久视觉记忆)与之前的视觉注入方法有什么本质区别?
A:主要区别在于是否打断推理流程。之前的视觉注入方法会把图片信息直接塞回正在运行的推理链条中,干扰模型的逻辑推理状态,尤其在复杂多步推理时会降低准确性。PVM则作为一个平行的独立分支运行,它有自己专属的注意力机制,只对视觉信号进行计算,完全不影响主推理路径,相当于给图片检索开了一条专属通道,两边互不干扰。
Q3:PVM在推理速度上的代价有多大,值不值得用?
A:代价非常小。实测数据显示,加入PVM后每个token的生成时间仅增加约1.18毫秒,整体吞吐量下降约4.6%。而带来的收益是Qwen3-VL-8B模型在八个基准测试上平均准确率提升4.8个百分点,在长推理链条任务上最高提升27.3%。考虑到PVM仅增加了约2792万参数(占8B模型的0.32%),这个性价比相当高。