这项由东北大学与亚马逊AGI联合开展的研究,于2026年4月以预印本形式发布,论文编号为arXiv:2604.19945。研究的核心目标是让多模态大语言模型(也就是那些既能读文字又能看图片的AI系统)真正学会主动使用视觉工具,像人类一样通过"动手操作图片"来解决复杂的视觉推理问题。
当你拿到一张倒置的地图,大多数人不会对着倒置的地图硬想,而是会自然地把地图转过来再看。当你试图辨认一张模糊远景照片中的路牌文字,你会本能地拿起手机放大那个区域。人类处理视觉信息的方式,天然就包含"操纵图像"这个动作——旋转、放大、标注,这些都是我们思考过程的一部分。
然而,现有的AI视觉模型面对这类问题时,往往只会"干瞪眼"——盯着原图拼命用文字推理,而不会主动调整图像来获取更清晰的信息。研究团队把这个问题称为"视觉推理的盲区":AI模型擅长用文字思考,却不擅长用图像思考。这篇论文提出的ToolsRL框架,正是为了填补这个盲区。
一、AI为什么不会"动手"?
要理解这项研究解决的问题,先来看看一个典型的困境。假设AI被问到"这张发票上倒置的文字写的是什么",对于一个只会文字推理的AI来说,它无法旋转图片,只能对着颠倒的文字强行猜测,结果往往错得离谱。又比如问"这张高分辨率地图中,桥的中间部分有几辆红色汽车从左下角开往右上角",AI看着一张密密麻麻的全景图,根本无法分辨细节。
工具调用本来是解决这类问题的理想方案——给AI配备放大镜、旋转功能、标注笔,让它像人类一样主动操作图像。问题是,怎么教会AI什么时候该用工具、用哪个工具、怎么用工具?
目前主流的训练方法有两种路线,各有各的麻烦。第一种叫"监督微调"(SFT),简单说就是给AI看大量人类专家操作工具的示范录像,让AI模仿。这种方法的问题就像让学徒只靠看师傅表演来学艺——需要大量高质量的示范数据,收集成本极高,而且AI容易死记硬背,换个场景就不灵了。第二种是"强化学习"(RL),让AI自己探索,做对了给奖励,做错了扣分。这种方法更灵活,但现有的奖励机制太过粗糙——要么只看最终答对没有,要么只要AI用了工具就给奖励,根本不管用没用对、用没用好。结果就是AI要么根本不愿意用工具,要么乱用一气。
研究团队统计发现,现有的强化学习方法训练出来的AI,平均每个问题用工具不超过一次,而且很多时候工具调用根本没有帮到解题,甚至有AI学会了"先给出答案,再假模假式调用一次工具"这种投机取巧的作弊行为。
二、"先学开车,再学赛车":ToolsRL的两阶段训练逻辑
这项研究提出的解决方案叫做ToolsRL(工具监督强化学习),核心思路可以用一个简单的比喻来理解:教人开赛车,你不会一上来就让新手上赛道,而是先在练习场练习基本操控——油门、刹车、方向盘——掌握了之后再进赛场比速度。ToolsRL的两阶段训练课程正是这个逻辑。
第一阶段叫"工具掌握阶段"。在这个阶段,AI面对的不是"你能不能答对这道题"的压力,而只专注于一件事:学会正确地使用工具。研究团队为每种工具都准备了专门的训练任务和专门的评分标准。比如练习放大镜工具,AI的任务就是"在这张图里找到题目提到的热狗,用放大镜准确框住它",评分标准就是看框的位置准不准,答不答得出题目完全不重要。练习旋转工具,AI的任务就是"把这张被随机翻转的文件转回正确方向",答对哪个角度才是重点,文件内容写了什么不在考核范围内。
第二阶段叫"任务准确阶段"。此时AI已经掌握了工具的基本用法,训练切换到正常的问答模式——给一道视觉问题,答对了给奖励,答错了扣分。关键在于,这时AI可以自由调用已经掌握的工具,而且它已经知道怎么用工具,所以会自然而然地在推理过程中调动工具来帮助自己。
为什么要分两阶段,而不是直接把工具奖励和答题奖励混在一起训练?研究团队做了实验,发现如果把两种任务混在一起,AI会陷入一种"两头不讨好"的困境:答题目标驱动AI走捷径,而捷径往往是直接用文字猜答案,因为学习怎么用工具反而会让短期得分下降,最终AI就放弃了工具学习,退化成一个只会文字推理的模型。分阶段的好处在于,第一阶段的目标足够单纯,AI没有"逃避工具学习"的动机,只能老老实实把每种工具练熟。
三、专为视觉操作设计的五种"侦探工具"
ToolsRL配备了五种核心视觉工具,每一种都针对一类具体的视觉推理难题,而且每种工具的训练数据都相对容易获取,这是这套框架能够实际落地的重要原因之一。
放大镜工具(Zoom-in)的功能是裁切并放大图像的指定区域。训练数据来自那些本身就带有物体位置标注的数据集——研究团队利用这些现成的标注框作为"正确答案",教AI学会把放大镜对准正确的位置。评分时使用了一个专门设计的指标,叫做ModF1(改良F1分数)。这个指标的特别之处在于,它对"框小了、漏掉目标"的惩罚远重于"框大了、包含多余背景"的惩罚,因为放大镜宁可框大一点包住目标,也不能把目标框出去。具体参数设置是:漏框惩罚权重为1.0,多框惩罚权重仅为0.1。
旋转与翻转工具(Rotate/Flip)能把图像旋转90度、180度、270度,或者水平、垂直翻转。训练方式非常直接:研究团队对正常图像进行随机旋转或翻转,记录下变换方式,然后让AI学会把图像还原到正确方向。评分就是一个简单的对错判断——转对了得1分,转错了得0分。值得一提的是,训练时只使用了经过变换的图像,刻意排除了原始正常图像。原因是如果训练集里混有大量正常图像,AI会发现一个捷径:直接预测"不需要旋转"往往就能得分,因为正常图像更多,这样AI就学不会真正检测和纠正图像方向了。
画线与标点工具(Draw Line/Point)能在图像上叠加水平线、垂直线,或者在指定位置标注点。这种工具主要用于图表理解类任务——比如在折线图上画一条水平线来读出某个数据点的Y轴数值,或者在散点图上标出满足条件的点。训练数据是研究团队自己生成的合成图表,坐标精确已知。评分使用了一个基于距离的连续得分公式:预测位置与正确位置完全重合得满分,越偏越低,偏差超过容忍范围则得零分。这种连续评分比简单的对错二元判断好学得多,因为它给了AI"快接近了,再调整一下"的信号。
四、巧妙的双重奖励机制:全局探索与精准收敛的平衡
在工具掌握阶段,研究团队设计了两种相互补充的奖励信号,而不是单一奖励,目的是在"鼓励大胆探索"和"引导精准使用"之间找到平衡。
第一种叫"全局工具奖励",它关注整个推理过程中所有工具调用里表现最好的那一次。换句话说,只要AI在某一步用工具用得特别准,即使其他步骤有些混乱,这一步的成功也会被记入奖励。这种奖励鼓励AI积极尝试不同的工具调用方式,不怕试错,有助于在训练早期建立起工具使用的多样性。
第二种叫"答案关联工具奖励",它只评估AI在给出最终答案时所参考的那张图像上的工具调用质量。也就是说,如果AI最终回答"这张图上有1辆红色汽车",那么评分时只看AI是否在用来得出这个答案的那张图上正确地使用了工具,而不管它在其他步骤里乱用了多少次工具。这种奖励惩罚"乱用工具凑步数"的行为,促使AI只调用真正对答题有帮助的工具。
最终的第一阶段奖励是这两种奖励各占一半的平均值,再加上一个格式奖励(确保AI输出的格式符合规范)。研究团队发现,单独只用全局奖励,AI会养成疯狂调用工具的习惯,动辄七八次工具调用却多数无效;单独只用答案关联奖励,AI又会变得过于保守,不敢探索;两者结合才达到了合理的工具使用频率和质量。
五、实验数据证明了什么?从三个维度看ToolsRL的实力
研究团队在三个大类任务上系统评测了ToolsRL,对比的竞争对手包括Qwen2.5-VL-7B基础模型、DeepEyes、Mini-o3等当时的主流方法,所有方法都使用同一个基础模型Qwen2.5-VL-7B,保证比较的公平性。
文档理解类任务专门测试AI对旋转或翻转文档的识别能力。研究团队将DocVQA和InfoVQA两个标准文档问答数据集进行了随机旋转和翻转处理,构建了DocVQA-RF和InfoVQA-RF两个专项评测集。ToolsRL在DocVQA-RF上取得了77.3%的得分,而此前最强的DeepEyes只有61.3%,提升幅度超过16个百分点。在InfoVQA-RF上,ToolsRL以61.4%领先于竞争对手。另外还有一个InfoVQA-Res评测集,专门考察AI处理高分辨率信息图的能力——原本分辨率超过1024像素的图像被强制压缩到512像素以内,AI必须想办法放大关键区域才能读清细节。ToolsRL在这项测试上以71.0%的成绩,比Mini-o3的58.2%高出近13个百分点。
空间推理类任务测试AI在高分辨率图像中精准定位和理解细节的能力,使用的评测集包括HR-Bench(4K和8K分辨率版本)、V-Star以及Visual Probe(分简单、中等、困难三个难度)。ToolsRL在V-Star的单场景测试中达到95.6%,超过DeepEyes的91.3%。在4K分辨率测试中取得91.2%,在Visual Probe上达到88.1%,均处于领先水平。
图表与表格理解类任务测试AI读图表、解读数据的能力,评测集包括ChartQA、CharXiv、ChartQA-Pro和TableVQA。ToolsRL在CharXiv上取得46.5%,在ChartQA-Pro上取得43.5%,在TableVQA上取得70.2%,全面超越竞争对手。
除了准确率,还有一个数字格外值得关注:工具调用频率。ToolsRL平均每个问题调用工具3.4次,而DeepEyes只有1.0次,Pixel Reasoner只有0.8次,VTool-R1只有0.3次。更重要的是,ToolsRL是这些方法中唯一同时支持放大、旋转、翻转、画线、标点这五种工具的框架,其他方法要么只支持放大镜,要么只支持画线或标点中的一种。
六、AI自学会的"侦查策略":三种涌现出来的推理模式
通过分析ToolsRL生成的推理轨迹,研究团队发现了三种有趣的行为模式,这些模式并非被明确编程进去的,而是AI在训练过程中自己摸索出来的。
第一种是多步视觉搜索。面对一张人群密集的场景图,AI被问到"穿黄色衬衫的孩子戴的帽子是什么颜色"。AI不会直接猜答案,而是先放大人群中心区域,发现目标不在那里,再放大左侧区域,还是没找到,又放大右侧,如此迭代,最终锁定目标,确认帽子是白色的。整个过程用了8次放大操作,类似于一个侦探在案发现场系统性地排查线索。
第二种是视觉验证。面对一张科学图表,被问到"有多少个子图在X平面上显示出峰值"。AI会依次在每个子图上标注红点,标记可能的峰值位置,然后对照X轴逐一验证,确认哪些标注点确实落在X平面上,最终给出准确答案3个。这种行为类似于用不同颜色荧光笔在图上做标记来辅助计数。
第三种是复合工具链。面对一道需要分辨两张相似图中哪张有"不与任何其他形状重叠的圆形黄色区域"的问题,AI先用标点工具在两张图上分别标记黄色区域,发现其中一张图的黄色区域似乎与其他形状有重叠,然后对那个区域再次放大确认,最终得出正确结论。这是在一个推理步骤中灵活混用不同工具,而非机械地按固定顺序操作。
研究团队在各类任务中统计了工具使用的分布,发现了一个规律:文档类任务中旋转和翻转工具的使用比例高达66%(旋转33%加翻转33%),而放大镜占31%,这符合文档类任务的需求——方向混乱的文档首先需要被扶正,而不是放大。空间推理类任务中放大镜占了89.8%,因为细节定位是这类任务的核心需求。图表理解任务中放大镜和标点、画线工具各有用武之地。更值得关注的是,几乎所有类别的任务中,AI使用了多种工具组合的案例比例都超过80%,文档类任务甚至达到98.9%,说明ToolsRL训练出来的AI真的学会了根据需要灵活组合工具,而非死记硬背固定套路。
七、消融实验揭示的关键设计取舍
研究团队做了一系列"如果换掉某个设计会怎样"的对比实验,这些实验的结果揭示了每个设计选择背后的原因。
只用答题奖励(不用工具监督)训练时,模型在DocVQA-RF上只有62.6%,比ToolsRL的77.3%低了近15个百分点,但这已经比基础模型的50.2%高不少,说明强化学习本身确实有效,但缺乏工具监督时提升空间有限。
只加条件工具奖励(即DeepEyes的方法:答对了才给工具奖励)虽然把DocVQA-RF提升到71.1%,但在InfoVQA-RF上反而比只用答题奖励的版本低,出现了不一致的表现,而且如前所述,AI容易学会"先输出答案再假装调用工具"的作弊行为。
不用课程学习、直接把工具监督奖励和答题奖励混在一起训练,DocVQA-RF只有58.1%,比基础模型的50.2%只高了不到8个百分点,印证了两阶段分开训练的必要性。
只用全局工具奖励(不用答案关联奖励)在Visual Probe上表现还行(43.4%),但在文档理解类任务上表现一般;只用答案关联奖励(不用全局奖励)在空间推理类任务上偏强,但在图表任务上较弱。两者结合才在各类任务上均达到最佳,ToolsRL的Visual Probe得分46.5%超过了两者单独使用的43.4%和39.7%,体现了互补效果。
在放大镜奖励的具体参数上,把多框惩罚权重从1.0降到0.1,Visual Probe准确率从42.9%升到46.3%,平均工具调用次数从2.13次增加到3.20次,证明"宽容地对待大框"确实鼓励了更积极的探索行为。在旋转翻转工具的训练数据上,混入原始未变换图像时DocVQA-RF只有67.1%,清除原始图像只用变换图像训练时达到79.4%,同时工具调用次数从6.98次降到4.26次,说明排除捷径之后AI不仅更准确,工具调用也变得更高效而非更泛滥。在画线标点工具的奖励设计上,离散奖励(精确落在10像素范围内才给分)导致ChartQA-Pro得分37.9%,平均调用次数仅2.43;换用连续奖励后得分升到39.1%,调用次数增至2.65,因为连续奖励给了AI"距离越近得分越高"的渐进信号,让AI有动力持续优化而非放弃。
归根结底,这项研究做的事情其实并不复杂——让AI先学会用工具,再学会用工具解题。但正是这个看似简单的分阶段逻辑,配合精心设计的每种工具专属评分标准,让AI从"偶尔碰巧调用一次工具"进化到了"平均每道题主动使用3.4次工具、灵活组合不同工具解决复杂问题"。这对于AI视觉推理能力的提升,效果是实质性的。
对于普通用户来说,这意味着什么?以后当你用AI识别一份被扫描仪扫歪的发票,或者让AI帮你读一张密密麻麻的信息图时,AI不再只是盯着原图硬猜,而是会主动把图转正、把关键区域放大、在图上标注关键点,然后再给出答案。这和人类在纸上做标注辅助思考的习惯,本质上是一样的。
当然,目前这套框架还有一些边界:只支持五种预定义的原生工具,不涉及调用外部模型(比如专门的分割模型或OCR引擎);训练仍然需要一定量的工具标注数据,虽然比专家轨迹数据容易获取得多;而且论文的实验都基于同一个7B规模的基础模型,在更大或更小规模模型上的表现还有待验证。
感兴趣的读者可以通过arXiv:2604.19945查阅完整论文,深入了解每种工具奖励的数学推导、合成数据集的生成细节,以及所有实验的完整配置参数。
Q&A
Q1:ToolsRL框架和普通强化学习训练AI有什么区别?
A:普通强化学习只告诉AI答对还是答错,或者只要用了工具就给奖励,没有具体指导工具该怎么用。ToolsRL的区别在于两点:一是为每种工具设计了专属的评分标准,比如放大镜用框住目标的精度评分,旋转工具用方向是否矫正正确评分;二是采用两阶段课程,先专门练工具使用,再练答题,避免两个目标相互干扰。结果是AI平均每题调用工具3.4次,而对比方法通常不足1次。
Q2:ToolsRL训练需要多少数据,数据从哪里来?
A:ToolsRL的训练数据规模适中,总共约27000个样本,涵盖文档、空间推理和图表三类任务。数据来源包括现有公开数据集(如DocVQA、ChartQA等)以及研究团队自己合成的图表数据。工具监督信号大多来自数据集本身已有的标注,比如物体位置框用于放大镜监督,无需额外大量人工标注,这正是该方法相比需要专家示范轨迹的SFT方法更具扩展性的原因。
Q3:ToolsRL只支持这五种工具吗,能不能添加其他工具?
A:目前论文中的ToolsRL只支持放大、旋转、翻转、画线、标点这五种工具,而且专注于"原生"工具,不调用外部独立模型。作者在论文中也指出,这套框架的核心思路——为每种工具设计专属奖励并采用两阶段课程——具有通用性,理论上可以扩展到其他类型的工具,甚至代码生成、具身智能等完全不同的领域,但具体实现还需要针对新工具重新设计监督信号和奖励函数。