香港科技大学与滑铁卢大学联手攻克AI图像“打分不讲理”难题,让奖励模型学会像人一样思考

问AI · 生成评判修改循环为何媲美强化学习?

这项由香港科技大学、加拿大滑铁卢大学和阿里巴巴联合开展的研究,以预印本形式于2026年4月发布在arXiv平台,论文编号为arXiv:2604.11626,题为《RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time》。有兴趣深入探索的读者可以直接搜索这一编号查找原始论文。

当一个孩子交上一幅画,老师打了60分,却什么都不解释——孩子不知道哪里画错了,只能蒙着头重画。AI图像生成领域长期以来就困在这个处境里。评分模型(也就是AI世界里所谓的"奖励模型")盯着一张图像,吐出一个数字,但从不解释理由。这种"哑巴裁判"式的评分方式,不仅让负责生成图像的AI不知道自己哪里需要改进,还会催生出一种危险现象——生成AI学会了专门"讨好"评分模型,比如把图像调得更饱和、更对称,却在真正的质量上原地踏步,甚至倒退。研究团队把这个现象叫做"奖励攻击",就像学生发现老师阅卷只看卷面整洁程度,于是拼命练字体,而不是去真正理解知识。

这篇论文的核心贡献,正是教会评分模型在打分之前先"想清楚、说明白"。研究团队提出了一个叫做RationalRewards的推理型奖励模型,以及训练它的框架PARROT(偏好锚定理性化,Preference-Anchored Rationalization)。这套系统的野心不小:它不仅要让AI图像评估从"打个分了事"升级为"说出个所以然",还要把这种能力同时用于两个截然不同的场景——一是在训练时帮助生成AI学得更好,二是在不更新任何参数的情况下,通过对话式的"生成—评判—修改"循环,在测试阶段直接提升图像质量。

一、那个沉默的黑盒裁判,到底有什么问题

要理解这项研究解决的问题,先要了解现有奖励模型是怎么工作的。以往的图像质量评分模型,工作方式就像一个非常有经验但完全不解释自己想法的艺术评委:看一眼,打一个分数,走人。整个评估过程是一个密不透光的黑箱,外人无从知晓它为什么觉得某张图好、某张图差。

这种方式在AI训练中造成了严重问题。当生成图像的AI(比如Flux或者Qwen-Image这类扩散模型)通过强化学习来优化自己时,它唯一的参考就是这个数字分数。训练初期,这个方向是对的——分数提高意味着图像更好。但随着训练深入,生成AI会越来越聪明地"钻空子":它发现某些视觉特征(比如特定的色调搭配、特定的构图规律)能让奖励模型给出高分,于是就开始朝这个方向猛跑。奖励模型的分数继续爬升,而图像的真实质量却悄悄崩塌——人物的手可能开始长出六根手指,背景开始出现奇怪的光晕,整体逻辑开始混乱。研究团队用一组视觉对比图展示了这一过程:使用传统标量奖励训练的Qwen-Image在训练奖励曲线一路攀升的同时,生成出来的机甲战士图像质量肉眼可见地开始劣化,最终面目全非。

更根本的问题在于,当评分模型只输出一个数字时,生成AI无从得知自己是在哪个维度上出了问题。是文字描述没有完全体现在画面里?还是物理效果不合理?还是整体画质太差?一个数字无法回答这些问题。这就是研究团队将奖励模型的输出从"数字"升级为"有理由的多维评分"的根本动机。

二、PARROT框架:如何在没有人工标注的情况下,教会AI"说理由"

解决问题的关键是让奖励模型在给出分数之前,先生成一段结构化的评价理由。但这里有一个很现实的困难:要训练一个能写出高质量评价理由的模型,你首先需要大量"图像+理由"的配对数据。而人工逐条撰写这些理由的代价极其高昂,远超一般研究团队的预算。

研究团队想到了一个聪明的解决办法:现有的图像偏好数据集里,虽然没有理由,但有人类的"选择结果"——就是两张图摆在一起,标注者选了哪一张更好。这种偏好标签的获取成本远低于理由标注。PARROT框架的核心思路,就是把这种"已知答案、不知理由"的偏好数据,转化为"既有答案、也有理由"的高质量训练数据。

具体做法可以用一个侦探审讯的比喻来理解。假设你已经知道嫌疑人是A,现在让一个经验丰富的侦探(这里是Qwen3-VL-32B这个大型视觉语言模型)去分析案情,并要求他必须给出支持"A是嫌疑人"这一结论的详细推理过程。侦探知道答案,所以他的注意力会集中在真正支持这个结论的证据上,而不是漫无目的地猜测。这就是PARROT第一阶段的做法:把人类偏好标签作为"锚点"提供给教师模型,让它在已知哪张图更好的前提下,为这个判断生成详细的多维度评价理由。

然而,仅仅让老侦探"顺着答案编理由"还不够可靠——他有时候会产生幻觉,描述一些画面中根本不存在的细节,或者给出听起来合理但实际上无法支撑结论的论据。PARROT的第二阶段因此引入了一个严格的"一致性筛查"步骤。生成的理由要接受一个独立测试:把这段理由单独拿给教师模型看,但这次不告诉它答案——如果模型仅凭这段理由就能正确推断出是哪张图更好,那这段理由才算是真正有价值、有预测能力的推理;如果推断失败,说明这段理由存在缺陷,直接丢弃。实验结果显示,大约72%的生成理由通过了这道筛查,说明"偏好锚定"确实能让理由的质量大幅提升,同时筛查机制也有效过滤掉了约28%的问题样本。

通过前两个阶段,研究团队获得了一批高质量的"理由-偏好"配对数据。第三阶段则是将这些知识蒸馏到一个体量更小的学生模型(基于Qwen3-VL-Instruct-8B,一个参数量为80亿的模型)里。训练方式是监督微调:学生模型要学会在看到一对图像和用户指令后,自己推理并写出评价理由,然后给出分数——整个过程不再需要预先知道答案。

另外,还有一个需要解决的小难题:偏好数据天然是"两张图比较"的形式,但实际应用中,经常需要对单张图像进行独立评分(比如给强化学习提供奖励信号)。一个只见过"比较"任务的模型,在看单张图时往往会表现失常,因为它总是下意识地在寻找一个参照对象。研究团队的解决方案是"点式投影":同样借助教师模型,把成对比较中的推理过程迁移应用到单图评估上,建立一套独立的绝对评分体系,并将这两种数据混合训练,让最终的RationalRewards模型同时具备成对比较和单图评分的能力。

三、训练时的用途:当评分模型学会讲理,生成AI才能真正进步

有了能给出结构化评价的RationalRewards之后,研究团队首先将它应用于强化学习训练场景。这里使用的强化学习方法是DiffusionNFT,一种专门为扩散模型(即主流图像生成模型的底层技术)设计的在线强化学习框架。它的工作机制有点像烹饪比赛中的迭代改进:每次让厨师(生成模型)做一批菜(一组图像),专家评委(RationalRewards)给出详细点评,然后厨师根据点评调整烹饪方式,如此循环往复。

RationalRewards给出的奖励信号不是单一数字,而是覆盖多个维度的评分。对于图像编辑任务,这四个维度分别是"文字忠实度"(生成的图像有没有按照指令修改)、"图像忠实度"(原图中不需要改变的部分有没有被意外破坏)、"物理与视觉质量"(图像是否自然、合理、没有明显瑕疵)和"文字渲染"(如果需要在图上添加文字,是否准确清晰)。对于纯文字转图像的任务,去掉"图像忠实度"这一项,其余维度保持不变。最终的奖励分数是各适用维度分数的等权均值。

实验在多个生成模型上展开,覆盖了图像编辑场景(使用Flux.1-Kontext-dev和Qwen-Image-Edit两款模型)和文字转图像场景(使用FLUX.1-dev、SD-3.5-Medium和Qwen-Image三款模型),并在ImgEdit-Bench、GEdit-Bench-EN和UniGenBench++等多个标准评测集上进行了对比。结果显示,使用RationalRewards作为奖励信号,在几乎所有测试子类别上都优于标量奖励模型(比如专为图像编辑设计的EditReward,以及专为文字转图像设计的MultiReward),也优于直接把Qwen3-VL-32B这个更大的通用模型当作评分器使用的方案。

以文字转图像中的FLUX.1-dev模型为例:不经过训练的基础模型在UniGenBench++上总分为60.97,使用MultiReward训练后反而略微下降到60.12,使用Qwen3-VL-32B当评分器训练后提升到66.53,而使用RationalRewards训练后则大幅跳升至70.34。对于Qwen-Image这款本身已经表现不错的模型,在RationalRewards的加持下也从78.36提升到了82.60,而MultiReward训练版本不升反降,跌到了75.61。这些数字背后反映的是:精准的多维度反馈,比笼统的单一评分能让模型学到更多真正有用的东西。

同时,一个重要现象值得专门提及。研究团队展示了RationalRewards训练过程中的奖励曲线:奖励分数稳步上升,对应的图像质量也稳步提升,两条曲线高度同步,几乎没有出现"奖励分数飙高而图像质量塌方"的情况。原因在于,当奖励模型必须为自己的打分提供连贯的文字理由时,它想要"被欺骗"就变得困难得多——如果一张图的质量实际上很差,奖励模型很难同时写出"这张图在文字忠实度、物理质量等维度表现优秀"的理由,因为这需要它的推理过程能够自圆其说。文字推理的约束成了一种天然的防欺骗机制。

四、测试时的魔法:不改动任何参数,靠"聊天"就能提升图像质量

RationalRewards最令人惊讶的用途,不是训练,而是测试阶段的即时优化。

通常情况下,提升一个AI模型的输出质量意味着要花大量时间和算力重新训练它。但研究团队发现,仅仅借助RationalRewards的文字评价能力,在完全不改动生成模型参数的情况下,就能显著提升图像质量。方法叫做"生成—评判—修改"循环(Generate-Critique-Refine Loop,GCR)。

工作流程大致如下:用户给出一个图像生成或编辑指令,生成模型产出一张初始图像。然后RationalRewards登场,对这张图像从四个维度进行评分,并为每个低分维度(低于3.0分的维度)写出具体的问题描述。接着,RationalRewards根据这些问题描述,自动生成一个改进版的用户指令——比如原指令是"把它改成动漫风格",修改后可能变成"将图像转换成少年漫画风格,采用清晰的黑色描边、鲜艳的平涂色彩和夸张的表情设计"。最后,把这个更精确的指令重新喂给生成模型,得到第二版图像。整个过程只进行一轮,评价和修改指令的时间开销约0.4秒,相比之下,完成一次RL强化学习训练需要大约384个GPU小时。

论文中有一个非常生动的示例:用户的原始指令是"画一对盛装出行的情侣在大雨中走路,没有带伞"。生成模型给出了一张美丽的图像,但画面里那对情侣举着一把伞。RationalRewards立刻发现了这个与指令相悖的地方,在文字忠实度维度给了2.0分(总分4分),并清楚写道"指令明确说明没有伞,但图像里有一把伞,这是对指令的严重违背"。根据这个评价,修改后的指令明确强调"不要伞,不要任何遮雨装备,两人在雨中浑身湿透"。用修改后的指令重新生成的图像中,那把伞消失了,取而代之的是更符合"浪漫暴雨夜"氛围的画面。

实验数据显示,这种测试时的提示词优化在多项评测中的表现令人意外地接近甚至超过了RL强化学习训练。在ImgEdit-Bench评测集上,对Flux.1-Kontext-dev基础模型使用提示词优化后得到4.01分,而使用RL训练(配合RationalRewards)才达到3.84分。对Qwen-Image-Edit模型,仅用提示词优化就达到了4.43分,恰好也是RL训练(4.38分)的微弱胜出者。在GEdit-Bench-EN评测集的综合指标上,提示词优化的得分(8.33)略高于RL训练(8.29)。

研究团队对这一现象提出了一个假设性解释:许多现代图像生成模型其实具备产出高质量图像的"潜在能力",只是用户给出的自然语言指令往往不够精确,无法充分激活这些能力。RationalRewards通过观察实际输出、识别具体缺陷、生成更精准的指令,相当于帮助用户把模糊的意图翻译成模型能够更好理解和执行的语言。这与盲目在生成之前就扩写提示词的做法有本质区别——后者不知道模型到底产出了什么,只是猜测性地"把指令说得更详细";而GCR循环是看到了实际结果之后,针对具体问题进行精准修补。

五、评分模型自身到底有多强?与顶级商业模型的正面对决

一个奖励模型的可信度,首先取决于它自己的判断力有多准确。研究团队在三个标准评测集上对RationalRewards进行了严格的基准测试,考察的是"模型判断哪张图更好,和人类判断一致的比例",也就是偏好预测准确率。

这三个评测集分别是MMRB2(多模态奖励基准第二版)、EditReward-Bench和GenAI-Bench,覆盖了文字转图像和图像编辑两个方向。结果显示,基于Qwen3-VL-8B骨干网络训练的RationalRewards,在所有测试集上都超越了同规模乃至更大规模的开源奖励模型:它超过了EditReward-7B、UnifiedReward-7B,也超过了参数量四倍于它的Qwen3-VL-32B直接用作评分器的方案。在与商业模型的对比中,RationalRewards超过了GPT-4.1和Gemini 2.5 Flash,非常接近Gemini 2.5 Pro的水准(在MMRB2的文字转图像任务上,RationalRewards得到64.2分,Gemini 2.5 Pro是70.5分;在GenAI-Bench的图像编辑任务上,RationalRewards以80.1分接近Gemini 2.5 Pro的78.9分)。

与此同时,研究团队还设计了一个关键的对照实验:使用相同的数据量、相同的8B骨干网络,但不经过PARROT框架,只是直接把Qwen3-VL-32B的输出当作标签来做知识蒸馏,结果得到的模型性能显著低于RationalRewards。在MMRB2文字转图像任务上差了6.8个百分点,在GenAI-Bench图像编辑任务上则差了整整17.3个百分点。这证明了PARROT框架本身的价值——性能提升来自"结构化理性化训练"这一设计思路,而非仅仅来自使用了更大的教师模型。

另外,研究团队还记录了一个有意思的对比:使用Qwen2.5-VL-7B骨干网络(一个更旧版本的底座)训练出的RationalRewards,同样超过了各主流开源标量奖励模型,进一步验证了性能提升并非依赖某一特定骨干网络,而是PARROT训练方式本身带来的。

整个训练所用的数据量也远小于业内同类方案:编辑任务使用3万对偏好数据,文字转图像任务使用5万对,总计约8万对,经过筛查后剩约5.76万对。相比之下,EditReward使用了20万对,UnifiedReward更是用了超过100万对。用不到十分之一的数据,达到甚至超过同类模型的精准度,这正是PARROT框架"从偏好数据中高效提炼推理知识"这一核心设计的体现。

六、超越图像打分:RationalRewards还能做什么

研究团队在论文中展示了RationalRewards除核心评分和测试时优化之外的更多潜在应用。

在数据质量控制方面,RationalRewards可以自动过滤大规模图像编辑数据集中的低质量样本——用它的多维评分筛掉平均分低于某个阈值的数据,留下质量可靠的数据用于后续训练,相当于一个自动化的品质把关员。

在视觉缺陷定位方面,研究团队还展示了一个扩展版本:将RationalRewards生成的文字评价进一步转化为指向图像具体区域的"引用表达式",再通过GroundingDINO定位到具体的边界框,最后用SAM(分割任意物体模型)生成对应的分割遮罩,高亮显示图像中存在问题的区域。比如在一张"人和猫一起种树"的图像中,RationalRewards识别出"右手手指结构异常"、"猫爪与人手的接触位置在空间上不合理"、"猫的身体与树干发生了穿透重叠"等具体问题,并将这些问题的空间位置精确标注出来。这种"哪里有问题"的区域级反馈,为后续的局部修复提供了明确方向。

在物理常识评估方面,研究团队还在PICA-Bench(物理感知图像编辑基准)上测试了RationalRewards的泛化能力。PICA-Bench专门测试AI对光照、反射、折射、形变、因果状态变化等物理现象的理解,是对训练数据分布之外的"陌生场景"测试。结果显示,RationalRewards加持的提示词优化方案在大部分物理子类别上都优于基础模型,部分子类别甚至接近专门针对物理问题进行SFT微调的模型,表现出相当的泛化能力。

归根结底,这项研究真正有趣的地方在于它揭示了一个反直觉的规律:在AI系统的评估和优化环节,"能说清楚为什么"比"给出一个更高的分数"更有价值。当评分模型被要求把自己的判断逻辑用文字表达出来,它就建立了一套自我约束机制——一套连贯的推理过程很难同时对质量低劣的图像给出虚高的分数,因为这需要评分模型同时说谎和保持逻辑一致性。结构化推理充当了防止"分数造假"的防火墙,而这个防火墙反过来又使得基于这个分数进行的训练变得更加可靠和稳健。

说到底,PARROT和RationalRewards做的事情,是把"裁判"从沉默的数字打分机器,变成一个能够说明白"这张图哪里好、哪里差、应该怎么改"的评审专家,然后让这位评审专家同时扮演两个角色:在后台当训练教练,在前台当实时顾问。这个角色转变带来的收益,从实验数据来看,出乎意料地可观。对于那些对AI图像生成技术的发展方向感兴趣的读者,这篇研究提供了一个值得认真思考的视角:也许未来的进步不只来自更大的生成模型,也来自更聪明、更"能说会道"的评估系统。有兴趣进一步探索的读者,可以通过arXiv编号2604.11626找到这篇论文的完整版本。

Q&A

Q1:RationalRewards和普通的图像评分模型有什么本质区别?

A:普通图像评分模型只输出一个数字,没有任何解释。RationalRewards会在给出分数之前,先从文字忠实度、图像忠实度、物理与视觉质量、文字渲染这四个维度分别写出详细的评价理由,然后才给出各维度的分数。这种"先推理、后打分"的方式,既让生成AI知道自己哪里需要改进,也让奖励模型很难被"钻空子"欺骗,有效防止了强化学习中的奖励攻击问题。

Q2:PARROT框架训练奖励模型为什么不需要人工标注推理过程?

A:PARROT的核心思路是把"已知偏好答案"转化为"有理由的评价数据"。它让大型教师模型在已知哪张图更好的前提下,有针对性地生成支持该判断的理由,再通过一致性检验过滤掉质量差的理由,最后用剩下的高质量理由来训练小型学生模型。整个过程只依赖容易获取的偏好标签数据,不需要人工逐条撰写评价理由,大幅降低了数据准备成本。

Q3:生成—评判—修改循环为什么有时候比重新训练模型效果还好?

A:研究团队认为关键原因在于,许多现代图像生成模型本身已经具备产出高质量图像的能力,只是用户给出的指令不够精确,导致这些潜在能力没有被充分激活。生成—评判—修改循环通过观察实际输出结果、识别具体问题、生成更精准的指令,相当于帮用户把模糊意图翻译成模型更能理解的语言。而强化学习训练受限于LoRA参数更新容量和训练数据分布覆盖不完整等因素,在某些场景下反而不如这种逐实例的精准优化。