厦大联合字节提出修图智能体JarvisArt：CoT微调+GRPO-R实现专家级艺术推理与工具精准调用

智猩猩

2025-07-03 15:09发布于北京科技领域创作者

问AI · 合作研发免费使用吗？

智猩猩GenAI整理

编辑：六一

在照片修饰日益普及的今天，专业级修图技术始终面临着高门槛与低效率的双重挑战。传统专业工具操作复杂，而现有AI解决方案又难以兼顾个性化需求与专业品质。

为此，来自厦门大学、字节跳动等高校和企业的研究人员提出专业级修图智能体JarvisArt。JarvisArt基于多模态大语言模型架构，采用两阶段训练策略(思维链监督微调与GRPO-R强化学习)，结合创新的A2L通信协议，实现了精准理解用户创作意图、智能调度200余项Lightroom工具进行专业级非破坏性编辑。JarvisArt在保持指令遵循能力的同时，内容保真度较GPT-4o提升了60%。

论文标题：
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
论文链接：
https://arxiv.org/abs/2506.17612v1
项目地址：
https://github.com/LYL1015/JarvisArt

框架

JarvisArt智能体的实现依赖于一套系统化的技术框架，具体分为以下四个核心环节：

1.数据生成管道

论文首先设计了一个三阶段的数据生成管道，用于构建带有显式链式思维(CoT)标注的MMArt数据集。该管道的流程如下：

整理覆盖多场景、多风格的源图像-目标效果对照库，以及对应的Lightroom配置；
生成反映用户意图的自然语言指令；
生成逐步推理轨迹。

2.思维链监督微调

采用Qwen2.5-VL-7B-Instruct作为基座模型，在MMArt的50K个CoT标注实例上进行监督式微调，以启动其后续的强化学习。

3.面向推理的强化学习

基于SFT初始化模型，采用面向修图任务的群体相对策略优化(GRPO-R)进一步提升JarvisArt的艺术推理能力及工具使用熟练度。GRPO-R通过三种可解释的任务特定奖励对其进行训练：

格式奖励用于确保输出结构化；
修饰操作准确性奖励用于衡量所选工具及其参数设置的正确性；
感知质量奖励用于评估修饰后图像的视觉保真度。

4.Agent-to-Lightroom协议

为实现JarvisArt智能体与Lightroom之间的自动化交互，论文提出了Agent-to-Lightroom(A2L)协议，这是一个标准化的客户端-服务器接口，用于集成JarvisArt与Lightroom。该协议支持双通道通信和结构化消息格式，通过分隔符分隔命令来处理状态更新和错误。它管理源图像和修饰操作配置(ROC)文件，支持ROC到Lua的翻译及完整性检查，生成的Lua文件可直接在Lightroom中修饰源图像。

评估

JarvisArt在10项评估指标上超越多数开源指令式基线模型，达到SOTA。JarvisArt在内容保真度方面的平均像素级指标较GPT-4o提升了60%，同时保持了精准的指令遵循能力。

L1/L2（衡量修图后图像与参考图像在像素级的平均绝对差异），SC（语义一致性）、PQ（感知质量）、O（综合得分=√SC×PQ），RC表示仅针对掩膜标注区域计算的指标

论文在MMArt-Bench上对四种算法进行用户偏好研究，80名用户的评分显示JarvisArt效果最佳。另外30名用户的对比测试表明，JarvisArt在易用性、操作流畅度和用户满意度等方面均显著优于Lightroom。