智猩猩GenAI整理
编辑:六一
在照片修饰日益普及的今天,专业级修图技术始终面临着高门槛与低效率的双重挑战。传统专业工具操作复杂,而现有AI解决方案又难以兼顾个性化需求与专业品质。
为此,来自厦门大学、字节跳动等高校和企业的研究人员提出专业级修图智能体JarvisArt。JarvisArt基于多模态大语言模型架构,采用两阶段训练策略(思维链监督微调与GRPO-R强化学习),结合创新的A2L通信协议,实现了精准理解用户创作意图、智能调度200余项Lightroom工具进行专业级非破坏性编辑。JarvisArt在保持指令遵循能力的同时,内容保真度较GPT-4o提升了60%。
论文标题:
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent
论文链接:
https://arxiv.org/abs/2506.17612v1
项目地址:
https://github.com/LYL1015/JarvisArt
框架
JarvisArt智能体的实现依赖于一套系统化的技术框架,具体分为以下四个核心环节:
1.数据生成管道
论文首先设计了一个三阶段的数据生成管道,用于构建带有显式链式思维(CoT)标注的MMArt数据集。该管道的流程如下:
整理覆盖多场景、多风格的源图像-目标效果对照库,以及对应的Lightroom配置;
生成反映用户意图的自然语言指令;
生成逐步推理轨迹。
2.思维链监督微调
采用Qwen2.5-VL-7B-Instruct作为基座模型,在MMArt的50K个CoT标注实例上进行监督式微调,以启动其后续的强化学习。
3.面向推理的强化学习
基于SFT初始化模型,采用面向修图任务的群体相对策略优化(GRPO-R)进一步提升JarvisArt的艺术推理能力及工具使用熟练度。GRPO-R通过三种可解释的任务特定奖励对其进行训练:
格式奖励用于确保输出结构化;
修饰操作准确性奖励用于衡量所选工具及其参数设置的正确性;
感知质量奖励用于评估修饰后图像的视觉保真度。
4.Agent-to-Lightroom协议
为实现JarvisArt智能体与Lightroom之间的自动化交互,论文提出了Agent-to-Lightroom(A2L)协议,这是一个标准化的客户端-服务器接口,用于集成JarvisArt与Lightroom。该协议支持双通道通信和结构化消息格式,通过分隔符分隔命令来处理状态更新和错误。它管理源图像和修饰操作配置(ROC)文件,支持ROC到Lua的翻译及完整性检查,生成的Lua文件可直接在Lightroom中修饰源图像。
评估
JarvisArt在10项评估指标上超越多数开源指令式基线模型,达到SOTA。JarvisArt在内容保真度方面的平均像素级指标较GPT-4o提升了60%,同时保持了精准的指令遵循能力。
L1/L2(衡量修图后图像与参考图像在像素级的平均绝对差异),SC(语义一致性)、PQ(感知质量)、O(综合得分=√SC×PQ),RC表示仅针对掩膜标注区域计算的指标
论文在MMArt-Bench上对四种算法进行用户偏好研究,80名用户的评分显示JarvisArt效果最佳。另外30名用户的对比测试表明,JarvisArt在易用性、操作流畅度和用户满意度等方面均显著优于Lightroom。