1.上海人工智能实验室等研究机构提出OS-Genesis框架,自动收集和标注Agent数据,高效且多样。
2.OS-Genesis通过反向任务合成生成高质量GUI轨迹数据,摆脱人工监督和预定义任务的局限。
3.实验结果显示,OS-Genesis生成的数据在质量和多样性上均显著优于现有方法。
4.此外,OS-Genesis在未见过的应用场景下表现出了较强的泛化能力。
5.未来,OS-Genesis有望为生成高质量GUI agents训练轨迹数据提供有前景的方向。
以上内容由腾讯混元大模型生成,仅供参考
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
共同一作孙秋实是香港大学的博士生,此前在新加坡国立大学获得硕士学位,研究方向包括 LLM Agents 和神经代码智能等领域。共同一作金川杨是约翰霍普金斯大学的博士生,此前以专业第一名毕业于纽约大学,其开发的心智能力测试 MMToM-QA 荣获 ACL 2024 杰出论文奖。本文的 Shanghai AI Lab 吴志勇团队此前已发布了 OS-Copilot、OS-Atlas、SeeClick等同系列成果。
论文题目:OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis 项目地址:https://qiushisun.github.io/OS-Genesis-Home/ 研究机构:上海人工智能实验室,香港大学,上海交通大学,约翰霍普金斯大学,牛津大学,香港科技大学
高阶指令:明确规定任务目标,例如 “将 Broccoli 应用中的‘Avocado Toast with Egg’标记为收藏”。 低阶指令:分解为具体的操作步骤,例如 “点击‘Avocado Toast with Egg’以查看更多选项”。 动作:与低阶指令相关的具体操作,如 “CLICK [Avocado Toast with Egg]”。 状态:包括执行动作前后的可视化和文本化表示,例如屏幕截图和 GUI 的 a11ytree 结构。
完成度(Completion):衡量轨迹是否成功完成高阶任务,包括每个步骤的正确性和逻辑连贯性。 一致性(Coherence):评估轨迹的逻辑性,确保动作序列能够高效地实现任务目标。
InternVL2-4B/8B:一种支持高分辨率动态输入的开源 VLM,主要用于视觉任务。其扩展版本 InternVL2-8B 具有更大的模型容量。 Qwen2-VL-7B-Instruct:一种多模态模型,具备一定的 GUI 交互能力,专为指令执行任务优化。
Zero-Shot:直接使用未经过额外训练的模型完成任务。这种方法用于评估模型的原始能力。 Task-Driven:利用预定义任务和固定策略生成数据,广泛应用于传统数据生成流程。 Self-Instruct:在 Task-Driven 的基础上,引入自我指令生成机制来扩展任务的和覆盖范围。
动态环境适配性:人工编写的任务往往难以与复杂环境完全匹配,而 OS-Genesis 通过反向任务合成生成的指令能够自适应 GUI 动态特性,更符合环境需求。 逐步生成策略:OS-Genesis 从低阶指令逐步构建高阶指令,确保了指令的逻辑连贯性和可执行性,而人工编写的高阶指令有时会因缺乏细节而导致轨迹不完整。