移动设备自动化新进展：科学家设计AI自动化框架，提升用户使用智能设备的便利性和效率

DeepTech深科技

2024-11-08 18:47发布于北京DeepTech深科技官方账号

你是否经常在处理手机任务时感到力不从心，恨不得同时“分身”去处理各种事务？

比如，查看邮件、设置日程提醒、开车时回复信息、点外卖、更新朋友圈、为手机充话费、清空购物车、订机票……

最近，西安交通大学蔡忠闽教授、宋云鹏副教授团队提出一个名为 VisionTasker 的移动设备任务自动化框架，它能够准确理解用户指令，并代替用户操作手机，可在移动设备（例如手机、平板电脑、车载终端等）自动化执行日常任务。

也就是说，用户只需要“动动嘴”，移动设备的任务便能自动“搞定”。

该框架结合了计算机视觉技术和大模型（LLM，Large Language Model），仅通过自然语言就可实现对用户界面（UI，User Interface）的深入理解和操作。

实验结果显示，VisionTasker 在 UI 表示和多任务自动化方面表现出高准确性和实用性。在 147 个真实世界任务中，特别是在处理复杂任务时，表现出超越人类的任务完成能力。

VisionTasker 在简化和加速移动设备的操作的同时，为包括老年人和残障人士等需要额外帮助的用户群体，提供了一种新的自动化解决方案。

具体而言，它在以下方面具有应用潜力：

第一，用于特定群体日常任务的自动化与辅助。结合语音交互手段，提高用户使用智能设备的便利性和效率，包括老年人、残障人士以及在驾驶/烹饪等活动中双手被占用的人群。

第二，可用于移动信息系统开发中的自动化测试，减少人工投入。

第三，提供动态的 APP 教程引导，结合帮助文档和用户的具体疑问，自动化演示 APP 的使用步骤，帮助用户快速理解和掌握应用程序的功能。

该研究有望显著提升这些用户群体/场景下的数字生活质量，使智能设备更加普及和易于使用。VisionTasker 向实现更包容、更便捷的数字环境迈出了重要一步。

近日，相关论文以《VisionTasker: 使用基于视觉的用户界面理解和大模型任务规划的移动任务自动化》（VisionTasker: Mobile Task Automation Using Vision Based UI Understanding and LLM Task Planning）为题，在 2024 年美国计算机协会用户界面软件与技术研讨会（UIST，Symposium on User Interface Software and Technology）上发表[1]。

西安交通大学宋云鹏副教授是第一作者，蔡忠闽教授担任通讯作者，论文作者还包括博士生卞艺衡、硕士生汤永涛和马桂雨。

据悉，为了推动该领域的发展和鼓励更多创新，研究人员已将相关代码开源。

图丨相关论文（来源：UIST）

仅需“动动嘴”，复杂的移动设备任务也能自动“搞定”

移动设备任务自动化技术作为一种高效、便捷的工具，能够帮助移动设备用户智能、自动地执行复杂或重复性任务，大幅简化操作过程，比如苹果公司的 Siri、小米公司的小爱同学等。

随着技术的不断进步和市场的扩大，近期，工业界在智能助手和 AI 自动化执行方面取得一系列进展。

6 月，苹果公司在全球开发者大会上推出了全新 AI 功能——苹果智能（Apple Intelligence）。

这项功能整合了日常聊天、个人日程规划等多种功能，使用户能够更加便捷地管理日常任务。例如，安排孩子的行程、检查时间安排是否合理等。

9 月，谷歌宣布 Google Cloud 的新功能，支持电脑上的自动化操作。

10 月，荣耀在发布 MagicOS 9.0 时，将 YOYO 智能助手升级为 YOYO 智能体，其可实现“一句话点咖啡”的功能。

同月，国内 AI 初创公司智谱发布了自主智能体 AutoGLM，旨在实现移动设备上的自动化执行。

与目前这些闭源商用方案不同，VisionTasker 团队在今年 7 月开源了他们的整套框架和界面理解视觉模型，为该领域的后续研发提供了参考依据。

图｜VisionTasker 框架示意图（来源：UIST）

VisionTasker 采用基于视觉的界面理解方案，并结合了大模型，通过自然语言就可实现对用户界面的理解和操作。

传统的任务自动化方法如基于演示的编程（PBD，Programming By Demonstration），存在受限于预定义功能的问题，限制了自动化的灵活性和泛化能力。因此，在 APP 版本更新或不同分辨率屏幕上可能会出现适配问题。

例如，星巴克 APP 版本更新后，尤其对界面有较大优化时，需要用户重新教一次手机助手如何点咖啡。

在界面理解方面，传统方法所借助的视图层次结构（View Hierarchy）文件包含了许多冗余信息，且界面元素的命名方式因 APP 开发者而异。

图丨基于视觉的 UI 理解过程（来源：UIST）

随着大模型的火爆，该课题组以开发能够完成更复杂任务的智能助手为出发点，开启了这项研究，在 2023 年 12 月完成了 VisionTasker 的原型系统，并首次公开论文。

VisionTasker 是一种创新的移动设备任务自动化解决方案，它整合了视觉驱动的 UI 理解能力和 LLM 任务规划功能，实现任务的分步自动化执行。

该方法的核心优势在于，无需依赖视图层次来解析 UI，也不需要大规模数据集来训练模型。

首先，它通过视觉分析技术处理 UI 截图，识别图形元素并将其转换成自然语言描述，为任务规划提供上下文信息。

随后，LLM 根据这些描述和用户目标，规划出完成任务所需的具体步骤。

卞艺衡表示，该方案有效避免了使用视图层次结构可能引发的可访问性问题和信息缺失，从而提升了对 UI 元素的理解能力和任务规划的准确性。

审稿人对该研究评价称：“这篇论文中有许多有趣的技术，特别是在框架第一阶段。这个阶段使用的方法可能会有益于一般的用户界面理解研究，例如如何检测活动标签、如何将元素分组为块等。”

图｜实验中使用的常见 UI 布局（来源：UIST）

VisionTasker 的优势主要体现在以下几方面：

第一，无需预示范，提高了自动化的应用范围。VisionTasker 结合了 LLM 的规划能力，利用模型的通用知识，能够灵活地处理多样化任务。

第二，适应性强，不受 APP 版本更新和屏幕分辨率变化的影响。

VisionTasker 直接识别 UI 内容，并将其转化为自然语言描述，使 LLM 能够根据通用知识做出决策，从而更好地适应 APP 的版本变化和不同设备的屏幕分辨率，提高了自动化任务的稳定性和可靠性。

第三，将 PBD 作为补充机制，提高对复杂任务的适应性。

在 VisionTasker 中，PBD 作为补充机制，在不了解如何执行任务的情况下，通过界面理解提取用户操作的自然语言表示，并在需要时提供给 LLM。

这种在更抽象层面上理解操作的方法，提高了对 APP 版本更新和不同分辨率的适应性，提升了复杂任务的适应性和成功率。

第四，任务完成率更高，并在 UI 理解和操作决策方面错误率更低。

该团队对 VisionTasker 进行了真实世界任务验证，其包括 147 个不同任务、42 个常用的 APP、12 个大类的场景实验。

结果显示，VisionTasker 在简单任务的完成率为 82%，而中等难度任务的完成率则为 67%。

在处理复杂任务时，完成率高于人类的 26%，达到 47%，且引入 PBD 机制后，整体完成率从 76% 提升至 94%。

图丨三种 UI 理解方法的比较分析（来源：UIST）

研究人员对比了现有的多模态大模型，实验证明，VisionTasker 的界面理解能力优于当时的 GPT-4V。

卞艺衡解释说道：“VisionTasker 的人机交互设计模仿了人类的推理过程，从而提高了自动化任务的直观性和易理解性。”

AI 有望完成更复杂的专业性任务

在下一研究阶段，研究人员将进一步优化界面理解能力，包括使用现有的多模态大模型框架、优化视觉信息（如 UI 截图）和语言信息（如用户指令）的处理。

一方面，他们计划增加对更多复杂手势的识别和支持，如滑动等；提供用户与自动化流程交互的接口，允许用户在任务执行过程中随时介入和调整。

另一方面，研究人员将开发风险评估机制，自动识别并提示用户确认涉及隐私泄露或高风险操作的界面。

同时，在自动化执行方案中纳入隐私保护措施，特别是对银行卡号、支付密码和收货地址等敏感信息进行特别处理和保护。

此外，研究更智能的人类意图理解的机制，对于违背人类意图的风险操作，例如彻底删除文件或执行付款等，系统应更智能地同用户协商处理。

据研究人员预计，未来 VisionTasker 有望在操作速度、准确性、任务执行方案优化以及提供人性化信息反馈和引导等方面表现优异，并可能在大规模自动化测试中达到或超越人类的水平。

卞艺衡指出，“当前的 VisionTasker 版本中，我们没有针对特殊群体的信息呈现和提示方式做优化设计，将来会积极地与企业合作，希望可支持执行过程的智能回撤、优化执行结果的呈现和反馈模式等。”

图丨该论文主要作者，从左至右依次为：汤永涛、宋云鹏、卞艺衡、蔡忠闽和马桂雨（来源：该团队）

蔡忠闽、宋云鹏课题组的研究方向是混合增强智能和智能人机交互，旨在构建复杂任务下的人机合作框架，并探索人机之间的双向理解和任务协同。

自 2015 年起，该课题组深入研究人类和 AI 的交互、合作，参与了国家“新一代人工智能”重大专项项目，探索大电网调控中的混合增强智能。

此前，他们提出了一种基于鼠标和眼动联合分析的方法来理解用户意图，并开发了人机对话系统原型，可以进行人机合作的电网复杂计算。

其围绕人机行为开展研究，他们还研发了基于鼠标行为预测人格（如 E 人、I 人）的方法；以及根据手机触摸行为的年龄预测技术，可用于儿童电子内容保护。

与工业界合作方面，该实验室通过数据驱动的洞察，实现了车辆与用户之间更高效、更简洁的交互。

他们为国内某车企提供了基于人机混合智能的海量行车日志数据分析挖掘方法，实现了用户个性化行为模型自动化构建、意图识别和功能操作推荐。

研究人员希望在电力系统的调度控制等专业领域，也能通过人机合作简化专业性任务，使专业人士能够轻松指派 AI 完成复杂任务。

“未来，智能助手的发展有望重构人们与手机交互的范式，引领移动设备使用方式的革命性改变。”卞艺衡说。

参考资料：

1.Yunpeng Song, Yiheng Bian, Yongtao Tang, Guiyu Ma, and Zhongmin Cai. VisionTasker: Mobile Task Automation Using Vision Based UI Understanding and LLM Task Planning. In The 37th Annual ACM Symposium on User Interface Software and Technology (UIST'24), 2024. https://doi.org/10.1145/3654777.3676386

2.https://github.com/AkimotoAyako/VisionTasker

运营/排版：何晨龙、刘雅坤

查看原图 67K