跨OS GUI智能体基础设施白皮书——重新定义人机交互自动化|甲子光年智库

问AI · GUI Agent将如何重塑跨应用工作流的自动化?
图片

GUI Agent,重新定义人机交互自动化。




1.发布背景

图片


进入2026年,OpenClaw的横空出世,宣告全球人工智能正式从Chat时代走到了Act时代,各主要厂商不再只做Agent,而是推动Agent成为AI时代新的超级入口,GUI Agent也成为这一探索中最重要的路径之一。GUI Agent正在引发继“命令行”到“图形界面”之后的第三次人机交互革命,其核心是通过UI直接进行操作,从“人操作机器”转向“机器理解并执行人的意图”,使操作系统回归“用户意图执行者”的本质。


随着产业探索的深入,从业者逐渐意识到,当前以API为核心路径的Agent路线存在难以逾越的障碍,一是覆盖率瓶颈,API Agent高度依赖API接口,初步估计全球当前仅有不到5%的软件开放了完整的API接口,这使得Agent在数量巨大的“黑盒”软件面前寸步难行;二是认知维度的缺失,多数API Agent仅能在数据层面进行交互,丢失了界面布局、图标隐喻等关键的视觉上下文信息;三是跨生态协作割裂,受限于接口壁垒,传统Agent往往沦为单一软件内的“半自动”工具,难以处理跨平台、跨应用的长链路复杂任务。这就造成了当前Agent多数是“半自动”智能体,重复、繁琐的跨软件操作还需要人工完成。总的来说,以API为主要路径的Agent仍然没办法克服当前计算机行业发展留下来的弊病,即无法对碎片化的数据进行多模态、大规模、跨平台、自动化的调用和整理,并且最终实现智能化的输出。


在短期无法重构全球软件生态的前提下,直接通过图形界面完成感知与操作,成为绕开接口壁垒、实现规模化自动化的重要实现路径。GUI Agent是一种基于多模态大模型,能够模拟人类用户,通过视觉感知和模拟操作,直接与多端图形用户界面进行交互的智能体。它的优势在于摆脱了对API接口和RPA脚本的依赖,通过强大的视觉语义理解,打破了应用间的数据围墙,实现了真正的跨App、跨平台、跨生态操作。GUI Agent的出现,将智能设备从刻板的“代码执行者”进化为灵活的“意图代理人”,从根本上重塑了人机交互范式,是人类通往通用人工智能道路上的里程碑式跨越。


北京庭宇科技有限公司是全球领先的边缘智算基础设施服务商,成立于2019年,始终致力于构建以边缘智算为核心的AI全栈基础设施生态,为智能时代提供核心算力支撑。庭宇运营着国内最大的分布式GPU算力池,构建了覆盖全国超1500个县市及东南亚的高性能边缘节点网络,基础设施已深度赋能云桌面、AI Agent等多元场景,技术实力与市场占有率持续领先。


2024年,庭宇科技就开始了在GUI Agent领域的探索,并且在2025年10月发布了GUI Agent产品Lybic,成为国内发布的首个基于边缘智算架构的GUI Agent产品。Lybic补足了庭宇科技在Agentic OS领域的拼图,使庭宇科技形成了以“边缘云-GUI Agent-云手机/电脑”为主的产品体系,初步构建了以边缘智算为核心的AI全栈基础设施生态。Lybic以庭宇科技的边缘智算为底座,以沙箱为保障的运行环境,配合“全模型+全工具链”的开放生态,形成了“毫秒级延时、高安全保障、全场景适应”的产品优势,有效解决了GUI Agent运行过程中面临的延迟长、精度差、安全保障低的痛点。


《跨OS GUI智能体基础设施白皮书》由庭宇科技、甲子光年联合“铸基计划”共同发布,主要内容包括GUI Agent的发展现状、技术路径、主要落地场景及对未来发展趋势的研判和思考。希望通过本白皮书,与全球从业者共同探讨这一变革性技术的未来,为推动通用人工智能的发展贡献庭宇力量,实现庭宇科技"让算力无处不在,让智能触手可及"的发展使命。




2.核心亮点

图片


本白皮书总结了GUI Agent的概念、发展阻碍、技术架构和核心实现、产品形态和场景落地、未来与展望。


  • 本白皮书基于庭宇科技近年在GUI Agent领域的思考、探索和实践,深度剖析了GUI Agent的市场格局、技术演进路径及关键落地场景。我们希望通过本白皮书,为全球从业者提供一份可参考的“落地指南”,并致力于通过持续深耕边缘AI基础设施,推动通用人工智能早日普惠千行百业。


  • 人工智能的演进将经历算法阶段、模型阶段、智能体阶段和智能体生态阶段四个阶段,其中算法阶段的核心特征是主要解决“如何计算”的问题,由统计学和传统的机器学习算法驱动,智能体阶段的核心特征是大模型不再是一个简单的Chatbot,而是可以主动完成任务的智能助理,智能体生态阶段的核心特征是AI将从单体智能走向多智能体协作和智能体工作流,不同的 Agent扮演不同的角色(如程序员、测试员)共同完成庞大的工程。


  • GUI Agent是人机交互自动化的范式革命。人机交互经历了三次浪潮,分别是CLI阶段、GUI阶段、GUI Agent阶段,GUI Agent正在引发继“命令行”到“图形界面”之后的第三次人机交互革命,其核心是从“人操作机器”转向“机器理解并执行人的意图”,最终将消灭“应用孤岛”,使操作系统回归“用户意图执行者”的本质。主要表现在交互逻辑革命、用户角色革命、能力边界革命、生态模式革命四个方面。


  • GUI Agent驱动因素由Agent面临的智能化困境和大模型底层技术的突破进展两方面组成。在 Agent面临的智能化困境方面,“API覆盖率不足”造成的“长尾软件孤岛”、传统RPA维护成本过高、跨应用跨生态造成的碎片化工作流、复杂软件使用和学习门槛较高是传统Agent面临的最大阻碍;在大模型底层技术的突破进展方面,VLM视觉理解能力飞跃,从“鉴赏”到“操作”的进化和LLM实现从“直觉式反应”到“深思熟虑”的进化是让GUI Agent得以实现的关键因素。


  • GUI Agent组成包括感知模块、决策与规划模块、执行模块、反馈优化模块等四个最重要的模块,同时底层沙盒环境也是GUI Agent安全可控的良好保障。基于各个模块设计逻辑的不同,GUI Agent形成了端到端视觉大模型、代码生成、多智能体协作三大主流技术路径。本报告基于实践经验,将每个模块的核心内容、困难和挑战、技术考量维度、技术解决方案进行详细的展开和解释,期望能够与行业从业者交流和讨论。


  • 本报告详细介绍了GUI Agent可能的产品形态和落地场景,包括手机、电脑、OS生态和人机自动化交互具体场景的可能性。同时,提出了未来GUI Agent的发展可能性、面临的困难和挑战。


3.报告正文

图片


图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片


图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片