深度｜2024 总结：AI Agent 元年，LLM 操作系统前夜

ZPotentials

2024-11-29 20:30发布于福建科技领域创作者

01 2024 年，模型能力小年，AI Agents 智能体的大年

2024 年即将结束，今年行业对 AI 的论调也基本尘埃落定.相比 2023 年的多个重磅发布，2024 年是模型能力的小年，但 AI Agent 却是实在的大年。OpenAI、AI 大模型独角兽 Anthropic、微软等科技公司纷纷转向开发 AI Agent，试图打破目前 LLM 的技术平台期。

Anthropic 发布 Computer Use

图片来源：Anthropic

2024 年 10 月，Anthropic 已经推出了名为“Computer Use”的 AI Agent。Anthropic 开发了一个特殊的 API，允许开发者指导 Claude 完成各种计算机操作任务。这些任务包括查看屏幕内容、移动光标、点击按钮以及打字等。开发者可以通过这个 API 将书面指令转换为具体的计算机指令，从而实现自动化任务。

OpenAI 重新定义 AGI 路线，Agents 和工具调用是后续重点

在 7 月 12 日，OpenAI 举行了一个全体员工会议，设计了一个从 1 到 5 的"AI 成长等级，更新定义了 AGI 的路线图。OpenAI 认为自己目前处于第 1 级，但接近达到第 2 级。从第3阶段起的 Agents、Innovators、Organizations，是具备高推理能力的模型基础上，依靠外部工程手段实现的智能体框架，已经脱离大模型能力范畴。

图片来源：OpenAI

据彭博社报道，OpenAI 即将推出一款代号为"Operator"的软件，可以直接对个人电脑进行操作。这款工具能够自动执行包括编写代码、预订旅行、自动电商购物等复杂任务，并计划作为研究预览版向开发者开放 API 接口。"Opertaor "预计将在 2025 年 1 月发布。

微软也在加快 AI Agent 的脚步

今年 10 月，在伦敦举行的"AI Tour"活动上，微软对外公布了一项重要计划：面向 Dynamics 365 业务应用平台，开发部署 10 款专业 AI 助手。这批智能代理将主要服务于企业的销售环节、会计业务以及客户服务等关键领域。按照发布时间表，这些 AI 助手将在年底开放公测，测试阶段预计延续到 2025 年初期。

图片来源：微软

国内大模型公司紧随其后

同时期，国内大模型公司智谱发布 AI Agent 项目 AutoGLM 。AutoGLM 的任务执行需要通过无障碍服务权限获取用户当前屏幕上的信息，基于此进行理解分析并且做出任务规划，实现手机上常用操作的模拟执行。只需接收简单的文字/语音指令，它就可以模拟人类操作手机，在微信朋友圈评论点赞，在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖等等。11月的升级发布，将支持自主执行超过54步的长步骤操作，也可以跨 App 执行任务。还发布基于 PC 的自主 Agent GLM-PC ，可以自主完成会议替身、文档处理、网页搜索与总结、远程和定时操作等功能。

图片来源：智谱

02 Agent 趋势：强自主性、视觉、任务操作，开始向 OS 迈步

Agent 发展趋势：

1. 强自主性：

AI Agent 与传统软件自动化系统存在本质性差异。传统自动化系统通常要求用户通过规范化的方式——无论是基于 UI 的拖拽操作还是编程方式——来定义具体的操作逻辑，以此取代手动编码。这种方式需要经历完整的实施周期：从前期的业务流程分析，到中期的部署实施，再到后期因界面或句柄变更而进行的重新部署。

相比之下，AI Agent 展现出更高层次的智能自主性：它只需要一个明确的目标指令，就能够自主完成任务的分解与执行。在纯软件环境中，AI Agent 的能力范围已相当广泛，从网页浏览、办公软件操作，到购买决策分析，甚至能够执行支付操作等复杂任务，体现出显著的适应性和灵活性。这种范式的转变标志着自动化技术正在向更智能、更自主的方向演进。

2. 复杂工具调用：

Agent 需要有丰富的工具调用能力，从基础的代码函数、应用程序，到复杂的 AI 模型，乃至硬件设备的运动控制算法。在实际运行中，大语言模型（LLM）通过文本形式对这些工具进行智能选择，并根据具体场景确定所需的调用参数。当底层完成相关工具的执行逻辑封装后，LLM 便能够自主地进行工具调用和任务执行，实现了一种高度灵活且可扩展的自动化范式。这种架构设计不仅提升了系统的适应性，也为 AI Agent 的能力边界提供了持续扩展的可能。

3. 视觉能力：

视觉能力意味着，AI 解除了获取用户界面和物理世界信息的限制，模型将可以与人类使用相同类型 UI，而不是通过 API 进行读取。视觉能力也将帮助 AI 获得更多的上下文信息，从而深入用户场景。

视觉的信息丰富度远远超过文字。因此，视觉能力也将决定未来大模型实际落地的价值有多大。我们完成任务不仅需要解决“它是什么”，还需要解决“它在哪里”。智谱发布的 GLM-PC 正是将其通用的视觉-操作模型 CogAgent 应用到了计算机上，CogAgent 模拟人类的视觉感知来从环境中获取信息输入，以进行进一步的推理和决策。

LLM 为中心的操作系统蓝图，正在逐渐清晰

已经离开 OpenAI Andrej Karpathy，曾在在 23 年发表了关于 LLM 操作系统（LLM OS）的愿景，他的想法是语言模型在某种程度上是一种新型计算机，一种新型操作系统。大语言模型置于计算系统的核心位置，类似于传统操作系统中 CPU 的角色。通过函数调用机制连接并控制外围设备（如视频、音频）、传统软件工具（如计算器、Python 解释器）、存储系统以及网络资源（浏览器、其他 LLM）

图片来源：Andrej Karpathy

从 Karpathy 的技术前瞻带来一些启发。计算范式转变从指令式到意图式：传统计算机需要精确的指令序列，而 LLM 可以理解模糊的人类意图并将其转换为具体操作。抽象层次的提升：就像 CPU 让程序员不必关心底层电路细节，LLM 让用户不必关心具体的程序实现细节。Agent 完成人机交互：Agent 替代人完成作步骤，普通用户也能完成复杂的计算任务

03 软硬结合的 LLM-OS 将成为 AI 落地的深水区

应用的繁荣来自于端侧操作系统的成熟

桌面端应用的繁荣受益于 Windows 和 Mac 等操作系统的成熟，移动端应用的繁荣受益于 Android 和 IOS 的繁荣。未来 AI 应用的繁荣，也将依赖于 AI 操作系统的繁荣。

前 Android 核心成员 Hugo Barra 认为开发者目前没有标准的工具和系统来构建 AI Agent ，并希望通过创建一个统一的平台来填补这一空白，使其成为 AI 世界的操作系统。其创立的 /dev/agents 首轮估值5亿美金，正致力于基于云的操作系统将跨设备工作，并利用生成性人工智能提供个性化用户界面。

大模型操作系统 LLM-OS 前夜已到

大模型公司与手机厂、PC 厂、芯片厂正在进行深度合作，软硬件的结合 LLM-OS 也将成为 AI 落地的深水区。Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革，还能将其推广到各类智能设备上，实现基于大模型的互联互通。这种全面的操控和协调能力，正是未来 LLM 驱动的操作系统的核心特征。

智谱新的产品发布涵盖了从 Phone Use、Computer Use、Car Use 到 All Device Use，全是基于 GLM 大模型链接智能与终端硬件。AutoGLM 只是智谱在端侧的初步落地，未来还将拓展更多场景和应用落地。智谱的客户及合作伙伴荣耀、华硕、小鹏、高通、英特尔等硬件厂商都看到了 AI Agent 的巨大前景，分别从不同的场景出发，展望智能终端的实践。

可以说大模型通用操作系统 LLM-OS 的前夜已经到来。

参考资料：

TechCrunch, https://techcrunch.com/2024/11/28/ai-agent-startup-dev-agents-has-raised-a-massive-56m-seed-round-at-a-500m-valuation/

查看原图 208K

深度 ｜2024 总结：AI Agent 元年，LLM 操作系统前夜