2024 年即将结束,今年行业对 AI 的论调也基本尘埃落定.相比 2023 年的多个重磅发布,2024 年是模型能力的小年,但 AI Agent 却是实在的大年。OpenAI、AI 大模型独角兽 Anthropic、微软等科技公司纷纷转向开发 AI Agent,试图打破目前 LLM 的技术平台期。
Anthropic 发布 Computer Use
OpenAI 重新定义 AGI 路线,Agents 和工具调用是后续重点
微软也在加快 AI Agent 的脚步
国内大模型公司紧随其后
图片来源:智谱
02 Agent 趋势:强自主性、视觉、任务操作,开始向 OS 迈步
Agent 发展趋势:
1. 强自主性:
AI Agent 与传统软件自动化系统存在本质性差异。传统自动化系统通常要求用户通过规范化的方式——无论是基于 UI 的拖拽操作还是编程方式——来定义具体的操作逻辑,以此取代手动编码。这种方式需要经历完整的实施周期:从前期的业务流程分析,到中期的部署实施,再到后期因界面或句柄变更而进行的重新部署。
相比之下,AI Agent 展现出更高层次的智能自主性:它只需要一个明确的目标指令,就能够自主完成任务的分解与执行。在纯软件环境中,AI Agent 的能力范围已相当广泛,从网页浏览、办公软件操作,到购买决策分析,甚至能够执行支付操作等复杂任务,体现出显著的适应性和灵活性。这种范式的转变标志着自动化技术正在向更智能、更自主的方向演进。
2. 复杂工具调用:
Agent 需要有丰富的工具调用能力,从基础的代码函数、应用程序,到复杂的 AI 模型,乃至硬件设备的运动控制算法。在实际运行中,大语言模型(LLM)通过文本形式对这些工具进行智能选择,并根据具体场景确定所需的调用参数。当底层完成相关工具的执行逻辑封装后,LLM 便能够自主地进行工具调用和任务执行,实现了一种高度灵活且可扩展的自动化范式。这种架构设计不仅提升了系统的适应性,也为 AI Agent 的能力边界提供了持续扩展的可能。
3. 视觉能力:
视觉能力意味着,AI 解除了获取用户界面和物理世界信息的限制,模型将可以与人类使用相同类型 UI,而不是通过 API 进行读取。视觉能力也将帮助 AI 获得更多的上下文信息,从而深入用户场景。
视觉的信息丰富度远远超过文字。因此,视觉能力也将决定未来大模型实际落地的价值有多大。我们完成任务不仅需要解决“它是什么”,还需要解决“它在哪里”。智谱发布的 GLM-PC 正是将其通用的视觉-操作模型 CogAgent 应用到了计算机上,CogAgent 模拟人类的视觉感知来从环境中获取信息输入,以进行进一步的推理和决策。
LLM 为中心的操作系统蓝图,正在逐渐清晰
已经离开 OpenAI Andrej Karpathy,曾在在 23 年发表了关于 LLM 操作系统(LLM OS)的愿景,他的想法是语言模型在某种程度上是一种新型计算机,一种新型操作系统。大语言模型置于计算系统的核心位置,类似于传统操作系统中 CPU 的角色。通过函数调用机制连接并控制外围设备(如视频、音频)、传统软件工具(如计算器、Python 解释器)、存储系统以及网络资源(浏览器、其他 LLM)
图片来源:Andrej Karpathy
从 Karpathy 的技术前瞻带来一些启发。计算范式转变从指令式到意图式:传统计算机需要精确的指令序列,而 LLM 可以理解模糊的人类意图并将其转换为具体操作。抽象层次的提升:就像 CPU 让程序员不必关心底层电路细节,LLM 让用户不必关心具体的程序实现细节。Agent 完成人机交互:Agent 替代人完成作步骤,普通用户也能完成复杂的计算任务
03 软硬结合的 LLM-OS 将成为 AI 落地的深水区
应用的繁荣来自于端侧操作系统的成熟
桌面端应用的繁荣受益于 Windows 和 Mac 等操作系统的成熟,移动端应用的繁荣受益于 Android 和 IOS 的繁荣。未来 AI 应用的繁荣,也将依赖于 AI 操作系统的繁荣。
前 Android 核心成员 Hugo Barra 认为开发者目前没有标准的工具和系统来构建 AI Agent ,并希望通过创建一个统一的平台来填补这一空白,使其成为 AI 世界的操作系统。其创立的 /dev/agents 首轮估值5亿美金,正致力于基于云的操作系统将跨设备工作,并利用生成性人工智能提供个性化用户界面。
大模型操作系统 LLM-OS 前夜已到
大模型公司与手机厂、PC 厂、芯片厂正在进行深度合作,软硬件的结合 LLM-OS 也将成为 AI 落地的深水区。Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。这种全面的操控和协调能力,正是未来 LLM 驱动的操作系统的核心特征。
智谱新的产品发布涵盖了从 Phone Use、Computer Use、Car Use 到 All Device Use, 全是基于 GLM 大模型链接智能与终端硬件。AutoGLM 只是智谱在端侧的初步落地,未来还将拓展更多场景和应用落地。智谱的客户及合作伙伴荣耀、华硕、小鹏、高通、英特尔等硬件厂商都看到了 AI Agent 的巨大前景,分别从不同的场景出发,展望智能终端的实践。
可以说大模型通用操作系统 LLM-OS 的前夜已经到来。
参考资料:
TechCrunch, https://techcrunch.com/2024/11/28/ai-agent-startup-dev-agents-has-raised-a-massive-56m-seed-round-at-a-500m-valuation/