AI 正在成“体”,从能理解、会推理的“聊天机器人”,进化到能自主使用工具,进行任务规划、决策、行动的“智能体”(Agent),这标志着 AI 商业进入了一个新阶段。
从 OpenAI 为 ChatGPT 配备“虚拟电脑”,到 Cursor 让程序员转变为“任务设计者”,再到 Manus 上线 3 个月就达到近 1 亿美金年化收入,智能体正在成为 AI 商业新阶段的主角。
本文尝试清晰定义 AI 商业的智能体商业阶段,并展示不同类型的企业正在如何抓住这一契机,从而帮助创业者、拥抱 AI 的现有企业和投资者更好地做出商业和投资决策。
01.
自 2022 年 12 月 ChatGPT 引爆 AI 革命以来,AI 的产业落地一直在演进中。
那么,到现在为止,哪个产业是最大的受益者?
我们可以看到两条交织的演进主线。一条是从大模型到芯片、云计算再到 AI 应用的不断分层深化,一条是从讲故事、到投资浪潮、再到企业营收利润基本面的商业循环。如图 1 所示,从去年下半年开始,增长最快的企业,已经不再是做 AI 商业基础设施的企业,而是做 AI 应用的企业。从市场表现看,去年下半年起,AI 应用公司已经成为了 AI 赛道中与基础设施同样当量的主角(图 1 中红线)。
这意味着 AI 商业的发展,到了一个新阶段。这个阶段,就是智能(AI)成体(Agent)的阶段。
今年以来,DeepSeek、Qwen、Kimi K2 等中国开源大模型的突破,显然提升了全世界对英伟达 GPU 芯片的需求。但从年初到现在,黄仁勋始终坚持的就是“2025 年是智能体之年(2025 is the Year of AI Agents)”。而 DeepSeek 更像是一个意外的效率提升的“礼物”,不但不改变,而且会提速深化这条 AI 应用的主线。
除了大科技公司,创业者们也在争先恐后地涌入 Agent 赛道。在今年 6 月举办的 YC1 AI 创业营大会中,接近一半(46%)的参与企业,都将自己定位为智能体企业;前特斯拉 AI 总监、OpenAI 创始团队中的明星研究员 Andrej Karpathy 的一句话更是刷屏全网,他说:“我们并非处于智能体之年,而是身处智能体的十年时代(2025 is not the year of agents. This is the decade of agents)”。
犹如 DeepSeek 和通义千问撕开了原有的大模型产业格局,中国公司也是智能体阶段的重要玩家。甚至可以说,中国玩家为智能体赛道加了一把大火。
今年 3 月,Manus 迅速崛起,在 DeepSeek 之后成为中国 AI 的另外一个代名词。上线仅 3 个月,Manus 的年化收入(ARR)已经达到了 1 亿美金。如图 2 所示,Manus 日均访问量已经稳定在 60 万左右,都是智能体赛道绝对的第一名(第二名 Genspark 的日均访问量约 20 万),用户覆盖巴西、美国、中国、印度和埃及等国家,中国只在第三位。在 4 月,Manus 的母公司蝴蝶效应,宣布完成融资 7500 万美元,估值近 5 亿美元,相当于半年翻了 5 倍。
那么,到底什么是智能体?为什么这可以被定义为一个阶段?这个阶段的核心技术特征和商业特征是什么?这正在为 AI 商业带来什么样的商业趋势和落地节奏?我们希望通过这篇文章,探讨这些问题。
02.
为什么要定义技术进阶的节奏和阶段?
最重要的原因,是技术在每个阶段会有特征性的能力突破和局限性,这需要变成有清晰价值创造的产品,满足这个阶段可以满足的需求,才能激发企业和社会做更多的投入,带来下一个阶段的发展。所以这是一个供给创新和需求不断咬合的飞轮。
这意味着对于游戏的参与者们,理解每个阶段和核心技术能力、产品价值创造和可以承接的商业模式,是非常重要的。而不懂得这个道理的玩家,往往会付出不菲的代价。
举两个例子。第一,在预训练大模型刚推出的时候,因为大模型企业是唯一的主角,市场对其能力和价值有了超出阶段的、过高的预期。回头看,在国内外能够坚持做基础大模型的企业,要么开发出了有实际需求的产品,要么有足够的现金流和生态价值支持,美国的 OpenAI、Anthropic,中国的通义千问、豆包、DeepSeek,都是如此。第二,大模型企业一开始被认为是会对现有的产业带来很大的颠覆;而事实证明,以美国的 AI 七姐妹为例,大模型对现有的数据场景丰富的企业,已经成了现象级的赋能者,而非颠覆者。
所以,把握 AI 商业的落地,需要“看十年,但只定三年”。而这正是画进阶路线图的意义所在。实际上,每个产业都应该做这样的尝试。
到现在为止,从 L1 到 L2 阶段的技术、价值创造和典型产品都已经清晰。具体而言:
L1—聊天机器人阶段:被定义为能理解人类语言,像人类一样交互回答问题。核心创新技术是 GPT(基于 Transformer 架构的生成式预训练模型),其典型的落地场景是像 ChatGPT 一样的聊天机器人。
L2—AI 推理阶段:被定义为能达到博士水平的问题解决能力,能理解复杂的上下文场景(context)。核心技术创新是具备推理能力的大模型,通过后训练、强化学习、和思维链的方法实现;一个典型的场景是 Deep Research(深度研究),即结合互联网搜索能力、大模型知识能力和基于问题产出内容产品的能力的升级版聊天机器人,已经事实上成为新一代的搜索引擎雏形。
L3—智能体阶段:能够自主使用工具,进行任务规划、决策、行动。
L4—创造者阶段:AI创造出人类不知道的新知识,自主拓展科学的阶段。
L5—组织阶段:AI完全融入组织或者自成组织的阶段。
与 L1 阶段的注重理解人类语言和交互、L2 阶段的注重推理能力不同,在 AI 智能体阶段,也是在理解人类语言和交互、并且能够推理的基础上,更加注重的是“自主使用工具做任务规划、决策、行动”。或者说,L1-L2 阶段侧重智能的发展,L3 侧重智能的应用和行动。这个规划,在一开始就已经清晰了。
所以,这是一个 AI 应用落地阶段的开启,会持续很久。
那么,在这个阶段,不同类型的企业,应该如何抓住这个契机,发展什么技术能力,研发什么样的产品,让智能体成为自身商业的驱动力?
在下面,我们通过大模型企业、AI 服务企业、以及采用智能体的企业的具体案例,来回答这些问题。
03.
要理解智能体如何落地,需要回到 AI 的定义,知道 AI 是做什么的。简而言之,AI 是一种技术,通过处理在实际场景中的信息,产生价值。所以一个有用的思考框架,我们称之为“智能三环”:是推理、数据和场景。场景决定了有什么样的数据,而数据和推理能力结合的有效性,取决于是否能解决具体场景的问题。
之所以要强调智能三环,因为这三环的拥有者、以及在不同阶段组合的侧重,都往往不同。
智能体要有效落地,分玩家,无非几个路径:
大模型企业:在有效服务数据和场景的基础上,不断提升模型的基础能力,搭建 AI 基础设施,在通用性和落地性之间找到平衡。
AI 服务企业:如何研发工具箱和专业基础设施,不断便利企业更好的使用大模型来解决越来越复杂的场景中的工作;从智能三环的视角,就是搭建从大模型到数据和场景的一座座专业桥梁。
应用 AI 的企业:需要把产业和企业的 know-how 拆解成数字化的数据,这样可以用大模型来解决问题,也就是业务系统化,系统 Agent 化;从智能三环的视角,就是重构自己的场景和数据,拥抱大模型。
1. AI 大模型企业在智能体时代做什么?
我们先来看两家大模型企业,OpenAI 和Anthropic 是如何做的。
首先是 OpenAI。毫不夸张地说, OpenAI 是当下最活跃的 AI 初创公司,没有之一。如图 5 所示,年初至今,OpenAI 已经陆续发布了 DeepResearch 和 Operator(1 月)、GPT4.5(2 月)、Agents SDK(3 月)、o3 与 o4-mini(4 月)、Codex Agent(5 月)、o3-pro(6 月) 、ChatGPT Agent(7 月)、GPT5(8月)等等,可谓是“以月为单位推出王牌应用”。除此之外,仅上半年,OpenAI 就被传出以 30 亿美元收购 AI 编程企业 Windsurf(后被谷歌“截胡”)、64 亿美元收购 AI 硬件企业 io。
看似纷繁,OpenAI 的主线,到了 AI 智能体阶段,可以归为三类。
第一类是继续升级大模型能力。预训练模型的 GPT4.5 到 GPT5,以及后训练推理模型的 o3、o4-mini 和 o3-pro 都是如此。
第二类是用强化学习挖掘出大模型的能力,推出智能体工具和智能体产品。1 月发布的 Operator,是提供适合智能体使用的浏览器,其中在计算机使用场景中引入了思维链和强化学习。7 月发布的 ChatGPT Agent 更进一步,让 ChatGPT 拥有“虚拟电脑”,自主浏览网页,处理表单,调用 API,从而可以执行如购物、写邮件、生成报告等复杂任务,同时让用户保持控制权。用其技术团队的说法,能力源自“用强化学习的方法把 DeepResearch 和 Operator 结合起来的成果”。
第三类是建设智能体基础设施,为智能体做各种基建准备,包括环境、工具、上下文(Context,即“即时环境信息”)。ChatGPT Agent 团队具体描述了智能体所能运用的各种基础设施工具:“我们给了它一台虚拟机(智能体环境),让它能通过多种方式与网络世界交互...我们还为它提供了我们能想到的几乎所有工具,包括文本浏览器、图形界面浏览器、终端等,都集成在虚拟机里。然后,我们给它设定一些相当困难的任务(context),它必须综合利用这些工具才能完成。如果它完成得又快又好,我们就会给予奖励。通过这种方式,它逐渐学会了如何在这些工具间自如切换。经过这样的训练后,模型能学会在这些工具之间流畅地切换。”
这段话体现了如何创建智能体:通过设定困难的任务,训练智能体自主综合使用工具,规划、决策、行动,完成任务。
时隔两年 8 月 8 日刚刚发布的 GPT5,实际上是上述三个动作的合体:首先,在智能水平上,Sam Altman 称其为“真正的博士级专家”,而前代的 GPT4 则是“合格的本科实习生”,GPT3 则是“高中生”。其次,通过强化学习对代码能力的“补课”,GPT5 已经具备了和数字世界直接交互的触手。以及,GPT5 的一个重要更新,就是工具调用能力的显著升级。GPT5 已经能够串联数十次工具调用,保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。
在一项实际的用户复杂代码任务测试中,GPT5 完整地展示了自己的工作流:在思考后使用工具执行任务,发现不对劲时停下来思考,在中间做笔记,最后完美地执行了任务。而作为参照组的 Claude4 Opus,在经过一系列的工具调用后发现行不通,选择放弃了这个任务。这说明,GPT5 已经在执行复杂任务的过程中对过程本身、工具本身进行理解,并基于此做出改变、测试、迭代。也因此,尽管很多人认为这一次的突破不如 GPT3 到 GPT4 那么震撼,但仍然是“人类距离 AGI 最近的一次”。能够使用工具做出判断,执行复杂任务,GPT5 实际上既是大模型,也是智能体。
同样,从智能体的角度,也就不难理解为什么 Sam Altman 坚持要做硬件:硬件是智能体进入物理世界、获取环境信息(context)、规划和完成物理空间相关任务的工具。如果说 ChatGPT 的终极目标是一个高度个性化的个人 AI 助理,就需要硬件在物理世界搭建一个 AI 的感官系统,获取足够丰富的用户 context。
再看 OpenAI 的头号竞对 Anthropic。
和 OpenAI 不同,因为最初没有做成 ChatGPT 这样的超级 App,Claude 很早开始就收敛于开发者市场。这个选择反而让 Anthropic 积累了一个代码生成领域的数据飞轮,始终是代码领域的领先(SOTA,State Of The Art)大模型。用 Anthropic 的 CEO,Dario Amodei 在 2025 年 5 月的话来说:“3-6 个月内,AI 可以写 90%的代码,12 个月后,这个数字是 100%。”也就是说,代码生成将会在不远的将来几乎完全 AI 化。
在此之后,Anthropic 看到了一个和聊天机器人相反的使用趋势:当用户和 AI 聊天时(图 6 中的 Claude.ai),大部分的交互其实是为了增强用户自己的能力(Augmentation);但是当用户使用 AI 编程时(图 6 中的 Claude Code),大部分的交互反而是完全的自动化(Automation)。这意味着,随着模型能力的提升,编程会越来越成为大众用户而非专业用户的场景。或者说,自动化的 AI 编程工具会成为每一个人的、人类智能和机器智能协同的“脚手架”。
据此,Anthropic 在智能体商业中做的第一个努力,是运用其在代码 AI 领域的领先能力构建智能体基础设施:首先是代码基础设施,Anthropic 内置了数百个代码工具脚手架(包括 OS world、Computer use 等),帮助智能体基于任务,通过代码来访问数字世界的环境并可以执行任务。其次是数据调用基础设施, Anthropic 首创推出了著名的 MCP 协议,目的是让智能体可以跨系统访问不同 App 和应用中的数据,从而形成推理能力、数据和场景的智能体闭环。
值得强调的是,因为 Anthropic 的努力,AI 编程已经从一个单一产品领域(如 Github Copilot)升级成为一个价值 19 亿美元的创业生态,这个生态中包括了 Cursor、Windsurf、Lovable 等明星创业公司。代码能力已经被证明是通向 AGI 的关键路径之一。也因此,无论 OpenAI 还是谷歌,都在不惜投入重金追赶 Anthropic。
Anthropic 在智能体商业中做的另一个努力,是依赖代码开发数据和大模型的闭环,不断提升大模型能力。
Anthropic 和 OpenAI 的一个明显区别,就是 Claude 从没有像 GPT 系列和 o 系列那样明显地区隔基础大模型和推理大模型,而是一直坚持把二者统一放在预训练架构下。甚至于,Claude 的早期思维链版本 Thinking Claude,还是由一位上海的 17 岁高中生通过提示词做出来的。
差异的原因在于,代码因为其强逻辑性,预训练中本身就已经包含了思维链能力。所以在 Claude 眼中,并不需要通过强化学习或是提示词去激发后训练的推理模型的智能,而是可以通过数据直接迭代预训练模型的智能上限。
总而言之,在 AI 智能体阶段,大模型企业仍然需要迭代大模型的能力。但可能一个更加重要的机会,是搭建智能体的基础设施,并推出智能体工具和产品。OpenAI 志在把 ChatGPT 打造成一个现象级的个人 AI 助理,这就是 OpenAI 最重要的 2C 智能体。Anthropic 没有 ChatGPT 这样的现象级产品,所以其发力的重点,是围绕 AI 代码能力构建智能体的脚手架,智能体的数据使用基础设施。
2. AI 服务企业如何抓住智能体机会?
可能更能代表智能体精神的,是自身不做基础大模型的 AI 服务企业。在 L1-L2 阶段盛行一种假设,即随着智能提升,大模型会像海平面上升一样淹没一切,赢家通吃;基于这个说法,AI 服务企业都曾经在早期被质疑为大模型“套壳”企业,迟早要被替代。
但与此预测相反,AI 服务企业在快速崛起。这些企业的共同打法,是看到了实际的场景需求和大模型能力之间的鸿沟,通过组合模型和工具,用同样的模型,实现更高的场景任务效率。这是一批真正让智能潜力落地的玩家。
AI 服务企业因为聚焦应用,可能比大模型企业更加懂得大模型的价值创造。可以说,不做基础大模型企业的 AI 服务企业的崛起,最能代表 AI 商业在进入智能体阶段。
我们在此举三个典型案例:一是以 Cursor 为代表的编程智能体(最新估值 99 亿美元),二是以 Perplexity 为代表的搜索智能体(最新估值 180 亿美元),三是以 Manus 为代表的通用任务智能体(最新目标估值 15 亿美元)。
先看 Cursor。
Cursor 每个月都要给 Anthropic 支付超千万美金的 token 消耗费用,因此,很多人把 Cursor 的成功归功于 Claude 模型,并认为,当 Anthropic 选择要做一个代码助手智能体(比如今年 2 月发布的 Claude Code)时,Cursor 就会被淘汰。谷歌的元老级工程师 Steve Yegge 就曾评论:“Claude Code 让 Cursor、Windsurf、Augment 这些工具看起来都像是过时产品。”
但事实是,在 Claude Code 发布 4 个月后,Cursor 在 6 月底宣布年化收入(ARR)已经超过 5 亿美元,相比 4 月的 3 亿美元增长了 60%以上。也因此,Cursor 在不到一年的时间里完成了第三次融资(9 亿美元),估值达到 99 亿美元。
回顾 Cursor 崛起的历程,我们会发现,Cursor 是在一个与巨头竞争,且巨头有先发优势、有模型的独家授权优势、有场景优势的情况下杀出重围的。例如,在 GPT3 刚面世时,微软的 Github Copilot 就已经开始小范围测试,并在 ChatGPT 正式发布后半年时间,付费用户就突破了 100 万;到今年 5 月,其总用户数已经突破 1500 万,几乎是仅次于 ChatGPT 的 AI 应用。
所以,如果仅仅是套壳,Cursor 早应该没有生存空间了。 那么,它到底创造了什么价值?
用 Cursor 创始人迈克尔·特鲁尔的话说:“一种看待大模型的方式,是你像与人类助手一样与它们进行交互。另一种看待大模型的方式是,它们是编译器或者解释器技术的一种进步(Cursor 选择的是后者)....所以我们早期做的一个非普遍共识的产品决策,源于对一个更具颠覆性未来的兴奋,那就是不构建一个依附于现有 IDE 的扩展程序,而是构建一个新的编辑器。那在当时对人们来说并不显而易见。是的,这源于一种想法,即所有的编程都将通过模型进行。它在未来会看起来截然不同。你将需要控制用户界面。”
图 7 展示了编码智能体是如何炼成的。Cursor 最早为程序员提供的是代码补全能力(Tab),即在程序员编程的时候提示可能补全的内容;之后程序员可以通过对话,对部分代码做点状改动(Cmd+K);再之后则是可以通过对话让大模型对整个片段进行改动(Cmd+L);最后到了智能体阶段,智能体根据任务, 90% 的代码自动生成,到明年预期可以生成几乎所有代码。
在这个过程中,大模型从程序员的助手,逐渐变成真正编程的程序员,而程序员逐渐变身为任务的设计者;其结果,是每个人都可以设计任务,而编码智能体成为执行者。
我们可以对比一下在编码智能体领域,三种玩家做的完全不一样的事情:Anthropic 的 Claude Code,做的仍然是提升模型本身的代码能力和基础设施(GPT5 在追赶上来);微软的 Github Copilot, 做的是在人类已有的代码环境中(如 VS Code)嵌入 AI 的能力;而 Cursor 本质上是“为人机协同重新搭建一个代码环境,让智能体成为编码者,让人成为任务设计者”。三种选择都有各自价值,也不矛盾。比如,模型代码能力的提升,显然利好于 Cursor 这类为模型搭建工具、环境的公司,而不是直接的零和竞争。或者说,Cursor 是大模型企业的重要客户。
在智能体阶段,如果人是任务设计者,其主要工作是什么?
在 Cursor 定义的新协同范式中,人类最重要、最不可替代的工作,是对产品方向和逻辑、美学的“品味”,而所有的代码编写由 Agent 来完成,也就是所谓的“Vibe Coding(顺应感觉的氛围编程)”。Cursor 为做成编码智能体,需要搭建工具库、专门的决策模型和工具调用系统(比如读、写、代码库、任务执行界面等)。因此,通过 Cursor 搭建的智能体,Claude 模型可以进入到许多实际的复杂代码工作中,比如进行跨文件的大规模阅读和重写等,而这是仅仅接入 Claude API 时无法实现的。
最终,Cursor 搭建的智能体,是一个大模型、数据、产业场景的智能三环飞轮:通过观察专业和非专业用户的使用行为(何时接受、何时拒绝、何时修正代码),不断地迭代给大模型配备的工具、以及新范式的流程,而且这个大模型本身还在不断进步。用迈克尔·特鲁尔的话说:“我们的护城河来自于大规模的用户...如果你的产品有大量用户,你就能拥有一项规模化业务,并能了解产品在哪些方面出了问题,在哪些方面表现良好...如果你比其他人更快地推动前沿,你就能获得巨大的收益。”
再看 Perplexity。
Perplexity 的崛起,和 Cursor 非常类似。一开始,Perplexity 也被认为是 GPT 的“套壳”,即通过联网搜索、引用等来解决 ChatGPT 的幻觉问题,但既然聊天机器人的发展方向就是 AI 搜索,这些工具层面的进步几乎一定是 OpenAI 的“射程范围”。
比如当时的一篇流行文章《为什么绝大部分大模型创业企业都没有未来》这样写道:“AI 初创公司的核心错觉,是大模型的可组合性幻想,创始人们假设他们可以像曾经在 Windows 或 AWS 上构建公司一样,在 Claude、GPT 或 Gemini 之上构建价值数十亿美元的产品。但与云基础设施不同,大模型厂商并不是技术栈中的中间层。”
这是在假设,大模型不只是基础能力,会吃掉中间层。如果这个假设是正确的,则不做基础大模型的 AI 服务企业就没有生存空间。智能体阶段,仍然是原来玩家的游戏。
但事实已经与此相悖。今天,Perplexity 已经是价值近 200 亿美金的独角兽,是 AI 应用初创公司中价值最高的。这个案例佐证了定义 AI 进化阶段的重要性:在不同阶段,技术能力、价值创造、产品创新和玩家都往往不同,但人们却往往带着原来的认知惯性去评判新产品的价值。
Perplexity 的创始人 Aravind Srinivas 毫不避讳“套壳”的质疑,他说:“大多数成功的企业本质上都是某种形式的套壳。例如,可口可乐如果没有制冷技术的支持,可能无法成功,但它现在是一个极其有价值的直接面向消费者的产品...我们专注于如何利用这些模型进行后期优化,使其在总结、引用、格式化、以及为多个垂直领域(如金融、体育、推理等)创建定制化用户界面方面表现良好。模型之外还有太多事情可以做,完全值得去构建一个有差异化的业务。”这个道理是深刻又隽永的:一个企业不可能把广度和深度同时做到体验极致。
要做出大模型之外的价值,Perplexity 所做的,也是通过搭建一个智能三环的飞轮来迭代产品:到今天,Perplexity 的用户数已经达到 3000 万,这些用户所做的搜索和研究的行为数据,都可以被 Perplexity 用于优化产品——即如何更快地产出真实、准确的答案。
比如,Perplexity 在年初迅速接入了 DeepSeek,推出其免费版的 DeepResearch, 但是 DeepSeek 的一个挑战是幻觉率较高。到今年夏天,其联合创始人 Denis Yarats 在访谈中透露,Perplexity 已经专门建立了一套针对“幻觉”的搜索流程,包括让模型在没有依据时不要依赖内部知识幻想,而是诚实表达“我不知道答案”,请用户重新表述问题或提供更多信息,这个设计后来也被 GPT5 借鉴;以及通过不同的大模型之间的互相评价,来对抗幻觉。这些 know-how 都来自于对用户行为的洞察。
在商业模式上,Perplexity 提供的产品不是类似传统搜索的内容链接转载,而是基于搜索问题加工生成的新内容。这大幅度提升了用户体验,但也破坏了原有的点击收费广告模式。为此,一方面 Perplexity 通过订阅制向用户收费,一方面构建了一个和谷歌的“竞价排名”完全不同的广告模式:即在提供答案时确保客观、真实、不受任何广告的影响,但是在答案之后的追问中,加入一些广告因素,比如在跑鞋搜索的答案后,加入“什么让 Adidas 的网球鞋比 Nike 更好?” 这类问题。这让 Perplexity 的广告利润更低,但用户体验、用户信任更好:根据《华尔街日报》的报道, 6 月,美国桌面浏览器搜索流量中,有 5.6% 流向了 ChatGPT 或 Perplexity,相比去年同期翻了一倍以上。
第三个案例是 Manus。
Manus 显然也看到了一个不需要自己做大模型的生机勃勃的未来。用 Manus 创始人肖弘的话说,他从 Cursor 的成功里看到的是“大模型能力正在外溢”,带来了一个“新时代的安迪比尔定律”。这个定律缘起于 PC 和半导体行业——“不管Andy Grove(英特尔)造了什么,Bill Gates(微软)就会吃掉它。”放在今天,模型能力在快速进化,外面的“壳”也会基于大模型进化出新的产品。
就像这个产品的名字“Manus”一样(拉丁文,意为智力与技巧 Mind and Hand),Manus 做的事情就是把不断成熟的模型智能水平和代码能力“嫁接”到一个个消费级的通用复杂任务场景之中,包括分析公司财务表现、旅游攻略的规划、教育课程设计、自定义的生产力工具等等。不仅仅是有智力的聊天机器人,也不仅仅是代码生成智能体,而是特定场景中的智能应用。
Manus 是如何做通用任务智能体的?除了聚合各种工具之外,其最鲜明的特点,是 Manus 团队从第一天起,就决定把大部分精力放在“上下文工程”(context,即时环境信息)上。这是因为,大模型要有效发挥作用,必须理解要解决的任务所处的环境信息。对 context 的理解深度,决定了大模型的有效性。
7 月,Manus 的 CTO 季逸超发布了一篇长文,解释了为什么,以及如何做好 context 的理解能力。他认为,把这个能力做好,只要大模型更新,产品应用可以在几个小时内就实现能力的提升,而不需要几周。
上下文工程解决的第一个问题是,大模型本身的即时环境记忆能力有限。当上下文长度超出这个上限(如 128K)时,模型性能就会下降,推理成本开始抬升。此时,大模型公司提供的选择,要么是让用户重开一个聊天窗口,但就因此丢失了之前交互的信息,损害用户体验;要么是采取信息压缩策略,仍然会导致信息的丢失。对此,Manus 的解决方案是为智能体构建一个无限大小的文件系统。模型只要学会读写文件的动作,就相当于有了一个无限长度的外部记忆库。Manus 则可以在不永久丢失信息的情况下缩减上下文长度。
上下文工程解决的第二个问题是,随着上下文长度的扩展,模型容易“跑偏”的问题。这是因为,一个典型的复杂任务平均涉及到 50 次工具的调用、数万个 token 的消耗,有上下文长度限制的模型,往往会忘记最初的目的是什么,而只依赖最近的上下文进行推理。为了解决这个问题,Manus 引入了一个“复述机制”,智能体自己创建一个“待办事项(todo.md)”的文件,并在任务的进行中不断地更新它。本质上,这是让模型自己来引导自己的注意力,而不需要改变模型架构。
上下文工程解决的第三个问题是模型犯错的问题。犯错的原因有很多,包括模型本身的幻觉、环境的错误、工具的异常等等,很像我们人类自己也会出现幻觉,遇到电脑死机等等意外情况。但是,常见的处理方法却是“重启”,即清理之前的错误,重置模型的状态,希望模型像电脑一样神奇地进行正确的步骤。但是,Manus 看到的一个非共识是“改善 Agent 行为最有效的方法,就是让错误的尝试保留在上下文中。”也就是说,我们更应该将智能体比做人,而不是电脑。
上下文工程解决的第四个问题是,模型的“选择困难症”。也就是说,当人类给模型配备越来越多的工具,智能体反而会变笨。这是因为,工具太多以后,模型容易挑选到不合适的工具,或者采取了一个非常低效的工具组合。所以,Manus 除了给模型建工具之外,还提供了一套选择工具的方法,即帮助智能体感知工具的可用性,把不合适的工具“遮掩”起来。
以及,Manus 通过尽可能保持上下文前缀不变(可以理解为保持一种语言体系、语言习惯,或是口头禅),来提高 KV 缓存2的命中率,实现 10 倍级的成本节约。
我们通过 Cursor、Perplexity、Manus 三个自身不做大模型的 AI 服务企业的案例,已经可以看出,到了智能体阶段,一个非常重要的能力,是能够搭建从大模型到一个个专业应用场景的桥梁。这些桥梁的重要性,相信很多用过 ChatGPT 和 DeepSeek、但发现不达效果的企业和消费者,都会很有感受。
曾经有一个在 L1 阶段就流行的假设,就是大模型会消灭中间层,也就是说 AI 商业的落地不会重复安迪比尔定律。而实践的发展已经对此证伪。构建从大模型到数据和场景的有效桥梁,正是智能体阶段的大机会所在。
04.
我们用 Meta 的案例来分析,AI 原生企业之外,有丰富数据和场景的企业,如何拥抱智能体?
Meta 不但在改变自己,也在深刻改变数字广告行业。
在刚刚过去的二季度,Meta 交出了一份“完美财报”(图 8):营收同比增长22%,意味着一个每年 2000 亿美元的超大广告体系,仍在以超过 20% 的速度增长;四大核心应用的营业利润率达到了 53%,历史高位。无论是四大核心应用的营收增速,还是其利润率,都因为 AI 在过去两年中出现了明显的拐点。其市值从 2023 年初的不到 3000 亿美元,到现在突破 2 万亿美元,历史新高,成为 AI 应用企业最亮眼的代表。
05.
写这篇文章的初衷,是尝试清晰定义 AI 商业的进阶阶段,从而帮助创业者、企业和投资者更好地做商业和投资决策。
今年是人工智能(AI)成体(Agent),也就是智能体之年。这也是智能体阶段的第一年,在到下一个阶段——AI 可以超出人类创新性地生成和解决问题之前,智能体阶段会持续很长时间。这是 AI 渗透入商业和经济生活的关键阶段。
这个阶段被定义为 AI 可以自主使用工具,规划、决策和完成任务。如果说在 AI 的 L1 和 L2 阶段都更加注重智能的水平,那么这个阶段的核心特征,显然是 AI 的应用能力。
我们提出的智能三环—推理、数据、场景的概念,可以用来给不同玩家分类,并且理解不同玩家在这个阶段的经济学逻辑。
第一类玩家在智能三环最左边,是基础大模型企业。对于这些企业而言,除了继续提升大模型能力,更加重要的机会,则是为智能体提供各种工具和基础设施。
一种特别重要的工具是编程。代码是智能的语言,智能要解决一个个场景任务,必然要通过编码来执行,只不过分预先写好的编码还是新的编码而已。虽然没有做成像 ChatGPT 一样的现象级 2C 应用,Anthropic 的快速发展,离不开其大模型提供的编程能力。现在跑得快的几个 AI 服务企业,例如 Cursor 和 Manus,都受益于 Anthropic 的编程基础设施。
第二类玩家在智能体三环的中间,是 AI 服务商。其核心任务不是做基础大模型,而是用智能体的方式,构建从大模型到运用场景数据、完成任务的桥梁。不做基础大模型的 AI 服务商的快速崛起,是智能体阶段的鲜明特征。
这也被证明“安迪比尔定律”依然是有效的。基础大模型在提供通用能力的同时,没有办法把专业落地能力也做到极致。
第三类玩家在智能三环的最右边,是具备场景和数据,用智能体的方式拥抱 AI 的企业。为了能够拥抱大模型,这些企业需要围绕用户价值,梳理业务流程,让业务系统化、数字化,然后让系统 Agent 化。
Anthropic 首席执行官 Dario Amodei 说过,“智能体很快会在几乎所有事情上超越我们”。比尔盖茨也同意,“ Agent 对软件行业和整个社会的冲击都将会极其深远”。 这三种玩家代表着大量的商业和投资机会,但能不能抓住机会,把故事落到基本面,当然因人而异。
不错过机会也需要一种责任感。正如 Sam Altman 提醒的,“越是开端,越需要每个人带着责任去把握这次机会。”
抓住机会从理解开始。
注释:
1 YC 的全称为 Y Combinator,是硅谷著名的创投公司,专门投资种子阶段的初创公司,并且会在每年举办两次为期三个月的创业课程。Sam Altman 在创办 OpenAI 之前,曾任该创投基金的掌门人。其中国团队,就是后来陆奇先生创办的奇绩创坛前身
2 KV 缓存(Key-Value Cache)是一种优化大模型推理速度的关键技术,能够显著提升推理效率。它的核心思想是通过缓存自注意力机制中的历史键值对(Key-Value),从而避免大量重复计算