作者:Guangmi,Penny,Cage,Haina,Feihong,Siqi
01.
重注 Coding 是当下最强共识
Coding Agent 是科技史上增速最快的新物种
All in Coding Agent 是今年以来的头部 AI labs 的最强共识。
2025 年 Coding 只是 Anthropic 一家的 bet 之一,各个 AI Labs 各有侧重,Google 看重多模态能力,而 OpenAI 致力于 consumer 场景的体验。那么到了今年,Coding 成了大力所有 labs 都要重点投入的方向。
Coding Agent 不是简单基于 Chat 的产品和交互升级,而是一个已经被验证的高速增长的新物种。
相比之下,过去被 ChatGPT 验证的 chat 场景像是“今日头条”,而 Coding Agent 更像是一个“抖音”级别的机会:
• 是信息流推荐的第一个落地产品,把信息分发和屏幕占有做到极致体验,
• Chat 让智能交互,Agent 则是通过多轮、长程任务把刺激放大
Anthropic 发布 Opus 4.5 是这个跃迁的关键拐点。Opus 4.5 在发布当时虽然没有引起特别多的讨论,但它本质上是一个类似 GPT-3 到 GPT-4 的跨代际模型,让大众真正从 chat 模式切换到 agent 模式。
当然,也因为 Coding Agent,市场的注意力超前得集中到了 Anthropic,但我们认为模型竞争交替领先的趋势在 3-5 年不会变,随着 OpenAI、Gemini 在 Coding 的投入加重, “2025 年的 Google 时刻”至少会在 OpenAI 上重演。
这种交替领先除了单个公司,更重要的意义在于,今天我们看到的 Coding 相关增速,很可能只是下一轮的起点。
另外值得强调的是,即便还是 Coding 本身,各个 AI Labs 也会有细微的侧重差异,例如不少开发者提过 “CodeX 明显更聪明,而 Claude Code 要更加‘好用’ ”。
为什么所有 AI labs 都要下注 Coding
我们在 2025 年初第一次提及 AI Coding 的重要性:Coding 的意义不仅仅在于编程这个垂直任务,而是实现 AGI 的最好环境。
更具体来看:
1. 数字世界的任务几乎都可以用 Coding 来表达、实现。如果代码能覆盖白领在电脑上的绝大多数操作,那做好 Coding Agent 就意味着白领工作的大规模自动化可以在现有方法论下实现,无需等待新的范式性突破;
2. Coding 能力的提升不止是带来 ARR 大爆发,还会让 AI Labs 直接受益:在 Coding Agent 的辅助下,AI Labs 无论是在产品侧还是模型开发,都明显开始加速。
Source: Anthropic Opus 4.6 Blog
3. “知识工作大规模自动化”这件事已经在 AI Labs 实现,甚至成为重要竞争工具:没有领先的 Coding model,就相当于没有领先的 GPU,研发和生产力系统都将系统性落后。
4. Coding 具备天然的飞轮效应。Coding 的 feedback loop(反馈回路)是所有 AI 任务中最短、最清晰的,用户会持续追问直到问题解决,每一步交互都自然产生可用于训练的信号。
而今天 Coding Agent 的进步也标志着我们进入到 AGI 路线图的第二幕,Coding Agent 一旦真正跑通,AGI 的 90% 已基本实现。
做好 Coding 没有技术秘密
虽然 Coding 至关重要,但过去半年,Google 和 OpenAI 都出现过对 Coding 优先级的重大战略误判:忙于争抢 C 端,给了 Anthropic 抢跑窗口。不过目前各家前沿 AI Labs 都将 Coding 提到了最高优先级,在这样的背景下,判断 AI Labs 竞争终局的关键变量就变成了“做好 Coding”这件事本身的难度系数。
如果把这件事的难度按 1–10 分的维度打分,可以得到一个更清晰的判断框架:
• 当难度系数低于 4 分,说明任何一家 Lab 都能做到,Anthropic 的领先优势会被迅速抹平;
• 当难度系数高于 8 分,Anthropic 将在这一领域形成近似一家独大的格局,地位类似 TSMC、Boeing 或 NVIDIA。
做好 Coding 的真正难度不在技术 know-how 层面,而在组织与战略层面。
Anthropic 并不掌握别人不知道的“秘密配方”,核心壁垒就是把数据做到极致。但极少有 AI Lab 能够组织数百位顶尖研究员共同去做数据这种“dirty work”,因为每个 Lab 内最聪明的人都希望做自己的研究 bet、成为下一个 Ilya。Anthropic 的独特之处在于两位 founder 从 Day 1 就把“数据决定一切”写入组织基因,首席科学家 Jared Kaplan 亲自主导数据质量评估。
不过从长期视角来看,随着 OpenAI 开始在 Coding 上投入资源和团队精力,随着模型能力提升,ChatGPT 在 C 端积累的用户影响力很可能也会向高价值任务延伸,形成反向覆盖。
02.
AI Labs 进入战略与组织文化竞争
硅谷 LLM 格局更新
虽然 Anthropic 凭借 Opus 4.5 和 Coding Agent 在过去一个季度快速赶超,但从硅谷的 LLM 格局来看,头部 3 家的位置暂时并没有发生变化,第一梯队仍旧是 Anthropic、OpenAI、Google(Gemini)三家构成。也正如我们在前面提到的,随着 Coding 成为头部 Labs 专注投入的方向,下半年又会出现一波交替领先。
到 2026 年 Q1,硅谷 LLM 格局最大的变化其实在由 xAI 和 Meta 组成的第二梯队中:
• xAI 从竞赛掉队
尽管投入了大规模算力集群,但 xAI 的根本问题在于战略摇摆:多模态、chat、搜索、Coding 多线并进,每条都缺乏足够聚焦。2026 年初开始的核心人才流失会加剧这种情况。虽然将 xAI 纳入即将上市的 SpaceX 体内有助于从二级市场吸纳更多资金,但多线并进的问题并没有实质性变化,xAI 大概率会变为 SpaceX、XChat,甚至 Tesla 在内的智能基建,而非在公开市场和其他 Labs 直接竞争。
• Meta
Meta 是在 LLM 上的重注市场有目共睹:通过大规模收购和过去半年密集的顶级人才引进,Meta 从人才和资源角度正在全力冲击 Tier 1。但短期内差距仍然存在。
在今年, Neo Labs 也成为 LLM 领域的一股新力量,其中一些想要探索新的交互和 AGI 范式,还有一些是专注材料、Science 等垂直场景。
但就当前来看,这些 Neo Labs 站上竞赛牌桌,尤其是进入第一梯队属低概率事件。一方面,它们的范式探索才刚开始,方向尚未被验证,另一方面,市场上资本与 GPU 供给已被头部公司垄断,后者是限制 Neo Labs 的最现实的因素。
模型终局:新一代 OS
在第一次发布大模型投资报告时,我们提出大模型会成为 Windows 95 级别的新一代计算平台,而到今天,这一定位可以更加具象,即今天模型公司的形态看似多样,有个人助理、工作助理、Chatbot、Agent,但本质上都在争夺新一代 OS 的位置,人类的生活咨询、工作生产力、科研获取等都会围绕模型展开。
如果 LLM+Agent 是新一代 OS,那么参考 OS 竞争格局,我们也可以推演出 LLM 的竞争状态。OS 是一个典型的少数赢家占据核心入口的市场状态,全球范围内 OS 级产品屈指可数,Android(~46%),Windows (~30%)、iOS(~20%)、以及微信这样类 OS 的超级 APP。今天最领先的模型公司一定是 Agent 时代的 OS。
“御三家”组织战略文化复盘
Anthropic 在 Coding Agent 上的胜利,叠加今年以来 OpenAI 的组织大变动让我们意识到,在真正的新范式到来前,技术层并不构成模型竞争的绝对壁垒,组织和战略文化带来的增长飞轮值得在当下被 highlight。
模型训练没有 secret source,组织文化和战略才是。
Anthropic:战略聚焦的胜利
Anthropic 最值得关注的是它两年前就 all in Coding,但这一战略并非 Anthropic 从 Day 1 就想清楚的,而是 C 端窗口关闭,并且叠加 2024 年夏天 Sonnet 3.5 获得强反馈之后,在摸索中逐步收敛形成的。
Anthropic 的聚焦具体可以体现在以下几个层面:
1. 典型的 top-down 决策结构,组织核心是把执行做到位。在确定了 all in Coding 后,Anthropic 就放弃了 C 端市场和多模态,避开了和 OpenAI 与 Google 的正面竞争,而 OpenAI 和 Google 则在这两个场景下分别投入了不少资源;
2. 技术路线上 Anthropic 在所有 AI Labs 中对 pre-training 的信仰最为坚定:外界普遍认为 pre-training 已经撞墙时,他们坚持继续把 pre-training 做好;外界普遍神化 RL 时,他们也不过度拔高 RL 的地位。这一理念也与两位 founder 的物理学家背景高度相关:他们习惯从观测和规律出发,不执着发明新的 Transformer 或新架构,而是把 Transformer 的 scale 做好,把数据效率、架构效率、工程效率逐步优化到位。
3. 在产品层面,Cursor 爆火之后,Anthropic 内部也曾讨论是否要做类似的产品,但最终 Anthropic 认为 IDE 只是阶段性产品形态,终端才是最终形态,由此诞生了 Claude Code。这背后体现了一条更根本的产品原则:模型能力在指数级增长,产品必须承接新能力,因此必须面向 AGI 设计,而非面向当下工作流的固化形态。
而上述特点都可以从 Anthropic 的组织文化上找到根本原因:Anthropic 是一家 AGI-native 的公司,内部员工几乎全员信奉 AGI 会实现,Anthropic 内部的共同目标聚焦于实现 AGI,而 OpenAI 则更接近“一个人想做一件新事就容易分叉出去”,因此 Anthropic 的人才稳定性显著更高,Dario 每一到两周都会在内部分享自身最新思考,信息透明但外泄很少。这种文化也体现在执行力上,Anthropic 过去几年对外承诺的目标几乎全部实现,且常常超额完成。
OpenAI:正在被市场低估
虽然前半年 OpenAI 经历了组织变动,并因为战略失焦被 Anthropic 快速追赶,但整体上优势仍旧很明显:
• 根据官方公布的数据,ChatGPT WAU 已经接近 10 亿,付费订阅人数超过 5000 万,
• 过去两次模型范式创新均由 OpenAI 引领,综合能力与人才密度仍处于业内最高水位;
• 虽然下一代旗舰模型 Spud 尚未正式公布,但 GPT 5.5 已经带来明显能力升级,并且 CodeX 的用户规模和开发者口碑也在不断提升。
OpenAI 真正的问题是战略上的误判:公司长期非常重视 ChatGPT 的 C 端流量,没有及时意识到 Coding 才是主线。
• OpenAI 长期依赖 ChatGPT 这个高流量产品,倾向于用小模型服务大部分请求,pre-training 规模未能持续 scale。Anthropic 的对冲策略是主动放弃低价市场、专注高端高溢价用户,以维持大模型的运营成本并持续向上 scale,虽然这一策略目前仍有效,但压力也在加大。
• Sam Altman 并非技术出身,对技术路线取舍的判断精度不如 Anthropic,据传闻,OpenAI 内部同时推进的项目一度高达约 300 个。
• OpenAI 推崇 0→1 的突破,但对 1→10 的产品打磨投入不足,使得产品精细度整体偏低,口碑上更接近微软,而 Anthropic 的产品口碑更接近苹果。这一文化也导致研究员倾向于做突破性的事,承担数据清洗等基础工作的动力不足。
但 OpenAI 最强的生命力恰恰来自那套自下而上的探索文化:一两位研究员押中一个正确方向就可能带来一次范式跃迁,这是 Anthropic 今天的积累未必能抵御的风险。
Google:最稳定的追随者,但也最慢
去年底 Google 通过 Gemini 3 向市场证明了自身并非 AI loser,股价由此翻倍,借助 Google 强大的分发能力,Gemini MAU 追赶上了。不过,虽公开 Benchmark 成绩亮眼,但 Gemini 3 带来的 C 端增长并不持续,截止 2 月,Gemini 的增速已经降到 13%。
和 OpenAI 一样,Google 更根本的问题也是战略失误。Google 过去将 C 端和多模态放在最高优先级,资源集中在与 ChatGPT 的 C 端争夺战上,客观上让 Coding 被严重忽视。
此外,Google 的组织问题同样没有本质改变,不论是自下而上的文化、组织运转摩擦等都会成为 Google 在 AGI 竞赛中的绊脚石。但把时间拉长看,Google 反而可能是最能穿越周期的一家。即便在 worst case 下,Google 也能退守到类似英伟达的生态角色,仅 TPU 的产能本身就是一张底牌。
• Google 自有 TPU 资源极为充裕,Google de-risk 用的集群规模就已超过头部 AI Labs 的正式训练集群,可以并行两到三条技术路线;
• 虽然公司内部政治复杂,决策和行动不如 AI Labs 迅速,但体系化运转能力仍然很强,一旦方向确定就可以及时跟进;
• Google Search、Android、Google Workspace 等基础设施仍是极强护城河。
03.
Agent Play book
放弃 To B/To C 的旧地图
在过去 2 年,我们谈到 AI 公司策略、观察 AI 公司产品进度时,仍会看重 DAU、ARPU、MAU 等互联网时代沉淀下来的指标。如今的市场坐标系不应该再沿用 To B / To C,而应该重新以服务对象 To Human / To Agent 来划分。要探索 Agent-native 的时代的机会一定要新地图。
SaaS 时代软件的 GTM 路径可以相对清晰地分为 PLG(application 类软件为主) 和 to Enterprise,但 AI 工具的普及顺序已经普遍个人先付费、公司 IT 预算随后追入,同一款产品同时服务“个人工作流”与“组织工作流”,To B 与 To C 的传统边界已经模糊,而这些 AI 工具的统一特征都是 to Prosumer,或为知识工作者设计。
与此同时,Agent 本身正在成为新的消费者与生产者。整个市场都在为 agent 打造新的生产环境,并且 Agent 已经开始以独立身份发起交易、消耗资源、产出价值。
一方面,整个市场正在为 agent 重构基础设施:
• Stripe 在为 agent 提供身份与支付中枢;
• Anthropic 在通过 MCP、Skills、computer use 等机制设计 agent 的访问策略,GUI 与浏览器被转化为 CLI 或 API,软件的操作权被交给 agent;
• Cloudflare 的文档系统都为 AI agent 嵌入了 markdown 版本提示和 llms.txt 这类 agent 原生的索引文件。
另一方面,agent 已经开始以独立主体的身份进入经济系统:Cloudflare 上周宣布允许 agent 直接创建账号、开通付费订阅、注册域名、拿到 API token 部署代码,这是 agent 第一次以独立客户身份进入云服务商的客户体系,自己开户、自己付费、自己消费资源;叠加此前的 pay-per-crawl(对 AI 爬虫单独定价收费),agent 既是付费客户,也是被独立计费的流量主体。
Agent = Model + Harness
Harness 是贯穿 Q1 的 Buzz Word,这个词之所以被大量讨论本质上也和 Agent 相关。
Agent= Model + Harness,除模型本身外的所有工程封装,都可以归为 Harness,而模型智能、在 Agent 任务的持续进步离不开 Harness 上的投入。
以 Claude Code 为例,核心运行机制 Agent Loop 只有几十行代码,可拆解为 11 步,重点在第 5-8 步:Agent 接到任务后进入循环判断,判断需要做什么、需要什么上下文、是否要调用工具,直到第 8 步判断任务是否完成,如果未完成,agent 会继续执行。整体实现逻辑非常简单,但正是这个机制让 agent 从处理 1 分钟任务跨越到处理 20 分钟、2 小时乃至更长时间跨度的任务。
目前 Model 层的机会基本已被 Anthropic、Kimi、字节等头部公司锁定,但 Runtime 层以及如何把 Harness 和 Context 做得更好,仍有大量空间。
Why Now:Agent 设计哲学发生了根本转变
Harness 的“流行”背后是 Agent 的设计哲学的根本性转变,这一转变本质上是对模型的信任度之争:两年前以 LangChain 为代表的主流方案用大量 rule-based 逻辑做控制,通过 chain 把任务串起来,本质是不信任模型能力、用规则兜底。而 Anthropic 的 Harness 理念恰恰相反,充分信任模型,把 Harness 做到极简。
Anthropic 的商业模式也随之发生结构性转变,Managed Agents 是 Anthropic 第一次把 Harness 做成托管型产品:开发者定义一个 agent 只需指定模型、工具、指令,随后放入 Anthropic 托管的环境,再通过 session 执行任务、通过 events 回传状态。
这也意味着 Anthropic 正从一家按量收费的 API 公司,向 Agent 云公司或 Agent OS 进化:从前卖的是 Token,现在卖的是 Runtime,也就是说用户既可以让 Claude Code 在本地跑,也可以让 agent 在云端环境中运行,session 管理与状态都留在 Anthropic,用户粘性远高于单纯的 API 调用。
04.
硅谷前沿趋势
Robotics
2026 年是机器人数据 Scaling 大年
和 LLM 领域不同,Robotics 目前的路线还没收敛,在“GPT-3 时刻”到来之前,今天的大量创新尝试最终会被抹平。从硅谷头部机器人实验室和团队的工作方向来看,2026 年将是机器人数据 Scaling 的大年。
全局来看,整个机器人数据体系可以用一个金字塔框架来理解,底层到顶层也可以分别对应 LLM 训练的不同阶段,这个框架可以帮助我们理解为什么 2026 会成为机器人数据 scaling 大年:
• Egocentric data:对应 LLM 的 pre-training 阶段
Egocentric data 数据成本最低、最易规模化。类似 LLM 通过全网弱标注数据建立世界理解,机器人通过第一人称视角视频学习物理光影与物体交互。Google Robotics 与 NVIDIA 目前都在主力推 Egocentric data 的 scaling。
• UMI 数据:对应 LLM 的 SFT 阶段
UMI 数据成本与规模化程度介于 egocentric data 与真机数据之间,可迁移性优于真机数据,但硬件构型仍必须与部署机器人完全一致。Sunday 与 Generalist 是这一类玩家的典型代表。
• Teleop 真机数据:对应 SFT
历史最久、直接绑定具体硬件,是训练底层控制和具身能力的关键。Nvidia EgoScale 中真正的真机数据只有 4 小时,但因为有前两层的强先验做支撑,所以已经足够支持复杂灵巧任务,甚至实现 one-shot 任务适应。
• World Model:对应 RL 阶段
相较传统 sim-to-real,world model 支持无限复杂度与多样性,但极度消耗算力,本质是用算力换真实世界交互。最终方向是 world model 与 sim-to-real 结合共同构建 RL 环境。
这套金字塔是一个大框架,实际训练中各类数据会共同发挥作用。目前没有任何一家公司能确定最优配比,egocentric data 的 scaling 也还没有到达出现 scaling law 的阶段,即使 Generalist 发布过相关 scaling 工作,但模型参数也仅在 7B–14B 范围左右,距离 LLM 那种数据、参数、算力三者协同放大的成熟阶段还有相当长的距离。
Hardware is All You Need
过去硅谷普遍奉行 AI first,但近期越来越多公司与研究员意识到:AI 落地必须依靠硬件。对机器人公司而言,AI first 与硬件 first 本质是同一件事,硬件不只是部署载体,更直接决定能否高质量规模化产生数据,进而影响模型训练与落地效果。
此外,美国公司也普遍意识到自身在硬件环节的短板,在核心零部件选型、系统架构、原型迭代、供应链响应速度等方面都不是强项。
这个趋势对于华人创业者是一个结构性机会:依托对中国供应链的理解和对美国机器人行业需求的熟悉,有可能打造出机器人领域的 TSMC,承接核心模组的选型设计与全流程迭代。
需要指出的是,灵巧手数据至今没有任何公司实现规模化采集,根本原因就在于硬件还不成熟。如果市场上出现像宇树机器狗一样稳定、成本足够低的灵巧手产品,那么灵巧手数据自然会成为主要数据类型。
技术趋势:从 VLA 转向 World Model Policy
在技术路径上,机器人行业正从 VLA 转向 World Action Model,背后有四方面原因:
1. 灵巧运动不需要语言,physical intelligence 才是机器人的本质需求。WAM 以“世界模型”而非语言作为 backbone,更符合第一性原理。
2. VLA 依赖带动作标签的数据,采集成本高。WAM 可直接学习视频数据,把视频作为世界演化的监督信号,不绑定 action-labeled data。
3. VLA 擅长语义泛化但容易过拟合在见过的任务上,换个光线或材质就可能失败;WAM 更擅长理解不同材质、位置、遮挡条件下动作对世界的影响,解决物理泛化问题。
4. 机器人任务天然是多步、需要路径选择与失败恢复的 long-horizon task。VLA 倾向于 single-turn decision making,而 WAM 能够“想象未来状态再选动作”,更适合长时序任务。
此外,WAM 在跨场景、跨 embodiment(不同机器人本体)迁移方面也具备优势。据相关论文,相比 SOTA VLA,WAM 在新任务与新环境上的泛化能力可提升超过 2 倍。
目前大量 world model 创业公司也将 robotics 列为长期核心场景。但需要注意的是,OpenAI、Google、NVIDIA 等头部 Labs 均已明确将自研 world model 用于机器人,且 world model 极度消耗算力,因此我们对“world model × 机器人”这一方向上的创业公司相对保守,因为头部 Lab 在这一方向上的优势更为显著。
Neo Labs:两条路线
2026 年和之前不太一样的是,硅谷也涌现了一大批 Neo Labs,从我们认为这些 Neo Labs 在融资逻辑和业务方向上可以大致分成两类,他们在做的事情和能吸引到的资本也完全不一样。
路线 1:追寻下一个范式
第一类 Neo Labs 的核心目标是追寻下一个范式。从历史规律看,AI 的范式更迭会反复触发“老核心团队出走、新 Lab 创立”的过程,几乎形成一条可复制的路径。
今天最明确的、值得 all-in 的新范式是 Continual Learning,虽然目前还没有明确技术路线,但业界已形成几个公认的关键点:模型要在交互中持续进步、数据效率要高、需要新架构、pre-training 到 post-training 的算法要统一。
这一路线下的代表公司是前 OpenAI reasoning 负责人 Jerry Tworek 创立的 Core Automation。
总的来说,这类公司面临的最大风险仍然是创新窗口是否还打开着。不过 2026 年有一个边际变化:Anthropic 与 OpenAI 把大量精力投入 Coding 竞争,下一范式的资源投入受到挤压,客观上为创业公司留出了一些空间。
路线 2:专注高价值 Vertical 领域
第二类 Neo Labs 是硅谷基金目前更偏好的方向,同样是明星团队,但有明确要解决的高价值问题,且与头部三家形成清晰差异化。目前 Agentic 能力的提升正在为高价值、高精尖领域打开创业机会,芯片设计、AI for Science、高温超导材料等方向的潜在回报,或许远高于“覆盖面广但有大量免费用户”的大众场景。
排版:夏悦涵