图来自魔搭社区
极佳视界在具身行业一直是个独特的存在。
无论是脱胎于华为的智元机器人,还是当红炸子鸡宇树科技,围绕的还是本体、数据采集和感知检测等生态,算法研究较少。华为一位具身智能研究员说,“大家都在卖铲子,只有极佳在挖金矿”。
至少半年前,在具身领域挖金矿并不被视为一门好生意。当宇树机器人在春晚上依靠扭秧歌一炮而红,智元机器人量产机稳步走进工业场景时,外界很少会关注一个每年发布至少数十篇论文,试图参透机器人大脑在物理世界运行规律的公司。
在之前的各种具身智能榜单中,极佳视界鲜有露出。但是在车圈,极佳视界又无人不晓。理想、小鹏、小米、比亚迪、大众、奔驰等头部车企几乎都是它的客户,“在自动驾驶世界模型领域,几无对手。”极佳视界的联合创始人兼首席科学家朱政说。
车厂掌握绝对话语权的产业体系下,自动驾驶只是极佳视界商业化落地的过渡场景。真正值得挖掘的金矿,是极佳视界所锚定的物理世界“OpenAI”——具身智能。
先行者总会率先得到犒赏。过去三年,极佳在迭代的数千个模型里不断探索边界,到2026年春节,模型测试结果中浮现出新范式:在完成多任务或few shot训练上,VLA更像是大语言模型早期的BERT模型,无法Scaling(规模化扩展,通俗理解就是大力出奇迹),世界模型才是下一代的“ChatGPT”。
极佳视界早在2023年成立时就瞄准世界模型,国内外几乎没有任何可对照的坐标。这家公司团队组成,实际上也符合中国投资圈的典型审美——创业团队出自明星公司,有自己的技术坚持和量产经验,核心成员纽带紧密,分工默契。
创始人、CEO黄冠和朱政同出自清华大学自动化系,也是国内最早做机器人视觉感知业务的大牛级人物。黄冠是自动驾驶芯片公司地平线早期视觉感知技术的核心人员,也是一位连续创业者。朱政角色更像是技术舵手,连续四年入选斯坦福大学的“全球前2%顶尖科学家榜单”,今年3月还被阿里魔搭社区评选为EAI具身先锋人物TOP20。
另一位创始人孙韶言曾任阿里云总监、地平线数据闭环产品线总经理,副总裁毛继明曾是百度Apollo仿真技术负责人。
以下是《白鲸实验室》和朱政的对话,为了文本阅读方便,我们做了精简处理。
01
VLA模型的Scaling失效了
白鲸实验室:从去年十月开始,你们的融资节奏很快,基本上一个月封闭一轮。我了解到你们今年3个月估值已经翻了3倍,现在也跻身百亿估值独角兽。投资人到底在为什么叙事激动?
朱政:具身领域的世界模型,比语言模型整体发展节奏上要晚几年,但发展逻辑大致相似。从资本角度上看,随着国内上市的智谱、MiniMax市值上涨到2000-4000亿人民币,资本看好世界模型再造个千亿市值的公司。
从技术上看,世界模型来到了拐点时刻。现在流行的VLA模型(vision—language- action),不管自动驾驶还是具身领域,更像是早期的BERT模型(谷歌2018年推出的,在ChatGPT走红之前,BERT是NLP时代最具标志性的模型),大家意识到世界模型才是接下来的GPT,即将迎来新一轮的爆发,这两年增速会非常快。
我们做过很多实验发现,VLA在数据Scaling上面比较低效。
世界模型更容易实现Scaling,我们给世界模型加到数十万小时的数据,在一些简单的多任务的表现上,有80、90%成功率,已经超过VLA的60、70%。这是我们最近一个最重要的发现。
白鲸实验室:这个是共识吗?
朱政:可能有同行已经发现了,但还没人对外讲。
在对比实验中,当把VLA预训练的数据,从一万小时加到数十万小时,Scaling效果比较缓慢。现在VLA,需要针对单一的业务场景收集非常多的训练数据,做后训练。
比如为了学会冲咖啡、叠衣服、倒水,会给它单一业务的数据做后训练。这样成功率会比较高,基本上接近百分百。但这样的模型没有泛化能力,一个模型只能干一件事,换个任务,需要再重新后训练。
第二,VLA模型没有zero shot、few shot或者one shot能力。当针对一些特殊场景,模型后训练数据只有一条或者几条时,模型也能迅速学会这个场景技能。世界模型在这方面很有潜力,只要给出几条数据,就能有不错的表现。
这个春节前后,我们基本上断定,世界模型会代替VLA。
白鲸实验室:业内很多人包括宇树的王兴兴就曾质疑VLA表现不好,不过后来遭到理想汽车自动驾驶研发副总裁郎咸朋(现已离职)的反驳,他说VLA就是自动驾驶最好的模型方案,也是通往下一代机器人系统的通用架构,世界模型只是VLA的“考场”。你怎么看?
朱政:自动驾驶场景下的VLA和世界模型的差别,跟具身不一样。因为自动驾驶行业有海量的数据训VLA,而且自动驾驶的任务多是单一任务,VLA模型可以完成的很好。
而具身场景下,机器人完成的通常是多任务,以及泛化场景,我认为世界模型更有优势。
从第一性原理上看,VLA本质是多模态模型,它的预训练范式就是图文对的匹配,把所有输入映射成语言,导出action。语言对action帮助不大。一个最直接的例子是许多动物也没有自己的语言系统,但也不妨碍它的运动能力。
只不过现在语言模型、多模态模型比较发达,现在市场通用做法是继承多模态模型的训练权重,再利用机器人数据训练action能力,我们认为这个方式上限有限,用视频生成方式,也就是世界模型训练可以实现更好的效果。
白鲸实验室:听起来这个结论得出并不难,为什么大家之前不敢下这个判断?
朱政:现在大部分VLA,是通过后训练做单一任务。增加预训练数据的同时,再通过后训练,确实能让单一任务的成功率往上提。大家对VLA关注点还停留在单一任务的完成上,很少有人去尝试多任务和few shot的训练,在多任务和few shot的训练上,很多人很快会发现问题。
白鲸实验室:你们觉得在资本市场上受欢迎,是因为数据的尝试?
朱政:不只是数据,最重要的还是模型架构。如果没人研究出GPT模型,都用BERT模型。数据再多,也无法Scaling,这是VLA模型和世界模型最本质的差别。
白鲸实验室:小鹏汽车今年3月推出第二代VLA,去掉中间的language转译,被视为探索物理模型的新范式。你们怎么理解和区分VLA和世界模型?
朱政:小鹏汽车的第二代VLA已经接近世界模型了。VLA和世界模型的区别还是基模不同,VLA的基模是VLM,由LLM衍生出的视觉模型。本质上是它更倾向于看见画面,理解成语言然后映射动作。
而世界模型的基模是视频生成模型,是基于一段视频或者状态,预测和推演下一个画面。
白鲸实验室:2025年的风口是VLA ,今年开始转向世界模型,但目前世界模型技术路线分歧还挺大的,你觉得现在过于炒作了吗?
朱政:世界模型的概念其实很早就出现了。上个世纪说的世界模型,主要是说机器人本体对外部世界的建模,类比人在自然界的生存,需要对世界怎么演进有基本的认识和判断,机器人也需要对世界的基本认识,做出预测和研判。
从应用场景上看,很多产品也可以称之为世界模型。有时候,SORA也自称为世界模型。图灵奖得主Yann Lecun做的是对隐空间的预测,也称为世界模型,李飞飞做单图可以生成3D世界,人可以在里面自由漫游,因为包括预测能力,她也称之为世界模型。
上面提到的这几个世界模型还是通用场景,我们主要关注还是自动驾驶和具身领域的世界模型,确实世界模型比较有潜力,所以觉得大家关注属于正常。
02
要做物理世界的OpenAI
白鲸实验室: 2023年6月,当时生成式AI还没有爆发,你们当时就all in世界模型,是看到什么具体信号吗?
朱政:22年底,ChatGPT出来后,我们试用过很多次,认为这会彻底改变所有的游戏规则。我们是做视觉出身的,当时就想着如何利用ChatGPT的技术思路,做一个视觉版的GPT。
白鲸实验室:你们做融资的同学也提到,你们想要成为物理世界的OpenAI,这给我的印象你们确实是一个野心很大的团队。
朱政:是的,我可以非常直白的说,24年估值还只有十亿时,我们就有这种目标。当时为了对标大语言模型的OpenAI,我们当时定的目标是千亿估值。
到今天还是这个目标,虽然现在估值到了100亿,还远未实现目标。MiniMax 、智谱现在市值2000-4000亿人民币,我们认为自己是可以和它们对标的。
白鲸实验室:今年以来,好多都在转向世界模型。怎么判断你们研究的是GPT,其他的人不是GPT呢?
朱政:23年,无论业界还是学术界,都很少探索世界模型时,我们就开始做世界模型,当时落地比较成熟的是自动驾驶。为了做好世界模型,同时也做了许多VLA模型。
白鲸实验室:你觉得你们最先跑出来的优势是什么?
朱政:我觉得最重要的因素是我们做的比别人久,踩的坑也多。因为模型是需要大量训练,没人敢说一次训练就成功。很可能99%的模型都是失败的。只有剩下的1%的模型才能提供正确的方向,校正模型路线。这对团队要求很高,也是非常细致的功夫,是需要经验积累的。
白鲸实验室:你们做过多少次实验?
朱政:算上VLA模型和世界模型,我们训练了几千个模型。(成立不到3年,这样算下来每天至少要训练出一个模型)
白鲸实验室:创业以来,有让你始料未及的吗?
朱政:我想想,我们刚开始时还是受自动驾驶的影响比较大,没想到具身智能行业会这么火。
自动驾驶其实是我们的一个舒适区。我们非常了解车企,需要什么样的数据和闭环仿真器,交流无障碍。公司营收每年大概有几千万,当时的产品线、技术比较收敛,交付的也快。
当我们几乎和所有头部车企合作后,发现自动驾驶是存量生意,具身智能可能是是未来更有想象力的一件事情。24年下半年开始把重心倾斜到具身智能。
但具身对我们来讲,确实是一个全新的市场,和传统车企不一样。当时的具身行业只有本体制造商,如宇树、众擎、星动纪元,本身也都是创业公司,机器人也没像汽车成为标准产品,即使到现在机器人还没有量产,部分处在半量产的阶段。
大脑可能更明显。行业此前主要做小脑比较多,擅长运动控制,类似翻跟头、跳舞、跑步等动作。大脑还处在一个初步探索的早期阶段,我们其实也是从零开始做,同时做VLA和世界模型,中间踩了很多坑。
白鲸实验室:踩了很多的坑,是指什么?
朱政:我觉得最大的坑是一开始没有做本体,采用一脑多型的战术,即用一个大脑去适配所有的本体。
一开始,我们几乎尝试了市面上的所有机器人本体,采集数据,训练模型,后来我发现这个战术实在太激进了,纯粹是给自己添堵。一方面训练VLA或世界模型其实离不开本体,因为你需要用本体采集数据。
另一方面,还有一个很现实的问题,市面上的本体虽然会开放各种API接口,但各种底层的设计是不会对外开放的,底层的很多设计,即使觉得不合理,也只能接受。
我们最后决定,收敛到一脑一型,自己造本体,用自研本体采集数据,再将训出来的模型部署在自研本体上。这样可以给用户最好的体验。
白鲸实验室:当时这个阶段用了多久?
朱政:我们大概折腾了将近半年的时间吧。
白鲸实验室:当时业内在这方面还没有形成共识?
朱政:我觉得每个行业都会存在类似的问题。行业刚兴起时,大家都会抱以极大的热情解决终极问题,即一脑多型的问题,希望自己的算法可以跑在任意一台本体上,不依赖于特定的本体。
就像安卓系统一样,可以跑在不同的手机平台上。做技术的人容易过度的乐观,觉得技术可以改变一切,一上来就解决最终极的问题。很快,人会冷静下来。
白鲸实验室:在晚点的报道中,2025年贾鹏从理想出来创办至简具身公司时,理想汽车CEO对他说,第一个做的大概率会死,但做成的会属于第一批的人。你们算是国内最早开始做世界模型的,会有这种压力吗?
朱政:完全没有,因为参考语言模型、多模态模型的进展,我觉得市场会奖励先行者的。
白鲸实验室:会担心出现大语言模型里的“DeepSeek效应”吗?
朱政:DeepSeek R1出来后,语言模型六小虎,大概分成两派。第一派就是放弃做基模,转向其他的垂直领域。另外一派是迎难而上,他们相信DeepSeek能干出来,自己也能干出来。我们属于后者。
白鲸实验室:你们更想成为大语言模型第一梯队里的谁?Kimi、智谱还是MiniMax?
朱政:语言模型可能会分化比较严重,有的模型比较适合做coding,有的模型可能比较适合做agent,有的模型各项能力比较综合。
现在具身基模还没到谈论这一步的时候。它现在最大的问题是还没有出现涌现能力,它的泛化能力还没有办法达到人们的基本要求。现在谈这事还比较遥远。
所以未来大家的具身基模会更有自己的特性。有的具身基模做菜做特别好吃,法餐、中餐八大菜系都会做。有的机器人擅长打扫房间、做家务活。有的特别适合做养老陪护、照顾老人。我判断可能在2028年会有一个初步的答案。
03
把数据统一起来训练模型
白鲸实验室:去年十月,我和智元机器人姚卯青院长聊时,他提到行业大部分用的还是真机数据,占到9成以上,仿真数据占比非常小。这个比例有变化吗?
朱政:目前大家对于真机数据占比还没有统一的结论。针对不同场景,比例是可以动态变化的。
有些泛化性要求特别高的,比如说光照变化,那就需要更多的仿真数据来模拟光照的变化。有些场景不需要那么多泛化数据,真机数据直接训就可以。
白鲸实验室:我记得你们去年发布模型GigaBrain-0时提到,仿真数据占到九成,泛化能力会提升很多。
朱政:当时真机数据积累的比较少,整个数据只有几千小时。我们使用真机数据只占了10%,其余9成是世界模型生成数据。我们最新版本GigaBrain-0.5,因为我们积累的真机数据有几万个小时,占比提升到40%,世界模型数据占比60%。
白鲸实验室:世界模型生成的训练数据和采集的真机数据相比,在模型的泛化能力上差异有多大?
朱政:这个主要看测试集怎么定义。
假如你的测试集上的任务训练的都是真机数据没有见过的任务,比如某些泛化要求比较高的场景,叠衣服,颜色、纹理、光照频繁变化,世界模型数据对提升泛化性肯定更好。
白鲸实验室:去年11月Generalist发布了一个具身模型,它当时用了27万小时,你们做的基模现在GigaBrain-0.5才用几万小时。是不是和国外具身模型差距很大?
朱政:我觉得VLA模型不存在这个问题。就像刚才讲的,我们其实给VLA增加很多数据,但是发现它比较低效。更多数据训世界模型才更合理。
白鲸实验室:现在许多数据,既有遥操作数据,去年UMI数据也很火,你们主要使用的是哪类数据?
朱政:上面提到的几十万小时数据主要是真机数据。现在市场上对数据的注意力转移很快。去年因为受Sunday影响,大家对UMI数据关注度很高,最近英伟达发布的研究带火了Ego数据(人类作为第一视角搜集到的视频)。
我们对各种数据都持开放态度,期望能统一遥操数据、UMI数据、世界模型数据、互联网数据和Ego数据,训练世界模型。
白鲸实验室:统一的难度是什么?
朱政:每种数据定义的空间、数据格式都不一样,重点是重定向。比如你把UMI数据、Ego数据,全都映射到机械臂上,机械臂、手腕怎么映射。想让这些数据互补,统一起来非常困难。现在我们正在尝试解决这个问题。
我们不可能什么数据火了,就迅速转向这个数据,其他数据就完全不用了。我们认为把这些数据统一起来,是最好的方式。
04
六边形战士更容易成功
白鲸实验室:你们深入一个全新的领域,既做VLA又做世界模型。你有过公司不够聚焦的时刻吗?
朱政:没有,我反而觉得这是优点。我们同时做世界模型和VLA,会对两者的边界和上限有更清楚的理解,我觉得这是一种非常好的状态。
我们鼓励研究员有好奇心和求知欲,没有大公司的条条框框约束。实际上很多创新都是自下而上驱动的,一些VLA和世界模型的原型,甚至是一些非常年轻的刚毕业同学,实习生完成的,大家完全是凭着自身对技术的理解和兴趣。
白鲸实验室:世界模型,在具身领域,离真正实现物理交互还有多远?
朱政:现在模型对于物理规律的理解,还处在一个比较初步的阶段。它现在能初步理解物理世界的基本规律,比如摩擦力等等。但是说更深层次的因果推理和反事实,还是比较困难。
白鲸实验室:这有多远?
朱政:我对这个事比较乐观。用不了十年,我觉得还是近两年的事。
白鲸实验室:你们怎么定义具身基座模型到了GPT3时刻?
朱政:其实我们内部建了一个测试集,覆盖几十种场景,数百种任务。我们觉得GPT3时刻,至少应该在几百种任务上完成度上达到95%成功率。这些场景非常综合,包括工业场景,服务场景,市面上能见到的各种demo,能想象到的场景基本上都有。
白鲸实验室:目前成功率能达到多少?
朱政:世界模型还没有全量任务测过。我们挑部分比较典型的代表性任务测试,VLA大概可以做到百分之六七十,世界模型可以做到百分之八九十。
白鲸实验室:这个测评集会开源吗?
朱政:后续会考虑的。
白鲸实验室:上个月,你入选魔搭社区的EAI Pioneer 20,这些先锋人物被称为中国具身智能中国坐标的刻画者。魔搭社区正在搭建具身智能的开源社区,你们之间具体如何合作?
朱政:我们的具身基模开源,主要使用者还是国内用户,如果只是放在Hugging Face上很不方便,我们会同步放在阿里云的魔搭社区上。
开源是一件对行业有益的事情,也能促进社区的发展,通过开源吸引更多开发者参与,要远超过单一公司力量。我们通过把模型包括GigaBrain-0、GigaWorld-Policy等都开源,上传到像魔搭社区的开源社区网站上,带来的效果令人惊喜。很多开发者在使用模型的过程中提供了一些不错的改进方法,都被我们吸收进代码库了。
白鲸实验室:今年以来,我看具身赛道分化出两类创业者。一类要做六边形战士,全栈布局。一类是更聚焦和收缩。你怎么看这种分化?哪一种更容易成功?
朱政:我觉得做六边形战士还是很有必要的。因为现在很多事都还没有收敛的地步,至少要充分探索。我们始终觉得基模机会是最大的,而要做基模,本体、场景和数据都很重要。
白鲸实验室:你们做融资的同学也提到到2028年人型机器人将迎来一个重要的拐点,业内判断可能要更久。
朱政:对,我们认为2028年是判断人形机器人能否初步进入家庭的重要节点。
因为现在模型泛化性能,刚才讲的one shot、few shot能力还不够,没有办法适应家庭的非结构化场景。但是进展非常快,我们因此判断,2028年前,就是具身基模单一模型做多任务,以及few shot都可以实现。