B 站百大 UP 主、华为天才少年稚晖君创立的智元机器人,今天有了大动作。
就在刚刚,智元机器人发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1,下文简称 GO-1)。这是一个由 VLM 视觉语言大模型+MoE 混合专家组成的 Vision-Language-Latent-Action 视觉-语言-隐式-动作模型(下文简称 ViLLA)。这个基座模型实现了利用人类视频学习,完成小样本快速泛化,降低具身智能门槛,并成功部署到智元多款机器人本体上。可以说,正在推动具身智能走上新的台阶。
GO-1 核心的作用,其实是帮助机器人完成全面的基础教育和能力培训。再直白一点,这就是人类送机器人小朋友去上学,让它们为做更多的事打下基础。
实际上,机器人泛化能力一直是业内的痛点。GO-1 要解决的一大问题就是泛化能力——让机器人尽可能会做更多的事。VLM+MoE 在其中起了核心的作用。
那么问题来了,为什么行业痛点,智元可以用一个大模型解决?这个大模型究竟能让机器人有多强的能力?
今天上午,42 号电波和业内多家媒体共同采访了智元合伙人,具身业务部总裁,研究院执行院长姚卯青和智元具身研究中心常务主任任广辉,他们对 GO-1 基座模型进行了更为深度的解读。并且智元机器人还预告,新的人形机器人即将亮相。
五大优势加速机器人落地
具身智能行业快速发展的同时,智元机器人看到了行业的多个痛点:
泛化性差,到新场景时成功率大幅下降;
扩展新任务时需要大量数据,落地成本高;
不同本体的数据无法共用,数据成本高;
模型无法持续进化。
基于这样的行业现状,智元机器人拿出的解决方案就是 GO-1,并特别在泛化能力和数据利用上做了不少努力,加速机器人落地。
在泛化能力上,GO-1 在家庭、办公、商业、工业等应用领域,以及对各类环境和物品的泛化,适应新任务、学习新技能、能力进化等方面,都有出色的作业能力。在数据利用方面,机器人只需要通过少量数据,就能快速适应新任务,让后训练成本降低;机器人本体、人类操作视频同样可以被模型高效利用。
智元对 GO-1 的能力做了一个总结归纳,共有 5 个方面的优势:
采训推一体:GO-1 搭配智元软硬件一体化框架,可以实现数据采集、模型训练、模型推理的无缝衔接;
小样本快速泛化:GO-1 具有强大的泛化能力,使得后训练成本非常低,能够在极少数据甚至零样本下泛化到新场景、新任务;
一脑多形:GO-1 能够在不同机器人形态之间迁移,快速适配到不同本体;
持续进化:GO-1 搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习;
人类视频学习:GO-1 可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。
VLA 的下一代,机器人如何听懂语音指令?
根据介绍,GO-1 基于具身领域的数字金字塔所构建。
数字金字塔的底层是互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景。在这之上是大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式。更上一层则是仿真数据,用于增强泛化性,让机器人适应不同场景、物体等。金字塔的顶层,则是高质量的真机示教数据,用于训练精准动作执行。
而现有的 VLA(Vision-Language-Action,视觉-语言-动作)架构,未有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。
因此,智元机器人提出了 ViLLA 框架。这一框架由 VLM 视觉语言大模型+MoE 混合专家组成。ViLLA 是由 VLA 架构进化而来,相比 VLA 增加了隐式动作标记,这样就能弥合图像-文本输入与机器人执行动作之间的鸿沟。这样一来,就能有效利用高质量的 AgiBot World 数据集以及互联网大规模异构视频数据,增强策略的泛化能力。
在 ViLLA 框架之中,VLM 继承开源多模态大模型 InternVL2.5-2B,借助互联网图文数据获得通用场景感知和语言理解力。
MoE 则分为混合专家一隐式规划器和混合专家二动作专家。
其中,隐式规划器利用互联网上的人类操作和跨本体操作视频,基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP(Chain of Planning,规划链),进行通用的动作理解和规划。
智元的 AgiBot World 数据集目前已经成为全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。因此,智元采用 Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间 Latent Actions 的 Groundtruth(真值),它由编码器和解码器组成。
编码器采用 Spatial-temporal Transformer,并使用 Causal Temporal Masks(时序因果掩码)。
解码器采用 Spatial Transformer,以初始帧和离散化的 Latent Action Tokens 作为输入。
Latent Action Tokens 通过 VQ-VAE 的方式进行量化处理。
而隐式规划器负责预测这些离散的 Latent Action Tokens,它与 VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的 FFN(前馈神经网络)和 Q/K/V/O(查询、键、值、输出)投影矩阵。隐式规划器这组专家会逐层结合 VLM 输出的中间信息,通过 Cross Entropy Loss(交叉熵损失)进行监督训练。
MoE 的混合专家二是动作专家,借助仿真和真机数据,获得精细的动作执行能力。
动作专家采用 Diffusion Model 作为目标函数来建模低层级动作的连续分布。
动作专家结构设计上与 Latent Planner 类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的 FFN 和 Q/K/V/O 投影矩阵,它通过 Denoising Process(去噪过程)逐步回归动作序列。
动作专家与 VLM、隐式规划器分层结合,确保信息流的一致性与协同优化。
简单总结,当相机的视觉信号加上人类的语言指令,通过 ViLLA 框架,就能输出机器人的动作执行。
在实验室环境下,智元机器人通过 ViLLA 架构,在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1 成功率明显领先,平均成功率提高了 32%。其中倒水、清理桌面和补充饮料任务表现更突出。
举一个生活中常见的例子,用户让机器人「挂衣服」。得到这个指令后,模型就可以根据看到的画面,理解这句话对应的任务要求。接着,模型根据之前训练时看过的挂衣服视频,设想这个过程应该包括哪些操作步骤,最后执行并完成整个任务。
对于人类而言,挂衣服这一动作非常基础,对于机器人来说并非如此。GO-1 在构建和训练阶段,学习了互联网的大规模纯文本和图文数据,理解挂衣服究竟是什么含义;然后学习互联网上人类和其他机器人挂衣服动作的视频;接着是理解不同的衣服、不同的衣柜应该如何挂衣服,并打通整个过程;最后才能通过真机示教,完成挂衣服的动作。
总结来看,GO-1 大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,并持续进化。这一系列的特点可以归纳为 4 个方面:
人类视频学习:结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。
小样本快速泛化:强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。
一脑多形:能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。
持续进化:可以从实际执行遇到的问题数据中持续进化学习。
可以说,智元机器人推出 GO-1 之后,具身智能向通用化、开放化、智能化方向上,又迈进了一步。
今年营收数倍增长,出货数千台
智元合伙人、具身业务部总裁,研究院执行院长姚卯青和智元具身研究中心常务主任任广辉在接受 42 号电波等多家业内媒体采访时,对智元机器人刚刚发布的 GO-1 基座大模型的技术细节、落地规划,以及今年的商业化进展等问题一一作出回应。
工业场景定制化需求很高,小样本泛化真的有效吗?任广辉认为,工业场景的门槛的确更高,目前智元在做一些 POC 项目,正在做的是去实地采集数据。同时工业场景目标就是落地,因此几万条数据和十几万条数据对大家来说也是可以接受的。
针对基座模型更容易落地的家庭场景,智元机器人认为接下来 5 年左右机器人会进入普通人家庭。而在价格方面,目前一台人形机器人的价格还会在 30 万元以上。
今年以来,DeepSeek 等大模型火爆全球,智元大模型 GO-1 的研发思路实际上对齐 DeepSeek,同时也对齐 ChatGPT 等大模型。在参考了业内大模型的研发思路后,加上机器人是物理上的应用,智元的基座大模型也有自己的定制化创新。
姚卯青谈到了 GO-1 技术开源。他谈道:「今天发布的同时,智元同样也将技术博客、论文完全公开,这相当于是一种开源。同时,Q1 内智元机器人还会面向核心用户,开源 GO-1 模型。」
就在本月,智元还会举办首次供应链大会,会上将与合作伙伴进行更深度的交流。
谈到智元机器人的团队、人才建设,姚卯青认为,当前机器人行业有大量初创公司,也有成立近 10 年的企业,成立较短的时间还有比较大的优势。
他说道:「今天我们看到大模型的公司,组织、人才是非常年轻化的,没有历史包袱,在经营方向、技术规划上无法暴力地做战略调整。智元成立刚刚两年,目前平均研发人员 30 岁以下。」
姚卯青最后预告了智元机器人今年在产品、营收上的规划。
「今年,智元商业化目标营收相比去年数倍规模增长,出货量数千台的规模。」今年 1 月,智元机器人刚刚宣布完成下线 1,000 套通用具身机器人。
姚卯青认为,出货和营收快速上升,计划今年智元机器人可以做到国内头部真正的龙头企业。
累计融资 16 亿元以上,三家车企曾参投
智元机器人之所以受到业内如此高的关注,一大原因是创始人、CTO、首席架构师「稚晖君」彭志辉。他曾通过「华为天才少年计划」加入华为,从事昇腾 AI 芯片和 AI 算法相关研究工作,也因拍摄 DIY 产品视频,获得 Bilibili 百大 UP 主称号。
2022 年底,彭志辉离开华为,其创业项目就是智元机器人。
公开数据显示,智元机器人先后完成了 7 轮融资,累计融资 16 亿元以上。其中,A3、A4 两轮在 2024 年完成。
从融资历史上看,智元机器人受到了汽车企业及汽车零部件公司的青睐。
其中,比亚迪、上汽集团旗下尚颀资本、北汽产投先后投资了智元机器人,比亚迪还占有超过 2.5% 的股权。另外,曾在 A2 轮参投智元机器人的三花控股集团为特斯拉的核心供应商,生产热泵空调及汽车热管理系统。
目前,智元机器人共有 46 名股东,其中最大股东为桑蓬(上海)科技合伙企业(有限合伙),占股 30.38%,而彭志辉在桑蓬科技持股 13.79%。
根据 36 氪的报道,2023 年 12 月智元机器人开启下一轮融资前,融资前估值 70 亿元。
在产品方面,智元机器人已经陆续发布 7 款人形机器人产品,和一款扫地机器人。今年年初,智元机器人宣布,已经完成下线 1,000 套通用具身机器人。分别是 731 套远征 A2、灵犀 X1 双足人形机器人,以及 269 套远征 A2-D、A2-W 轮式通用机器人。
在上海张江机器人谷,智元机器人还建立了超过 4,000 平米的机器人数采中心,这里每天可以产出数万条真技数据和仿真环境数据。智元机器人建立了家居、餐饮、商超、办公、工业五大场景,包含超过 200 个细分场景的任务。
此前,我们也现场参观了智元机器人在商超场景下的表现,只需要语音输入,机器人通过摄像头识别不同物体,就能准确抓取。
相信智元机器人最新发布的通用具身基座模型 GO-1,也将在数采中心帮助机器人不断成长。
今年 2 月,智元机器人宣布推出自主研发的大型仿真框架 AgiBot Digital World,为机器人操作提供灵活的仿真数据生成方案、预训练的大规模仿真数据和统一的模型评测标准,通过高保真地模拟训练场景,全链自动化地生成数据,AgiBot Digital World 可以实现一系列的具身仿真服务。
同时,智元机器人开源上线海量规模的仿真数据集 AgiBot Digital World Dataset,涵盖 5 大类场景、180+ 品类具体物品、9 种常见材质、12 种核心技能。这是继去年 12 月百万真机数据集开源项目 AgiBot World 之后,智元机器人在具身智能数据方面的又一开源行动。
写在最后
2024 年人形机器人迎来爆发后,2025 年正在加速落地。在产品真正落地之前,各家具身智能初创公司已经赶上了大模型这班车,目标也很简单,增强机器人的泛化能力,加速商业化落地进程。
不久前,美国人形机器人创企 Figure 推出了能通过视觉抓取任何物品的 VLA 模型 Helix,搭载 Helix 的 Figure 02 能拾取和放置物品、操作抽屉和冰箱、协调灵巧的多机器人交接,并操纵数千个新物体。
深圳机器人初创公司逐际动力也推出了 LimX VGM 视频生成模型,将人类的视频数据,通过视频生成模型,直接转化为机器人的操作行为。此外,宇树科技也已经开源具身智能数据集和模型。其中数据集包括 G1 灵巧手操作数据集、G1 夹爪操作数据集、Z1 机械臂双臂操作数据集,模型包括训练好的主流模仿学习算法模型。
不过,正如任广辉所说,上一代 AI 的发展有明确的产业分工,包括采集、审核、交易等等,如今在机器人领域重复投资同样会造成浪费,长期看可以由几家企业共同承担公共平台的职责。
此外,目前「偏科」的公司很多,如果只有算法,没有好的硬件或者只有好的硬件,没有好的算法,机器人的开发都会受限。
因此,如今行业需要统一硬件标准统一数据格式,加强数据资源的共享合作,整个行业才会发展得更快。