业界首次！一个端到端原生机器人大模型搞定100+灵巧手复杂操作

量子位

2024-12-26 16:59发布于北京量子位官方账号

允中发自凹非寺
量子位 | 公众号 QbitAI

只凭同一个原生机器人大模型，五指灵巧手就能学会100多个复杂操作任务。

拿起桌上随机摆放的螺钉钻并拧紧螺钉、用锤子敲打钉子、将倒放的水杯扶正再往水杯中倒水等……

这是业界首次仅通过同一个具身大模型就实现了五指灵巧手像人手一样灵活自如地使用多种多样、形态各异的工具完成上百种灵巧复杂操作任务。

它就是星动纪元最新发布的端到端原生机器人大模型ERA-42。

结合自研灵巧手，它已学会了使用不同工具完成100多种复杂灵巧的操作任务，并且持续在同一个模型下学习新的技能。

模型不需要任何预编程技能，完全基于其强大的泛化和自适应力，能在不到2小时内通过收集少量数据就学会执行新的任务。同时，ERA-42还在快速不断学习更多新技能中。

ERA-42也是世界范围内首个真正的五指灵巧手具身大模型，由此开启了具身大模型的通用灵巧操作时代。

在通用具身智能行业中，具身大模型被广泛认为是未来发展的趋势，主要源于其强大的跨模态能力、自适应性和泛化能力以及高效、灵活的任务执行能力。

具身大模型三大要素

“真正”的具身大模型才是开启通用具身智能体的密钥，需要具备以下三个要素：

一是统一一个模型泛化多种任务和环境：通过构建一个统一的原生模型，融合视觉、语言、触觉和身体姿态等全模态信息，实现对不同任务和环境的泛化能力。此外，通过不同任务之间的数据共享和迁移，能够进一步提升模型的泛化能力。

二是端到端：从接收全模态数据，到生成最终输出（如决策、动作等）的整个过程，通过一个简洁的神经网络链路完成。该过程无需人为设计特征、预编程或干预处理步骤，使得具身智能体能够实时适应不同任务和环境，显著提升灵活性与开发效率。

三是Scaling up（规模化）：真正的统一的端到端算法才允许模型通过持续的数据积累实现自我完善，使得具身大模型在数据量指数级增长的同时，不仅提升性能，还能在未知任务中展现卓越的自适应和泛化能力。

例如，被行业广泛熟知的Physical Intelligence (简称PI)发布的π0模型就具备上述要素，是典型的真正意义上的端到端具身大模型。

星动纪元ERA-42比肩世界领先水平

星动纪元ERA-42是国内首个真正意义上的端到端原生机器人大模型，比肩世界领先水平。

早期，星动纪元和PI几乎同期不谋而合采用了端到端的算法来提升其原生机器人大模型性能，PI推出的π0模型，通过结合互联网规模的视觉-语言预训练与机器人操作数据集后训练，使得机器人能够在人类环境中自主执行多种复杂任务，展示了在物理世界中实现通用人工智能的潜力。

这是机器人从特定任务的“专家”向多任务的“通才”发展历程上的重要一步，也是具身大模型领域的一个里程碑。

星动纪元早期发布的研究成果和Physical Intelligence (PI)几乎不谋而合星动论文HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers发表在CoRL2024

而后，星动纪元又探索了另一条原生机器人模型训练道路，采用大规模视频数据学习策略，涵盖无标注的视频数据、公开各类形态机器人的数据、人类活动数据以及遥操作数据等。

并且，在上述数据的使用上，星动纪元不是直接模仿视频里的人怎么去做，而是学习行动之后会产生什么样的结果。这样学习因果关系的好处是可以达到完全泛化，因为物理规律是统一的，只要发生在现实物理世界中，数据内含的因果关系一定是确定且统一的。

这种方式使得学习效果不受限于数据质量，能够大大降低数据收集成本，解决了世界范围内在构建通用操作模型过程中数据消耗量巨大、需要大量高质量数据的问题。

此外，星动纪元的技术团队已将世界模型融入原生机器人大模型中，使其模型不仅具备行动能力，还具备了对物理世界的理解能力，能够对未来行动轨迹进行预测，有效提升了机器人执行任务的高效性和准确性。

后期，星动纪元探索了融合世界模型的原生机器人大模型。星动论文Prediction with Action: Visual Policy Learning via Joint Denoising Process发表在NeurIPS 2024

通过融合世界模型的方法，星动纪元的机器人还能迅速响应外部干扰，并在任务执行过程中持续自适应优化行为，直至任务完成。该方法开辟了训练通用原生机器人大模型的新道路。

星动纪元打造的端到端原生机器人大模型ERA-42是业内独创的AI原生学习新范式。凭借其预测能力，ERA-42具备强大的泛化、自适应和规模化能力。结合星动纪元为AI打造的全新硬件平台，可快速实现具身智能体软硬件协同进化和商业化落地。

具身大模型进入通用灵巧操作时代

星动纪元端到端原生机器人大模型ERA-42引领具身大模型进入通用灵巧操作时代。

1）相比夹爪，基于ERA-42的能力,五指灵巧手星动XHAND1已经能够真正像人手一样可使用包括不限于螺钉钻、锤子、取液枪等更多种多样的工具，完成更通用、灵巧性更强、复杂度更高的百种以上操作任务。

△基于ERA-42,五指灵巧手星动XHAND1相比夹爪能使用更多不同工具执行更灵巧的操作

2）星动纪元原生机器人大模型ERA-42能理解物理世界与预测未来

融合世界模型后，ERA-42具备对物理世界的理解以及对未来的预测的能力，从而大幅提升了泛化能力和任务成功率。例如，下图中上方的图片展示了真实物理世界中打开冰箱的逐帧操作，下方的图片则为ERA-42生成的环境建模与对打开冰箱任务的逐帧预测。可以看到两张图片非常接近，说明模型预测非常准确，并且很符合物体遮挡关系、动作时序等物理规律，模型甚至能够更进一步预测打开冰箱门之后，冰箱里可能会放置的物品。

这与其他机器人大模型直接学习行动、而忽视对世界本身理解的方式，或者仅将世界模型用于生成仿真数据的方式，存在本质的区别。

△真实世界执行任务和ERA-42预测执行任务对比图

3）星动纪元原生机器人大模型ERA-42具备更强泛化能力。

以灵巧手的操作泛化能力为例，通过基于大规模视频数据的预训练，只需采集少部分数据，基于ERA-42的泛化能力，短时间内通过单一的策略就能学会执行新的操作任务。每一种操作都是通过一句自然语言文本或语音，以及摄像头的感知姿态作为输入，直接端到端输出执行操作，能够泛化到新的、未见过的环境或任务，即便面对未曾接触过的物体，灵巧手也能顺利完成操作任务。

此前，星动纪元技术团队就通过这种训练方式采集简单的红黄蓝方块抓取数据，成功实现了从未见过的多样化物体（如胡萝卜、茄子等）的抓取泛化，并相对其他模型算法在泛化任务上显著提升了成功率。

△通过简单彩色方块的抓取数据实现多样化物体的泛化抓取操作

4）星动纪元原生机器人大模型ERA-42具备更强自适应性

由于融合了世界模型，ERA-42能够迅速响应外部干扰，自适应调整完成任务。从下述视频可以看到，面对长序列的任务，它可以快速响应干扰，中间没有任何停顿，灵巧手星动XHAND1马上就可以识别出来东西被挪开了，能自主优化调整操作，直至完成操作任务。

可见，ERA-42不管在单任务上，还是长序列任务上都展现出了业内领先的强大抗干扰能力。

5）星动纪元原生机器人大模型ERA-42初步体现“Scaling效应”

并且研究结果表明，随着模型规模的扩大，任务成功率也明显提升，初步体现了和大语言模型训练中类似的“Scaling效应”，即模型规模与性能之间的正相关性。

△“Scaling效应”显示模型与机器人性能呈现正相关性

硬件协同迭代进化

星动纪元端到端原生机器人大模型ERA-42和为AI打造的全新硬件平台协同进化，共建原生具身智能体。

构建通用具身智能体需要软硬件协同迭代，这是与大语言模型的本质区别。大语言模型从本质上只需要数据和算法的迭代，而具身智能则需要把本体也一起囊括进来，即需要本体、算法和数据一起联合迭代、优化和进化。就像人类的脑和身体是从小到大同步协同成长的一样。

因此，星动纪元打造了为AI定义的全新硬件平台。以人形机器人的核心执行末端灵巧手为例，星动自研推出的五指灵巧手星动XHAND1共有12个主动自由度，其中拇指和食指各有3个自由度，其他三指各有2个自由度，食指可侧摆，拇指具有大范围活动能力，能够实现多手指间灵活协同动作，如拇指能与小指对指、拧瓶盖等动作。

此外，星动XHAND1采用的是纯电驱方式，且每个自由度都有对应的驱动源，能够独立控制所有手指的每个自由度，实现全自主五指关节驱动，具备高度的灵活性和精确性，能够执行高精度任务。

星动XHAND1每个手指配备一个高分辨率(>100点)触觉阵列传感器，提供精确的三维力触觉和温度信息。单手最大握力能达80N，可举起25kg以上的哑铃。

星动XHAND1在作业能力上展现出更强的操作灵活性、精准度、负载能力和可靠性，在协同ERA-42后，为实现多样化、精细化、智能化的复杂灵巧操作任务奠定了坚实基础，引领行业开启具身智能体通用灵巧操作时代。依托ERA-42，星动纪元通用人形机器人执行任务的通用性和泛化性将大幅提升，结合此前发布的在复杂多样的地形上稳定行走和奔跑的运动性能，配合上下肢协同作业能力，潜在应用场景也将更加多元化，真正实现原生的通用具身智能体的产业化落地。

基于端到端原生机器人大模型和为AI定义的硬件平台，星动正在推动原生通用具身智能体的广泛应用，加速实现机器人服务千行百业，走进千家万户的愿景。

查看原图 73K