具身智能(Embodied AI)最早由英国计算机科学家阿兰·图灵(Alan Turing)在1950年提出。他在论文《Computing Machinery and Intelligence》中首次提出了具身智能的概念,即智能体能够借助传感器与环境互动并自行学习,这构成了如今“具身智能体”的最初构想。
清华大学交叉信息研究院助理教授、
北京星动纪元科技有限公司创始人陈建宇
近几年得益于机器人技术的快速发展,具身智能体概念多次被提及,尤其是通用机器人模型的迭代,进一步具象化了“具身智能体”概念。有自主行为意识的机器人到底是否能够成为具身智能体?近日来自清华大学交叉信息研究院助理教授、北京星动纪元科技有限公司创始人陈建宇,在2024年中关村仿生机器人大会上围绕《构建通用具身智能体》进行了深度分享。
具身智能体具备各种形态,人形机器人具备独特优势
陈建宇首先对“具身智能体”这一概念进行了明确界定。他指出,具身智能体必须拥有身体,这个身体包括类似人类眼、耳、鼻的感受器,以及类似腿、手的执行器,能够更加智能地在环境里去感知和行动。与ChatGPT这类纯语言模型相比,具身智能体的核心特征在于其物理实体的存在,这一特性赋予了它们与真实物理世界进行自主交互的能力,它将带来更大的价值。
陈建宇认为,具身智能体并不限于特定的形态。人类是目前已知唯一的通用具身智能体,能够学习并执行各种任务。然而,具身智能体也可以有其他形态,如狗、机械臂、无人车、四足机器人等。由于人类在具身智能体中的特殊位置,人形机器人因此具备了独特的优势。
只有人形机器人才能更加直接的用到人类相应的数据,也只有人类能够提供这么多丰富且展现智能性的数据。无论是通过远程操控还是直接的视频学习途径,这些与人类形态相似的机器人都能更有效地吸收并整合知识。此外,人形机器人还具备与人类相媲美的操作能力和移动性,这使得它们在执行任务时能够展现出更高的灵活性和适应性。
想要实现终极通用具身智能必须构建原生机器人大模型
具身智能的核心在于如何理解世界、对世界进行建模,并基于此进行行为的决策以及与环境进行交互。ChatGPT的横空出世为机器人领域带来了新的变量。有人猜想将ChatGPT这样的语言模型与机器人结合,是否就能解决通用具身智能的问题。确实,ChatGPT的出现能够在一定程度上提升具身智能,但并非终极答案。要实现通往终极通用的具身智能,必须构建一个原生的机器人大模型。
ChatGPT+机器人是否能够组成具身智能体?
陈建宇进一步指出,该机器人大模型需要具备以下三个特点:一是全模态,即融合语言、图像以及身体姿态、触觉等各种模态的信息;二是端到端,即从感知到行为执行的链路需要端到端地打通,参考人类的智能,人脑的链路就是端到端的;三是Scaling up, 只有端到端的方法才能不断地给它积累数据,实现数据的迭代。如果把中间切了很多块,会破坏端到端的闭环。在这样的架构下,需要扩大规模,并且保持架构的简洁。
▍星动纪元:软硬件协同迭代构建通用具身智能体
陈建宇表示,构建通用具身智能体需要软硬件协同迭代,这与大语言模型存在本质的不同。大语言模型从本质上,只有数据和算法的迭代,而具身智能则需要把本体也一起囊括进来,需要本体、算法和数据一起联合迭代、优化和进化。就像人类的脑和身体是从小到大同步协同增长的。
星动纪元人形机器人两年迭代多个版本
在具身智能体方面,陈建宇分享了星动纪元为AI定义的硬件平台—人形机器人的迭代历程。在短短两年内,星动纪元人形机器人迭代了六个版本。该迭代过程如同一个人从小到大成长的过程,性能越来越强,功能越来越全。从一开始没有末端灵巧手的状态,到后来增加了夹爪和全驱动,配备12个自由度的五指灵巧手—星动XHAND1,整机自由度也越来越高,全身达到了55个。
最新一代高性能通用人形机器人星动STAR1技术指标
而最新一代高性能通用人形机器人“星动STAR1”已经非常稳定,该机器人作为全球性能最强的人形机器人之一,力量和速度都达到了很高的水平,能够支撑其快速高效的行动以及很大的承载力。同时也拥有更高的自由度,能够轻松完成各种复杂的动作。
采用模块化设计的高性能通用人形机器人包含AGV轮式、双足人形以及上半身灵巧操作形态
陈建宇强调,星动纪元人形机器人在多次版本迭代过程当中,实现了硬件模组的通用以及底层算法的通用。从前五代纯人形机器人开始,团队快速制造出轮式机器人和只有上半身双臂的形态,并且在未来根据场景的不同,而选择不同的模块来实现快速落地部署,就像搭乐高积木一样便捷。
▍通用移动模型与操作模型的突破 实现Zero-shot泛化能力
在构建通用移动模型和操作模型方面,陈建宇通过视频展示了星动START1高性能通用人形机器人在河西走廊石子路、草地、山地、戈壁等多种复杂环境下的行走和奔跑能力,奔跑速度达3.6米/秒,匹敌人类马拉松速度,且穿鞋不影响稳定性。
星动STAR1展示了其非结构化复杂地形下的卓越运动能力
特别是在雪地行走方面,星动纪元上两代人形机器人小星成为全球第二家实现在雪地稳定行走的人形机器人。与波士顿动力不同的是,小星MAX雪地行走完全是端到端的神经网络,通过仿真学习零样本泛化真实世界,没有对真实世界进行任何的建模。
此外陈建宇也介绍到星动STAR1上半身灵巧操作技能,其全驱动五指灵巧手星动XHAND1拥有12个主动自由度,兼具速度与力量,采用电机关节直驱技术,响应迅速,配备高精度触觉传感器,能感知温度,反驱与抗冲击能力强。同时团队还开发了一套非常好的收集数据的装置,使机器人操作动作非常轻柔,甚至实现撸猫,修剪盆栽、拿取易碎鸡蛋等操作。
陈建宇进一步指出,在不久的未来,人形机器人能够实现自己组装腿部关节,甚至能够实现机器人制造机器人的操作。
陈建宇表示,在构建通用操作模型方面,领域面临的主要问题是数据的消耗量巨大。为了解决这一问题,团队采取了从大规模视频数据中学习的策略,这些数据来源广泛,既包括其他机器人收集的数据,也涵盖人类活动数据以及自动驾驶等其他领域的数据。
通过端到端训练感知输入与动作输出的方式,机器人成功掌握了多种灵巧手操作技能。
通过简单彩色方块的抓取数据 实现多样化物体的泛化抓取操作
在泛化能力方面,研究团队通过采集基础的红黄蓝方块抓取数据,成功实现了多样化物体(如胡萝卜、茄子等)的抓取泛化。即便面对未曾接触过的物体,机器人也能顺利完成抓取任务,这种泛化能力源于大规模视频数据的预训练。
星动纪元技术团队将世界模型融入机器人大模型中,使得模型不仅具备行动能力,还能进行物理世界建模与预测。这一技术有效提升了机器人执行任务的高效性和准确性。值得一提的是,机器人能够迅速响应外部干扰,并在任务执行过程中持续优化自身行为,直至任务圆满完成。
“scaling效应”显示模型与机器人性能呈现正相关性
本次分享中,陈建宇还提到了模型规模与其性能之间的内在联系。研究结果表明,随着模型规模的扩大,机器人的性能明显提升,初步体现了大语言模型中所谓的“scaling效应”。未来随着模型的持续拓展和升级,人形机器人的性能将进一步增强,应用场景也将更多元化。
▍结语与未来:
目前人形机器人的技术发展正在呈现指数级技术迭代。通过通用机器人模型与人形机器人结合,具身智能体越来越具象化呈现在我们面前,对于机器人何时才能到达智能化的“奇点”,陈建宇提出了机器人图灵测试的概念。
陈建宇提出 机器人图灵测试可验证机器人的ChatGPT时刻是否真正到来
和语言领域的图灵测试相类似,机器人图灵测试也是通过判断背后是遥操作还是机器人自主操作来评估机器人的智能水平。如果无法判别背后是机器还是人,那么就可以认为机器人的智能已经达到了足够高的水平,这也就意味着机器人的ChatGPT时刻真正到来。陈建宇认为,这是评估机器人智能水平的一个重要标准。