具身智能，究竟还缺什么？

腾讯研究院

2024-11-12 17:26发布于北京理解腾讯，理解互联网，理解当代中国

全文8468字，阅读约需25分钟，帮我划重点

划重点

01具身智能是指拥有物理形态的人工智能系统，具有感知、行动和对外界物理刺激作出反应的能力。

02然而，具身智能尚未像其他智能应用一样广泛融入日常生活，原因在于物理实体或面临更大的挑战。

03目前，大模型的出现正在革新具身智能的交互方式，但物理实体的发展仍需更多时间与技术进步。

04除此之外，空间智能对具身智能的发展具有重要意义，需要弥合虚拟与现实之间的鸿沟。

05无论闭源还是开源，推动多方合作是具身智能规模发展与量产应用的关键。

以上内容由腾讯混元大模型生成，仅供参考

李瑞龙 腾讯研究院

腾讯研究院AGI路线图系列专题研究三

本期AGI路线图中关键节点：Figure 02、Optimus Gen-2、宇树G1、傅利叶GR-2、众擎SE01、BVS、WonderWorld、ReKep、DrEureka、DeepMind足球机器人、腾讯「小五」、达芬奇AI机器人、Project GR00T、LeRobot。

具身智能（Embodied AI）指的是拥有物理形态的人工智能系统，这些系统能够在真实的物理环境中进行学习和操作，与周围世界实现动态交互。

不同于传统基于数字环境的AI，具身智能具备感知、行动，并对外界物理刺激作出反应的能力。

长期以来，这些系统希望通过集成的传感器和执行器，模仿人类或动物的感知和行为，逐步弥合智能计算与物理行为之间的差距。

同时，它们的复杂性还取决于其处理感官与行为数据的能力，当下大模型的出现让相关能力呈现规模级增长，正在革新其交互方式。

然而，为何具身智能尚未像其他智能应用一样广泛融入我们的日常生活？究竟还缺乏哪些关键技术突破？通过回顾近期的技术进展，我们一起来探讨这个问题。

物理智能：
更强大更便宜的物理实体

让“身体”追上“大脑”的发育

进入大模型时代，人工智能的发展超出了许多人的预期。有人甚至设想，只要将最先进的大模型装入机器人，就能立刻实现具身智能。然而，事实并非如此，物理实体或面临更大的挑战。

大家熟知的机器人行业明星公司波士顿动力（Boston Dynamics），已经为“具身”工程问题“死磕”了二十余年。该公司成立于1992年，最初因其先进的机器人研究而获得认可，许多项目被视为全球标杆，包括人形机器人Atlas和四足机器人Spot等。然而，在众多引人注目的演示视频背后，实际上，这些机器人在过去很长一段时间内并未达到“可用”的状态。

不久前波士顿动力公布了一条催人泪下的短片，宣布大家熟悉的液压动力人形机器人Atlas正式退役！在最后一段告别视频中，我们可以看到这位明星机器人的真实状态：不断尝试奔跑、跳跃、后空翻，失手已成为家常便饭，甚至膝盖喷出了液压油，运动时皮带断裂而摔倒。这些公众平时看不到的画面，正是传统机器人多年来难以实现商业化的重要原因。

当屏幕前的几十万观众为Atlas的一次次摔倒而跟着喊疼时，波士顿动力随即宣布将推出下一代产品：专为实际应用而设计的全电动Atlas。然而，很遗憾，这一次的产品更新并非引领性创新，因为在波士顿动力死磕液压技术的这两年间，已经出现了不少新的竞争对手。

特斯拉便是其中的佼佼者。早在2021年8月的特斯拉AI日上，特斯拉首次提出了推进机器人全电动化的概念。经过近两年的努力，今年5月，Tesla官方发布了其二代人形机器人Optimus最新的演示视频，展示其在特斯拉电池工厂学习分装电池。视频中，最值得关注的并不是AI的能力，而是马斯克让我们窥见了人类帮助机器人进行数据收集的真实场景，这也是Optimus最大的优势。一方面，Optimus的手是世界上顶级的五指灵巧型机器人手之一，具备触觉感知，拥有11个自由度（DOF），并称今年晚些时候将达到22个自由度（DOF）。另一方面，视频中展示了人类操作员戴着VR眼镜和手套指挥机器人进行操作，以精确的复刻动作，这背后是一个超低时延的全身控制器与硬件组合，强大的运动控制有助于训练的数据迭代。这样的能力，我们还在特斯拉10月11日举办的“Robotaxi Day”上看到。虽然过程中发生了一段小插曲，网友称其中的Tesla Bot与人类互动太流畅，背后应该是人类操作员而并非由AI独立完成，称其作假。真相无从考究，也许特斯拉确实还未能全面的接入AI，实现机器人的完全自主。但实际上此时的AI只是锦上添花，我们更希望看到“具身”工程的重大突破。

与此同时，竞争对手们也不甘示弱。8月初OpenAI投资的Figure AI发布了第二代人形机器人Figure 02，进行了全面的硬件和软件升级，增强了AI、视觉处理、电池续航和传感器性能。在最新的视频中5台机器人已经可以进入到宝马车间进行了“实训”，尽管，它们的动作依然较为迟缓。仅仅三天后，波士顿动力的全新电动Atlas机器人也展示了能连续做8个俯卧撑的能力，采用非线性模型预测控制方法来优化动作，取得很大的进步。尽管，新款电动Atlas的手部设计仍未包含手指，在技术和实用性方面受到了挑战。

Optimus Gen-2、Figure 02以及电动Atlas均是当前人形机器人的顶流，希望通过全面的电动化，能够更精确地将智能控制指令转化为物理行动，这一转化类似于电动车的兴起如何促进自动驾驶技术的发展。然而，要实现真正可用甚至好用的水平，仍需更多时间与技术进步。

另外，人形机器人除了本体运动控制，高自由度灵巧手，还有触觉传感器、肌肉骨骼技术、表情模仿控制等等，均在不断发展中，虽不完美，但年内也有不少试点项目陆续取得了进展。

腾研AGI路线图图谱截选：

Optimus、Figure 02

中国产业链或成全村的希望？

人形机器人行业尚难以实现大规模量产，主要原因之一是供应链成熟度不足，导致制作成本居高不下。在电动化之前，波士顿动力的传统液压动力Atlas各个部分的零部件均为定制生产，单台制作成本高达200万美元（约合1447万元人民币），且后期维护费用高昂。电动化之后，虽然机器人的制作成本将有所下降，但仍面临复杂的供应链挑战。马斯克擅长通过第一性原理实现成本极限压缩，但其Optimus Gen2硬件的成本依然远未达到预期。根据摩根士丹利近期发布的分析报告《Humanoids: Optimus Prime》，Optimus Gen2目前的成本已达到6万美元甚至更高，而马斯克理想中的Optimus人型机器人的定价目标仅为2万美元。

自2021年决定生产Optimus以来，马斯克的社交媒体账号上频繁出现一个关键词：supply chain（供应链）。在一次公开视频中，他无奈地表示，“尽管世界上有很多电机供应商，但没有一种电机适用于人形机器人，也没有一种齿轮箱符合我们的尺寸需求。”

但这并非完全看不到希望，摩根士丹利分析报告中提到了一个积极的预测："随着规模扩大、研发周期缩短和中国零部件价格降低，成本可能会降至马斯克设定的2万美元目标。”类似于新能源汽车，中国产业链或许能够再开辟出一片天地？目前国内确实有众多出色的人形机器人“卷王”，几乎每月均有重大的更新，不仅是在技术上，在量产与售价上似乎更有竞争力。

8月中，宇树推出的人形机器人G1量产版，起售价为9.9万元，展示出高级的动作控制和环境适应能力。G1具备出色的下肢运动能力，包括单腿跳跃和原地360度转身，能够处理复杂地形如高台阶和碎石地面。该机器人采用端到端的深度强化学习和仿真训练，具备高度自由度和强大的视觉及深度感知能力，支持2小时续航并可快速拆卸电源模块。

9月底，傅利叶智能发布了第二代人形机器人GR-2，决定在已有的供应链条件下优先“落地交付”，已交付超过一百台。傅利叶的新一代FSA执行器已搭载在GR-2的踝关节和髋关节，最大关节扭矩超过380牛·米（N·m），并为机器人的灵巧手内置了6个触觉传感器，提升了机器人的精密操作能力。尽管售价相对较高，傅利叶仍决心通过落地交付来推动研发。

10月底，深圳一家名叫众擎机器人（EngineAI）的机器人公司，推出了一款直立行走、姿势酷似人类的的机器人SE01，为了克服大部分双足机器人的弯腿、跺脚、小碎步，甚至是原地踏步的病态步伐，SE01采用的是自主研发的高性能谐波力控关节模组，使得膝关节最大扭矩能达到 186N·m，动力关节力控精度可达 0.2N·m。整体售价计划控制在2-3 万美元。

相较于国外大厂，“活蹦乱跳”的国内机器人商业公司毫不示弱甚至更“卷”，尤其是在人形机器人形态的多样化发展方向，我们有理由相信摩根士丹利的预测，中国零部件价格降低，或将推动全球人形机器人的供应链的完善，加快实现更强大、更便宜的人形机器人大规模量产。

腾研AGI路线图图谱截选：

宇树G1、傅利叶GR-2、众擎SE01

空间智能：
多维感官与行动能力

空间智能是什么，为什么重要

决定具身智能复杂性的感官与行为数据及其相关算法，是软件层面制约机器人的量产与泛化能力的另一个重要因素。多维度数据远没有文本、图像等丰富，难以有效支持大规模的空间训练。

关于李飞飞提出的空间智能，至今没有给出明确定义，但我们可以从她多年来与之相关的一系列工作中，具象化“空间智能”这一概念，并理解它对具身智能的重要性。

同样是在TED的讲台上，九年前李飞飞带来了影响深远的“ImageNet数据集”。在那个神经网络算法、图形处理器（GPU）和大数据首次结合的时期，图像数据非常紧缺。她的实验室开发的ImageNet启用了一个包含数百万张高质量照片的数据库，用以训练计算机视觉。除了数据库的标注与收集外，实验室还开发了识别图像中的对象并预测它们之间关系的算法。虽然实验室的工作并未独立商业化，但影响甚广，当时的学生还包括后来的AI大神Andrej Karpathy。

目前，AI在3D领域的发展远不如其他领域迅速，一个重要原因就是基础数据的获取难度较大。优势的3D资产往往存在于建模、影视、游戏、自动驾驶公司的私有数据中，难以共享或交易。

如今，空间智能要做的，其实可以简单理解为，就是3D版本的ImageNet数据集及相关算法。

今年年中，李飞飞推动的“空间智能”概念，通过吴佳俊（同为斯坦福教员，目前在李飞飞创业公司World Labs中担任顾问）团队的BVS（BEHAVIOR Vision Suite）得到了新的发展。该套件为计算机视觉模型提供了一套强大的基础工具与资源集，帮助三维数据的合成与评估。

并在10月进行了重要迭代。1、提出“数字表亲”概念，不再追求与真实物体一比一的复制，降低成本，增强模型的泛化能力。数字表亲通过简单拍照即可创建，用于机器人训练，提供变化且相似的训练场景。通过ACDC（Automatic Creation of Digital Cousins）方法自动创建数字表亲，实现从虚拟到真实的零样本迁移，表现优于数字孪生模型。2、推出WonderWorld系统，实现了交互式3D生成速度的重要突破。系统通过FLAGS（Fast LAyered Gaussian Surfels）方法在10秒内生成3D场景，速度比现有技术快100倍，并解决了多场景衔接的几何裂缝问题，无需训练预设模型，可跨多种场景类型生成连贯的3D世界。

相关研究正在加速空间模型的数据积累，训练与应用，使大模型的智能涌现正在从文本、图像、视频向3D场景过渡。当然，光有数据库还不够。正如上述所提及的，类似ImageNet需要“识别图像中的对象并预测它们之间关系”一样，空间智能还需要理解三维物件之间的关系。相对于数字环境的AI，这项能力对于需要与物理世界亲密接触的具身智能来说显得更为重要。

因此，团队还提出了ReKep框架，提出了关系关键点约束方法（ReKep/Relational Keypoint Constraints），来优化机器人与环境的复杂交互。ReKep能够与GPT-4等多模态大模型整合，实现多阶段任务的分解和优化。通过约束优化问题定义机器人操作任务，增强执行策略的泛化能力。可以简单理解为，该方法将某项复杂任务表现为一连串的关系序列，通过与大型语言模型（LLMs）解决序列问题的强项结合，希望更加有效的提升机器人训练的效率与泛化能力。

总体来说，与九年前的ImageNet一样，“神秘”的空间智能的创业内容其实并不难理解，甚至很简单、直接，就是把之前0-1的成功经验与优势，增加一个维度，再做一遍。而这对于接下来具身智能对世界的理解与交互来说，是非常重要的基础工作。

腾研AGI路线图图谱截选：

BVS、WonderWorld、ReKep

从感官到行动，弥合虚拟与现实

在我们生活中，或许经常会遇到这样的情况：一件事情明明已经想好怎么做，但当真正动手时，却会发现自己笨手笨脚，不能完全将想象中的动作执行出来。

具体智能的实现也面临着同样的问题，主要的挑战就是弥合模拟与现实之间的差距。这是一项涉及多方面的复杂系统工程。可喜的是，我们目前已经看到了一系列积极的变化。

首先是物理环境的适应。虚拟环境与现实环境的颗粒度是不同的，现实世界的变量更加复杂多变。传统上，让机器人学会在现实世界中执行任务，需要研究人员通过手动方式设置各类模型环境的参数与奖励函数等，这一过程非常繁琐且难以穷尽。得益于大型语言模型的泛文本与代码能力，这一过程有望得到简化。今年5月初，由宾夕法尼亚大学、英伟达等携手推出的突破性研究项目DrEureka验证了这一路径的可行性。在该研究中，一只四足机器人在瑜伽球上稳稳行走，无论是研究人员故意干扰，还是球体表面气压的变化，都无法让它失去平衡。这样的类似科幻电影的画面非常让人惊讶，这主要得益于DrEureka创新设计，它通过AI自动生成的奖励函数和域随机化技术，利用大算力来穷尽物理环境的参数，以更大程度的模拟现实。

其次是动作与策略规划。与单一任务机器人等不同，AI和机器人专家的长远目标，是创造出具有通用智能的机器人代理，使其能够像人类或动物一样自我学习与进步，应用于千变万化的现实环境。而当前基于编程的运动控制算法，显然难以满足这一目标，无论我们已经努力编程了N个任务，当机器人遇到第N+1项任务时，可能就会随时宕机。这时，我们也许会再次想到大型语言模型的泛化能力，但是，由于涉及到复杂的动作训练与策略规划，对推理的要求更高，强化学习将是更好的尝试。类似于围棋领域的AlphaGo Zero，人类只需要提供最基础的围棋规则，人工智能便能通过自我博弈的方式学会千变万化的棋艺，并碾压人类。4月初，AlphaGo Zero的开发者谷歌的DeepMind便打造了一款足球机器人，登上了《Science Robotics》封面。这简单来说就是足球机器人界的AlphaGo Zero，通过最基础的目标设置，机器人就可以学会行走、转身、踢腿等一系列动作，并根据目标（如射门）去连贯执行。该项目的核心是训练能够自我进化的通用机器人，而不是仅仅训练它们执行特定任务。

最后是控制策略的泛化。如果说上述两种方法都已经很惊艳，但如果我们的机器人不是DrEureka这样的四足机器人，或者像DeepMind这样的足球机器人，那相关的数据与控制指令是不是都要重新做一遍呢？显然，最好不要。控制策略的泛化对于具身智能的广泛普及具有重要意义。今年10月底，英伟达推出了一个具有150万参数的极小模型HOVER，主要用于人形机器人的多功能全身神经通用控制。HOVER控制器在单一模型内整合多种任务需求，适应各类人形机器人动作（行走、操作等），实现多模式切换，提升了机器人仿人应用的效率和灵活性。它不仅在输出端进行控制，还可以支持不同输入设备，简化数据收集。实际上，各类人形机器人在平时走路、保持平衡、控制手脚等看似简单的动作背后，其实涉及大量的潜意识处理，HOVER相当于把这种潜意识编码到了一个统一的模型里，同时，支持反向编译。

腾研AGI路线图图谱截选：

DrEureka、足球机器人

应用场景：
市场与技术的良性循环

技术再强，也要找到用武之地

市场和技术之间一直都存在着一种相互促进、相互影响的辩证关系。市场需求往往是推动技术创新的关键动力，而技术进步反过来又影响市场结构。甚至在很多行业中，市场比技术显得更为重要。例如，增程式电动车虽然在多种技术方案中并不算领先，却占据了当前电动车销量的市场；苹果公司虽然大量采用非自研技术，但依然多年来稳居智能终端的领头羊；等等。

尤其是在各类要素高速流动的今天，工程实现事实上并不存在足够高的护城河，核心技术人员一旦出走，就有可能重新创办一家新公司。把握市场机会，甚至比技术本身更为重要。在机器人领域同样如此，除了观察技术本身，更应该看到机器人落地的的一些关键的价值方向：

第一类看预期规模。比如老年陪护机器人。据统计，2030年老龄化比例将达到约17%，2050年将进一步达到约24%。人口老龄化以及老年人的抚养和陪护问题，已成为摆在社会面前的重要议题之一。通过技术发展来惠及社会，关爱人类，是机器人规模化发展的一个刚性需求和核心方向。9月底，腾讯Robotics X实验室发布了新机器人「小五」，这是实验室开发的第五代机器人，具备四腿轮足复合设计、多指灵巧手、大面积触觉皮肤、安全人机物理交互等技术,可以提高机器人在人居环境中的实用性和交互性。其设计理念来自于实验室A2G理念的B（Body，机器人本体）、G（Guardian Angel，守护天使），通过探索不同形态的本体，去让人类的生活更美好。这个市场空间是非常巨大的，足以支持技术的迭代。类似的案例还有5月份，马里兰团队打造的辅助喂食机器人，可用于老年人进食和儿童保育，等等。

第二类看数据反馈。比如当下人形机器人的“进厂潮”。5月份，特斯拉Optimus人形机器人开始进入工厂，参与电池分装；7月份，Figure AI与宝马达成合作，将人形通用机器人引入汽车生产线以执行多样化任务；10月份，波士顿动力的Atlas机器人在工厂环境中成功完成全自动任务，展示了搬运汽车发动机零件的能力。当前顶尖机器人进入工厂的现象，几乎成为了行业标配。难道相对于传统的工业机器人，人形机器人真的能更好的适应厂里的工作吗？事实上并非如此。当下人形机器人上能够独立完成的具体工作，其实并不多，且并不足够稳定，成本上也不具备规模落地的优势。机器人纷纷进厂，或许更多为的不是规模化落地，而是通过任务执行，获取更多的数据反馈，并在实际环境中验证软硬件的操作表现。

第三类看比较优势。已经具备成熟的物理实体，数据较为完备的优势场景应用或更快得到应用。其中一个最典型的就是手术机器人。8月份，斯坦福团队开发的达芬奇机器人通过模仿学习独立完成外科手术基本任务，如缝合、针头处理和提起组织等；实验中，达芬奇机器人展示了精细操作能力，成功应用相对动作公式克服了系统本体感知的不准确性。通过大规模模仿学习，达芬奇机器人能够在没有进一步运动学矫正的情况下，有效学习并执行复杂手术任务。同样，Perceptive公司开发的AI机器人牙医也于近期首次完成了一例漂亮的人类牙科手术，速度是人类医生的8倍，能够精确处理患者头部移动。在国外或一些乡村社区，医生人数不足，或者没有太多牙医愿意在偏远、落后的社区工作，手术机器人将会是一个不错的主意。

腾研AGI路线图图谱截选：

腾讯「小五」、达芬奇AI机器人

不管闭源或开源，推动多方合作

具身智能涉及众多学科的融合，包括传统机器人领域的机械工程、自动化、嵌入式系统、控制优化等，与计算机领域的机器学习、模式识别，以及认知科学、神经科学等等。它是各个领域发展到一定成熟后才能涌现出的能力，这也决定了，闭门造车将会导致效率低下。要想加速具身智能的规模发展与量产应用，可能需要从更广的范围内去聚合社会和产业各方的资源。

核心在于全产业链条的打通，可以通过闭源平台，也可以通过开源社区的方式。

在闭源平台方面，3月中，英伟达推出了通用机器人模型Project GR00T，提出与人形机器人专家共同打造平台的设想。该平台涵盖了几乎所有著名的人形机器人制造商，包括1X Technologies、Agility Robotics、Apptronik、Boston Dynamics、Figure AI、Fourier Intelligence、Sanctuary AI、Unitree Robotics和XPENG Robotics等。该项目主要包括两个部分：1、提供机器人专用的基础模型，GR00T代表“通用机器人00技术”，旨在使人形机器人能够通过观察人类行为来理解自然语言并模仿动作，从而快速学习协调性、灵活性等技能；2、提供英伟达的Isaac平台，包括Isaac Lab（用于强化学习）和Jetson Thor（高性能计算平台），将英伟达的加速计算能力复用到机器人领域的开发中。目前，该项目并非一个开源项目，更像是通过产业联盟的方式推进相关工作。

开源社区方面，同期，以构建大型开源社区而闻名的 AI 初创公司Hugging Face，挖来了前特斯拉科学家 Remi Cadene，他是特斯拉 Autopilot 和 Optimus 机器人研究项目的团队成员，有着丰富的实践经验。这次开源的LeRobot机器人工具包，堪称机器人领域的「Transformers」。LeRobot 提供了一个多功能的平台，支持大规模机器人数据集、预训练模型访问，以及物理模拟器集成，同时，还可以支持从简单机械臂到复杂类人机器人的多种硬件。Cadene 表示 LeRobot 项目的发展愿景是“从多样化社区中构建软件和硬件，以在现实世界中开发下一代智能机器人”。聚集于应用场景，加强技术的共享与创新交流，开源项目通常吸引大量开发者参与，这种集体智慧能够有效解决复杂问题。通过共同努力，开发者可以在更短的时间内找到解决方案，从而推动技术的进步与应用。

闭源与开源的争论是一个复杂的话题。开源模式强调技术的共享、协作和快速迭代，而闭源模式则侧重于保护商业利益、确保数据安全和技术支持。不管哪种方式，对于具身智能这项复杂工程，都是有益且必要的。随着技术的发展和市场的变化，开源与闭源之间的界限也在逐渐变得模糊，未来可能会出现更多结合两者优点的混合模式，共同解决具身智能这一多学科难题。

腾研AGI路线图图谱截选：

Project GR00T、LeRobot

总的来说，要实现具身智能，还需要做大量的工作。“没有灵魂的躯体是一具行尸走肉，没有躯体的灵魂是一缕虚无幽灵。”在具身智能的发展过程中，具身和智能缺一不可，且需要达到高度的有机结合。弥合虚拟与现实的鸿沟也从来不是一件易事，不管是从现实到虚拟的元宇宙，还是虚拟到现实的具身智能。可喜的是，当下全世界的AI与机器人专家正在各自的专业领域为此狂奔，长远来看，具身智能一定会走进千家万户，只是，还需要给它多一些时间。

（感谢腾讯研究院曹士圯、袁晓辉在本文撰写中提供的帮助。）

参考资料：
腾讯研究院AGI图谱数据库、#腾讯研究院AI速递、#AI每周关键词Top50

腾讯研究院AGI路线图

AGI路线图是腾讯研究院旗下的AI创新研究专项，依托对AI创新前沿的关注、技术积累与产品实践，为探索AGI（通用人工智能）之路提供全方位的研究支持。该专项持续关注技术、场景、数据、生态和安全等多个维度，希望为AGI逐步落地及其产生的行业和社会影响，提供思想洞察和交流平台。如果您对这个主题感兴趣，欢迎来稿，或与我们交流您的所思所想！

联系地址：tencentresearch@tencent.com

查看原图 50K