+关注

手机看

微信扫一扫，随时随地看

漫画读懂大模型如何“强控”具身智能机器人

亲爱的数据

2025-03-24 11:29发布于北京科技领域创作者

+关注

废话不多说，

接通宋言博士的电话，

第一句就是：“你看清华大学那篇RDT论文了吗？”

异口同声地回答：“当然看了”

连寒暄都省了，用“论文看了嘛？”，

确认一下好友身份。

若要没看，

那咱们就不再是朋友了。

宋言博士对这篇论文评价很高，

（说明谭老师我欣赏论文的品味也很高呢。）

一句话总结，把扩散模型思路引入机器人。

氛围已经烘托到这里了，

这篇就聊这个。

宋言博士是元萝卜机器人系统架构师，

一位从清华大学力学博士转来机器人行业的“转行博士”。

密切关注大模型最新进展是我俩的共同爱好。

大模型控制机器人很有意思，

毕竟，脑子是个好东西，

希望你有，我有，大家有，机器人有，

既然好好聊，我请到了，

论文RDT的第一作者清华大学刘松铭博士，

中科紫东太初大模型团队机器人总监：刘荣博士，

武汉人工智能研究院研究员：易东博士，

元萝卜机器人系统架构师：宋言博士。

（一）强势玩家出场

先说有哪些知名玩家？

再说下各家玩法。

第一个，

谷歌很坚定地摸索大模型控制机器人道路，

接连推出，

Robotic Transformer 1，

Palm-E，

Robotic Transformer 2 （2023年7月），

后面，Robotic Transformer -H（2024 年 3 月），

增加了语言模型对机器人细节动作的理解；

后来，RT1演化成模块，

从Palm-E开始，

就调用RT1这个模块处理动作。

RT1自有语言理解能力，

所以，这种模块不可以说是：

相对独立且只负责动作的模块。

RT-2之后的模型，所有的都在一套网络里完成，

但没有用上扩散模型。

直到Germini Robotics ER这一代，

终于用上了扩散模型，

扩散模型不仅是独立子模块，

而且跑在在机器人硬件上。

刘荣博士和易东博士共同认为：

虽然Germini Robotics是闭源，

但是，它的视觉语言模型，

很可能是目前世界上最好的。

谷歌团队搞视觉语言模型由来已久，信心坚定，

Germini Robotics自然继承了很多优点：

（1）对空间理解能力特别强，

有的模型仅能把空间位置关系，

比如，前后关系说对，

这已经很强了，

然而，Germini Robotics模型可以把厨房工具的把手直接框出来，

比如炒菜产子的手柄。

我们详细解释一下：

一张图片，有的模型能说出图片里有人，

有的模型能把模型里的人框出来，

那么，这两种模型完全不在一个水平上，

后者强太多了。

机器人要理解周围的环境，不仅仅是“看见”一个平面图片，而是要知道物体的形状、大小、距离和位置（3D感知）。Germini Robotics不仅对空间的理解走到三维这一步，而且能够输出三维理解的结果。

（2）推理能力也很强

怎么强？上考试题

（ERQA真是个好东西，前面漫画也有）

第一题：轨迹推理（Trajectory Reasoning）

题目：“大约应该沿着哪条彩色轨迹拉动拉链，以便开始拉上行李箱？”

选项：

A. 蓝色（正确答案）

B.紫色

C. 绿色

D. 红色

分析机器人能做啥：

机器人需要理解拉链的起点和方向，

判断正确的运动轨迹。

这需要 3D 空间感知和运动规划能力，

让机器人知道如何正确拉上拉链，

而不是随意乱拉。

第二题：动作推理（Action Reasoning）

题目：“应该如何移动扳手，使其准备好旋转最靠近它的六角螺丝？”

A. 向前和向右（正确答案）

B. 向上和向左

C. 向前和向左

D. 以上都不是

分析机器人能做啥：

机器人需要理解工具（扳手），

如何作用于目标（螺丝），

并找到正确的操作方向。

这涉及物理交互（Physics-based Interaction），

让机器人知道如何调整扳手的角度来正确拧螺丝。

第三题：空间推理（Spatial Reasoning）

题目：“图片中有 4 个水槽。哪个箭头指向的是离观察者最近的水槽？”

A. 没有箭头指向最近的水槽（正确答案）

B. 蓝色

C. 红色

D. 青色

分析机器人能做啥：

机器人需要理解深度和空间关系，

判断哪个物体最近。

这涉及 3D 视觉感知（3D Perception），

让机器人能识别前后关系，

而不是仅仅根据颜色选择答案。

（3）Germini Robotics尽力理解物理世界

理解世界，

才能是真智能机器人。

比如物体下落，

比如，扫把靠在墙上放得不好要划倒，

它的模型理解这点，

机器人前去扶正扫把。

机器人不仅语言，思考聪明，

还要行动聪明，

理解物理世界是机器人领域的远大理想，

也是机器人自如行动于物理世界的前提。

Germini Robotics到底做得如何呢？

也仅在初级理解阶段，机器人只是能做选择题，

如果把考试题目换成开放性试题，

那就是另一个难度了。

综上所述，谷歌的技术路线，

以理解物理世界为终极目标，

（理解数字世界不在话下）。

谷歌的“故事”，总是格外容易进入，

你被故事带着走，

读懂谷歌，更容易看懂其他团队，

很多人指责谷歌创新能力衰退，

而我看来，谷歌更像一个值得信任的中年人。

往往是最好的“参考标准”。

（二）竞争加剧，“含量”提升

再把目光移到其他团队：

第二个Octo模型团队（Octo Model Team），

这个团队的成果其实也可被视为谷歌系列工作，

谷歌和美国三所名校都参与了（24年5月26日），

团队核心人物之一，

美国加州伯克利大学谢尔盖·莱文教授

英文名是Sergey Levine，

他在一次演讲中也谈到：

“扩散模块规模小，会限制模型能力。”

莱文教授也是我在硅谷最希望拜访的教授之一。

第三个，清华大学朱军教授团队

Robotics Diffusion Transformer (RDT)，

这个就是文章一开头，

和宋言博士电话里聊到的论文。

朱军教授团队我观察了很多年，

业界地位不容小觑。

有个很好的例子，人类很容易理解倒水"1/3 杯" ，

然而，指挥机器人动作的模型在训练的时候，

只学过 "少量""半杯" "满杯" 三种水位。

从来没学过 "1/3 杯"，

也就是说，

RDT模型令机器人“听懂”以前没学过的指令，

依然能成功完成任务，

这说明AI模型并不是死记硬背，可举一反三。

另外，论文中是双臂任务，双臂比单臂更难。

配套双臂数据集也格外有看点。

第四个，Pi-Zero模型属于“物理智能”团队，

英文名是Physical Intelligence，

仅从名字上观察，

该公司愿景想让机器人理解世界的规则。

现在看来，这是种雄心壮志。

再观察，RDT和Pi-Zero均在动作模块中，

引入扩散模型，

技术含量点在于，主干模型中用上了扩散模型，

而Octo模型只是用了一小部分，

RDT和Pi-Zero模型则将扩散模型规模扩大了很多。

换句话说，“扩散模型”含量在提升。

第五个，Figure 02，部分扩散模型。

第六个，字节跳动的GR系列的单臂任务

2024年10月，

虽然没有引入扩散模型，不过亮点是，

字节在这个方向上有着自己的理解，

他们认为，模型对空间的理解能力强是核心，

他们将动作理解为一个序列，

模型提高对视频的理解力，

机器人动作性能才能提高。

是时候总结这些玩家的玩法特点了。

第一点，用VLA大模型做基座，

既然可以用已有的大模型抽特征，

可以纯语言模型提语言特征，

可以纯视觉模型提视觉特征，

也可以用图文模型提两种特征，

怎么组合都行。

既然是VLA模型，

只要是给它下达任务，机器人直接做动作，

一套输出行云流水输出机器人动作（端到端）。

第二点，特别重要的是动作模块，

因为机器人需要给它动作信号，才能行动。

早期动作模块不用扩散模型，

后来核心组件由扩散模型构成，

也就是说在VLA模型的基础上，

扩散模型作为一个独立的子模块（head）被引入，

能够看到，“扩散模型含量在提高，从子模块，走向骨干，

美国众多知名团队如此，

国内一流团队亦如此。

结论呼之欲出，

扩散模型正在成为机器人算法领域的关键技术之一，很有前途。

（三）底层原理

秉持我一贯的风格，

要聊就聊透。

好好理解扩散模型用于机器人操作底层原理。

我相信，当你理解了扩散模型的“隐藏实力”，

就不会问why，而是why not。

从“为什么用在机器人身上？”，

变成了“为什么不用在机器人身上？”

要我说，扩散模型足够强大，足够基础。

而武汉人工智能研究院易东博士给我的答案是：

一种广泛适用的连续高维概率密度函数估计（和采样）方法。

确实深刻。

不仅AI画图可用，机器人，自动驾驶等亦可用，

一切皆可探索。

先复习一下扩散模型用于AI画图，

这是一个从“坏图”中去掉噪声变成“好图”的过程。

当你告诉AI“我想生成一幅日落的海滩和一群泳衣模特”，

（我的咒语，当然是男模特）

它就会从一张完全随机的“雪花屏”图片开始，

一步步去掉噪声，最终生成你想要的“好图”。

去掉噪声，这是一个思想，很早就有了，

这道题让扩散模型来做，它能生成。

甚至可得到一组连续动作。

机械臂当下在什么位置？

把机器臂控制到什么位置去？

有了时间长度的位置信息，本身就是轨迹信息，

以此类推，扩散模型一直预测动作，

机械臂一直完成任务，

任务可以是叠衣服，端茶倒水……

这时候，机器人能力瞬间爆棚。

（四）给机器人“出”策略

既然我这么看好扩散模型和机器人操作，

那我就很想知道，这个头是怎么开的？

我们不得不提到一篇论文，

2023年，开创性论文：

关于机械臂动作策略生成（Diffusion Policy Learning），

它第一次把扩散模型用到机器人身上，

开辟了一种机器人的技术方向，跟随者众。

Diffusion Policy Learning里的Policy ，

我特意让宋言博士讲解了这点，

我就很喜欢他对技术本质那种浅显直白的表达。

策略（Policy）这个术语，

是具身机器人专业术语，

用扩散模型来“学习策略”。

策略是强化学习中的一个核心概念，

也是最初入门强化学习时，

最先接触到的重要术语之一。

这样解释吧：

在使用强化学习来玩超级玛丽游戏时，

从能找到一种算法（马尔可夫链），

为我们提供一种简单又实用的方式，

来理解和解决游戏人物面对的难题。

超级玛丽当前的状态是“踩在蘑菇上”，

下一个动作是什么，

向左走，向右走？跳起？还是顶砖头？

基于超级玛丽当前的状态，要做一个动作的选择，

这个选择就叫策略（Policy）。

强化学习的目标是学习出一个最优的策略，

超级玛丽能够尽量多吃道具得分，

而且尽可能别挂掉。

从超级玛丽聊回机器人，摄像头拍到的照片（场景），

或者人类的命令都是初始状态（State），

选择下一步如何行动就是策略（方法论）。

传统机器人预先编好的程序，

而具身机器人和环境交互出策略。

机械臂要拿葡萄，

下一步把手臂移到葡萄上方。

看来，扩散模型输出了正确的策略。

不过，我再引用一句清华大学刘松铭博士的原话：

“让我们再来谈谈这件事的本质。Diffusion采用连续的形式去建模动作分布，自回归则用离散类别去模拟。前者昂贵而有效，后者简单（仅需类似轮盘赌的方法）但失真。我们目前选择了最稳的办法。但也不好说，也许有一天我们会猛然发现这个世界的本质是离散的，只不过我们缺少合适的离散化方法。”

在我看来，越是高手，

越喜欢思考算法背后的哲学意义。

有时候，猛一听，

都不像在聊计算机。

（五）清华大学论文RDT

从前面的玩家玩法总结中能看到，

清华大学论文RDT是绕不过去了，

那就有请论文第一作者刘松铭博士，

我观察到对他对具身智能的思考十分深刻。

以下由对话形式呈现：

第一个问题：我们怎么理解扩散模型和自回归模型？

他回答：自回归有两个关键问题：

1. 离散化：自回归需要基于离散概率采样，而具身的action天然连续。这二者之间会存在量化误差，而具身的操作任务对误差极其敏感。对于灵巧操作任务，可能需要亚毫米精度。

2. 自回归需逐个生成词元，受限于端侧硬件（显卡带宽小），会导致模型推理速度较慢，而具身对控制频率有较高要求（一般操作任务，至少需要10Hz推理频率，而100ms对于VLM或者VLA来说，太短了）。虽然这两点目前业界都有一些解决方案，但远远达不到完美。

本质在于，在高维连续分布中进行采样并不简单，

是一个复杂的问题（non-trivial problem），

而扩散模型是解决这一问题的有力工具：

它本身是连续的，并且扩散过程不依赖自回归，

它是并行计算的，极大提升了推理速度。

经过蒸馏，单步扩散（one-step Diffusion），

甚至可以完成抛投等动态操作任务。

第二个问题：你们在扩散模型上做了什么关键工作？

1.我们首次将扩散模型在具身任务上扩展到十亿参数规模，我们的实验证明的扩散模型路线在具身领域是可扩展的。计算规模的扩大会直接带来性能提升。为了能让这个模型扩展，我们在扩散模型去噪网络架构上做了相当多的工作：包括选择合适的normalization方法，选择合适的条件注入方式以及提升模型对非线性的适应能力。这些都是具身领域都有的挑战。这些工作尽管比较工程，但都是扩展模型必不可缺的，我们的消融实验表明缺少了任意一项技术，模型的扩展性都会失败。这些在可扩展性上的努力是Diffusion Policy的关键。这也让我们成为目前最大的扩散结构，Pi0的扩散模型部分只有300M，我们认为这会影响它的表达能力。

2.为了能支撑这么大规模模型的训练，我们准备了相当多的开源数据。当然，这里面的工作并不是几行代码就搞定的。我们独家的数据集配方里包含了46个不同机器人数据，为了能训练发挥出最大的效果，团队逐个数据集去清洗，清洗掉那些有错误或者传感器异常的数据。实验中的“脏活累活”实际上对模型性能提升非常重要。

3.在不懈“调参”下，我们的模型取得了不错的性能。有时候确实有点像老厨师烹饪，没有太多规律，摸索了很多配方，把我们发现的最好的，开放给大家）。据开源社区反馈，即使Pi0发布之后，我们的模型依然很能打（嘿嘿）。我推测，不同的模型有各自适用的任务。不过，缺点也有，纯扩散结构比较吃算力，但算力给够模型的性能可以持续提升。感谢刘松铭博士，他对RDT的讲解十分细致。

（六）学术争议

我发现，对机器人动作轨迹生成这个件事的思考，

其中一个争议点在于：

该用自回归的方法做，

还是用生成式的方法做？

其实这是在讨论自回归和扩散的关系。

而且AI画画和机器人动作操作也有所不同。

易东博士认为：

“各有各的场景和优势，也能融合。

图像生成方向也有结合。比如何恺明的工作MAR，先自回归，然后扩散，”

而元萝卜机器人系统架构师宋言博士认为：

控制机器人的手臂去拉抽屉，

抓抽屉可以从上面抓，

也可以从下面抓，角度差了180度，

有了两条数据（上和下），用自回归的方法，

这两条数据会相互干扰，

机器人动作操作忌讳相互干扰的数据。

机器人做一件事情，

可以有很多种动作去做这件事。

比如，抓取一个杯子，很多角度都能取到物品。

扩散模型的优势是把所有的动作都建模出来，

自回归的思路是无论多么复杂都回归到一个点上，

所谓一个点就是一条确定的路径，

而不能做多方面的探索。

我又和中科紫东太初大模型团队机器人总监刘荣博士聊了聊，他认为：

1.扩散模型和自回归是目前生成式方法的两个最主要的方向；

2.一般认为，自回归擅长处理可变长度序列的预测问题，比如。现在语句生成，但是自回归直接生成预测的词元，被认为是离散的，会损失物理值的大小关系，这个对行为输出来说比较重要；

3.而扩散模型一般处理定长序列，比如图像生成（图像大小是一定的），

好处是它的生成是连续的，这是因为扩散模型属于先预测分布再生成，连续值输出一般认为更适合具身机器人任务。

（七）尾声

最近的机器人在视频中非常欢脱，

有些难辨真假，可能产生一种误解，

具身智能落地就在眼前。

其实很多机器人从业者，对目前进展不满意：

步子不够大，也不够爆发。

甚至有悲观观点，人形机器人至少五年，

乃至更长时间都无法落地。

不管机器人多会耍酷，本质是多少钱能用得划算。

有观点认为：现在的很多开源工作，

距离商业化还很遥远，

为了展示技术实力，

把数据都用起来了（数据用的多），

有学习能力（零样本，小样本），

把流程跑通（完成简单的行动）。

另一位专家刘荣博士则提出：

“机器人的能力，不是停留在展示层面，

而是在性能指标小数点后面的比拼切磋中，

真正摸清前行的方向。”

无论如何，机器人落地是加速的。

你看，扩散模型正悄然成为智能机器人算法的关键技术之一。“有朝一日，扩散模型的影响力不会亚于 Transformer。”——易东博士如此预测。

坦白讲，我也是这个态度。

扩散模型的高光时刻并不遥远。

这篇聊了很多专家，很痛快，不由感慨一句，

能和这些技术大神交朋友真爽，

用技术博客分享洞见，

只是我享受学习和友谊的副产品。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。