废话不多说,
接通宋言博士的电话,
第一句就是:“你看清华大学那篇RDT论文了吗?”
异口同声地回答:“当然看了”
连寒暄都省了,用“论文看了嘛?”,
确认一下好友身份。
若要没看,
那咱们就不再是朋友了。
宋言博士对这篇论文评价很高,
(说明谭老师我欣赏论文的品味也很高呢。)
一句话总结,把扩散模型思路引入机器人。
氛围已经烘托到这里了,
这篇就聊这个。
宋言博士是元萝卜机器人系统架构师,
一位从清华大学力学博士转来机器人行业的“转行博士”。
密切关注大模型最新进展是我俩的共同爱好。
大模型控制机器人很有意思,
毕竟,脑子是个好东西,
希望你有,我有,大家有,机器人有,
既然好好聊,我请到了,
论文RDT的第一作者清华大学刘松铭博士,
中科紫东太初大模型团队机器人总监:刘荣博士,
武汉人工智能研究院研究员:易东博士,
元萝卜机器人系统架构师:宋言博士。
Robotic Transformer 2 (2023年7月),后面,Robotic Transformer -H(2024 年 3 月),直到Germini Robotics ER这一代,Germini Robotics自然继承了很多优点:然而,Germini Robotics模型可以把厨房工具的把手直接框出来,机器人要理解周围的环境,不仅仅是“看见”一个平面图片,而是要知道物体的形状、大小、距离和位置(3D感知)。Germini Robotics不仅对空间的理解走到三维这一步,而且能够输出三维理解的结果。第一题:轨迹推理(Trajectory Reasoning)题目:“大约应该沿着哪条彩色轨迹拉动拉链,以便开始拉上行李箱?”第二题:动作推理(Action Reasoning)题目:“应该如何移动扳手,使其准备好旋转最靠近它的六角螺丝?”分析机器人能做啥:这涉及物理交互(Physics-based Interaction),第三题:空间推理(Spatial Reasoning)题目:“图片中有 4 个水槽。哪个箭头指向的是离观察者最近的水槽?”分析机器人能做啥:这涉及 3D 视觉感知(3D Perception),(3)Germini Robotics尽力理解物理世界Germini Robotics到底做得如何呢?(二)竞争加剧,“含量”提升
第二个Octo模型团队(Octo Model Team),莱文教授也是我在硅谷最希望拜访的教授之一。Robotics Diffusion Transformer (RDT),朱军教授团队我观察了很多年,业界地位不容小觑。有个很好的例子,人类很容易理解倒水"1/3 杯" ,另外,论文中是双臂任务,双臂比单臂更难。英文名是Physical Intelligence,RDT和Pi-Zero模型则将扩散模型规模扩大了很多。虽然没有引入扩散模型,不过亮点是,
他们认为,模型对空间的理解能力强是核心,能够看到,“扩散模型含量在提高,从子模块,走向骨干,扩散模型正在成为机器人算法领域的关键技术之一,很有前途。一种广泛适用的连续高维概率密度函数估计(和采样)方法。当你告诉AI“我想生成一幅日落的海滩和一群泳衣模特”,关于机械臂动作策略生成(Diffusion Policy Learning),Diffusion Policy Learning里的Policy ,我特意让宋言博士讲解了这点,“让我们再来谈谈这件事的本质。Diffusion采用连续的形式去建模动作分布,自回归则用离散类别去模拟。前者昂贵而有效,后者简单(仅需类似轮盘赌的方法)但失真。我们目前选择了最稳的办法。但也不好说,也许有一天我们会猛然发现这个世界的本质是离散的,只不过我们缺少合适的离散化方法。”1. 离散化:自回归需要基于离散概率采样,而具身的action天然连续。这二者之间会存在量化误差,而具身的操作任务对误差极其敏感。对于灵巧操作任务,可能需要亚毫米精度。2. 自回归需逐个生成词元,受限于端侧硬件(显卡带宽小),会导致模型推理速度较慢,而具身对控制频率有较高要求(一般操作任务,至少需要10Hz推理频率,而100ms对于VLM或者VLA来说,太短了)。虽然这两点目前业界都有一些解决方案,但远远达不到完美。是一个复杂的问题(non-trivial problem),经过蒸馏,单步扩散(one-step Diffusion),1.我们首次将扩散模型在具身任务上扩展到十亿参数规模,我们的实验证明的扩散模型路线在具身领域是可扩展的。计算规模的扩大会直接带来性能提升。为了能让这个模型扩展,我们在扩散模型去噪网络架构上做了相当多的工作:包括选择合适的normalization方法,选择合适的条件注入方式以及提升模型对非线性的适应能力。这些都是具身领域都有的挑战。这些工作尽管比较工程,但都是扩展模型必不可缺的,我们的消融实验表明缺少了任意一项技术,模型的扩展性都会失败。这些在可扩展性上的努力是Diffusion Policy的关键。这也让我们成为目前最大的扩散结构,Pi0的扩散模型部分只有300M,我们认为这会影响它的表达能力。2.为了能支撑这么大规模模型的训练,我们准备了相当多的开源数据。当然,这里面的工作并不是几行代码就搞定的。我们独家的数据集配方里包含了46个不同机器人数据,为了能训练发挥出最大的效果,团队逐个数据集去清洗,清洗掉那些有错误或者传感器异常的数据。实验中的“脏活累活”实际上对模型性能提升非常重要。3.在不懈“调参”下,我们的模型取得了不错的性能。有时候确实有点像老厨师烹饪,没有太多规律,摸索了很多配方,把我们发现的最好的,开放给大家)。据开源社区反馈,即使Pi0发布之后,我们的模型依然很能打(嘿嘿)。我推测,不同的模型有各自适用的任务。不过,缺点也有,纯扩散结构比较吃算力,但算力给够模型的性能可以持续提升。感谢刘松铭博士,他对RDT的讲解十分细致。
图像生成方向也有结合。比如何恺明的工作MAR,先自回归,然后扩散,”我又和中科紫东太初大模型团队机器人总监刘荣博士聊了聊,他认为:1.扩散模型和自回归是目前生成式方法的两个最主要的方向;2.一般认为,自回归擅长处理可变长度序列的预测问题,比如。现在语句生成,但是自回归直接生成预测的词元,被认为是离散的,会损失物理值的大小关系,这个对行为输出来说比较重要;3.而扩散模型一般处理定长序列,比如图像生成(图像大小是一定的),好处是它的生成是连续的,这是因为扩散模型属于先预测分布再生成,连续值输出一般认为更适合具身机器人任务。
无论如何,机器人落地是加速的。你看,扩散模型正悄然成为智能机器人算法的关键技术之一。“有朝一日,扩散模型的影响力不会亚于 Transformer。”——易东博士如此预测。