1.北京大学研究团队提出了Lift3D策略,旨在提升2D大规模预训练模型的隐式和显式3D机器人表示。
2.该方法通过任务感知的掩码自编码器增强2D基础模型的隐式3D机器人表达能力,同时利用预训练的2D位置嵌入直接编码3D点云数据。
3.在多个仿真环境和真实场景中,Lift3D实现了SOTA的操纵效果,展示了强大的鲁棒性和泛化能力。
4.为此,研究团队在三个模拟器和多个真实场景中进行了广泛的实验,包括30多种不同的机械臂gripper和灵巧手操控任务。
5.目前,Lift3D已上线始智AI-wisemodel开源社区,欢迎大家前去体验。
以上内容由腾讯混元大模型生成,仅供参考
始智AI wisemodel.cn开源社区
尽管这些方法能够有效地处理一系列操纵任务,但它们未能完全理解物理世界中的空间关系和3D结构。在机器人操纵中,3D几何信息对于应对复杂任务至关重要,因为机器人必须感知3D环境、推理几何关系并与复杂的空间物体进行交互。
近年来,研究越来越多地集中在机器人操纵任务中显式提取3D特征表示,这些方法可分为两类:
1)一些方法直接编码点云数据,通过从头开始训练3D策略模型或微调预训练的点云编码器(例如PointNet++和PointNext)。然而,由于缺乏大规模机器人3D数据和基础模型,限制了它们的泛化能力。此外,处理3D或体素特征需要大量计算资源,这限制了其可扩展性和在现实世界应用中的可行性。
2)另一方面,一些方法涉及模态转换,例如将预训练的2D特征提升到3D空间,或将3D点云投影到多视角图像中,以供2D预训练模型输入。尽管在一些后续的操纵任务中表现出色,但这些模态转换不可避免地导致空间信息的丢失,并不能完全激发模型对3D空间关系的理解。
基于上述3D策略中的挑战,研究团队提出了一个问题:“我们能否开发一个即有大规模预训练知识,又融合完整3D空间数据输入的3D策略基础模型?”
3.1 贡献概述
提出了Lift3D,通过系统地改进隐式和显式的3D机器人表示,将2D大规模预训练模型提升为鲁棒的3D操纵策略模型。
对于隐式3D机器人表示,设计了一种任务感知MAE(Mask Autoencoder)自监督方法,它对任务相关的可操作区域进行掩蔽,并重建深度几何信息,从而增强2D基础模型的3D空间认知。
对于显式3D机器人表示,提出了一种2D基础模型lifting策略,利用2D基础模型的预训练位置编码(PE)来编码3D点云数据,用于3D操纵模仿学习。
3.2 Task-aware Masked Autoencoder(隐式3D机器人表示)
图2: Lift3D的整体流程。a) 对于隐式3D机器人表示,我们利用CLIP离线提取基于任务描述的图像注意力图,并将其反向投影到2D输入图像上,以指导MAE的掩码。然后,我们将可见的tokens输入2D基础模型进行特征提取。掩码tokens和编码后的可见tokens经过MAE解码器进行深度重建,从而增强3D空间感知。同时,编码后的可见tokens还会通过与原模型的特征进行蒸馏,以减轻灾难性遗忘问题。b) 对于显式3D机器人表示,我们首先将点云数据投影到多个虚拟平面上,建立3D输入点与每个虚拟平面上的2D位置嵌入(PEs)之间的位置映射。映射完成后,我们将每个3D补丁对应的2D PEs进行平均,形成统一的3D位置嵌入(3D PEs),然后将其与3D tokens结合。这些3D tokens是通过将点云输入轻量级3D分词器生成的。最后,来自2D基础模型的输出特征通过策略头进行处理,以预测模仿学习的位姿。
一些研究表明,2D基础模型在各种下游机器人任务中展示了强大的操纵和泛化能力。在此基础上,Lift3D首先增强了2D基础模型中的隐式3D机器人表示。现有的机器人 MAE 重建方法大多采用随机掩码。
然而掩码部分可能主要包含无关的背景信息,这会阻碍对于前景物体表示的有效学习。不同于之前的方法,Lift3D 的目标是掩码与任务相关的Affordance token,并重建深度几何信息,从而增强 2D 基础模型的 3D 空间感知能力。
具体而言,利用来自机器人操作的大规模数据集来构建MAE训练数据集,该数据集包括从视频中随机抽取的100万个训练样本,包含配对的图像和深度数据。如下图2 a)所示,具体的操作步骤如下:
1. 一旦获得数据,使用多模态模型(例如,CLIP)基于任务特定的文本描述生成图像attention map。例如,图2中提取attention map的文本提示是:“机械臂将红色碗放入灰色碗中”。然后,这些attention map会被双线性插值并反投影到输入图像上,用于引导MAE的mask策略。为了区分与任务相关的可操作性标记和背景标记,我们对所有标记的注意力值应用一个阈值进行过滤。与之前的方法一致[28],我们也随机遮掩背景标记,以达到所需的比例(即 r=0.75)。
2. 重建目标在遮掩图像建模中起着至关重要的作用,直接影响特征表示的学习。先前的机器人 MAE 方法通常使用低级的 RGB 信息作为重建目标[52, 60, 62]。为了增强 2D 基础模型的 3D 空间感知能力,我们重建任务相关的可操作性图像块和随机选择的背景图像块的深度信息。
3. 为了保持基础模型的固有能力,引入蒸馏损失,约束可见标记输出和原本2D预训练模型中对应特征之间的距离。在第一阶段的训练过程中,我们通过重建和蒸馏损失来微调注入的适配器和解码器,损失函数公式为:
3.3 2D Model-Lifting Strategy(显示3D机器人模仿学习)
在赋予 2D 基础模型隐式的 3D 机器人感知能力后,我们引入了一种Lifting策略,使 2D 模型能够显式地理解点云数据。近期的工作,无论是将 3D 点云投影到多视图图像中,还是将 2D 特征提升到 3D 空间中,都面临由于模态转换而丢失空间信息的挑战。因此,高效地编码 3D 数据一直是 3D 机器人领域的一个关键研究方向。
如图2 b) 所示,我们将原始的点云数据转化为高维空间(B x 128 x 768),通过轻量级的 3D 标记器获得k个(k = 128)3D token。3D tokenizer 由最远点采样、k-最近邻聚合算法和可学习的线性层构成,用于特征编码。
随后,每个 3D 坐标投影到n个虚拟平面上,得到相应的 3D 到 2D 的坐标对应。投影机制无可学习参数且高效,我们采用带有 6 个面的立方体投影方法,有效捕获空间信息。这n个虚拟平面对应于n个原始的 2D 位置嵌入。
使用3D到2D坐标对应,将每个3D token分配到n个原始2D位置嵌入。在将每个 3D 标记与n个 2D 位置嵌入对齐后,我们通过平均值的方式创建一个统一的3D位置信号,表示为:
4.1 基准测试
从三个广泛使用的操纵模拟器benchmark中选择了30多个任务:MetaWorld 和 Adroit 在MuJoCo模拟器中的任务,以及 RLBench 在CoppeliaSim模拟器中的任务。点云数据通过使用相机外参和内参从单视图RGBD数据中获得。对于MetaWorld,选择了一个包含Sawyer臂和双指夹持器的桌面环境,并从不同难度级别中选择了15个任务。
4.2 基线对比
Lift3D的创新之处在于系统性地增强了隐式和显式的3D机器人表示。为了评估其有效性,将Lift3D与来自三个类别的9种方法进行了比较:
1)2D 机器人表示方法:选择了CLIP(ViT-base),它是一个2D基础模型。此外,还包括了R3M和VC1,这两者都是2D机器人预训练方法。
2)3D 机器人表示方法:借鉴了[95],采用了基础的3D模型,包括PointNet、PointNet++和PointNext。此外,还检验了SPA ,这是之前的SOTA 3D机器人预训练方法。与[52]相同,所有机器人表示方法均使用与Lift3D相同的三层策略头和训练损失。
4.3 定量实验
Lift3D(CLIP) 在 MetaWorld 基准测试中达到了 83.9 的平均成功率,其中中等任务的准确率为 78.8,困难任务的准确率为 82.0。Lift3D 比SOTA 2D 方法提高了 8.8 的平均成功率,比SOTA 3D 方法上提高了 14.4。 此外,Lift3D 在灵巧手操作任务上也优于以前的机器人表示和策略方法。
需要注意的是,灵巧手在不同任务中有不同的自由度,其中hammer, door, pen任务分别具有 26、28 和 24 个自由度。这些结果表明,我们的方法在更复杂的灵巧手操作任务中同样有效,得益于强大的 3D 机器人表示能力。Lift3D(DINOV2) 也展示了良好的结果,证明了该方法在其他 2D 基础模型中的可行性。
5.1 数据收集
5.2 定量实验
5.3定性实验
借助于2D基础模型的大规模预训练知识和全面的3D机器人表示,Lift3D展现出现实世界泛化能力。如下表所示,我们设计了三种与训练场景不同的现实世界测试场景,以验证其泛化性能。
6.1 不同的操纵实例
Lift3D在多种不同的操纵物体上表现出色,准确度损失最小。这一成功主要得益于预训练的2D基础模型在语义理解方面的强大能力。
6.2 复杂的背景场景
背景干扰显著降低了所有方法的准确度,但Lift3D的准确度下降最小,操纵成功率保持在50%以上。这得益于在3D空间中有效利用大规模预训练知识。此外,基于可操作性的掩膜策略通过重建强化了模型对前景区域空间几何的理解,最大限度地减少了背景干扰的影响。
6.3 不同的光照条件
光照变化不仅会影响2D图像的数据分布,还会影响深度捕捉,从而影响点云数据。在光照变化的影响下,Lift3D仅表现出约20%的准确度下降,充分展示了其强大的3D机器人表示能力。
在计算机视觉中,2D 基础模型通常随着参数规模的增加,能够提升下游任务的表现。基于此,我们研究了我们提出的 Lift3D 策略是否也具有可扩展性。我们在非常困难的MetaWorld仿真任务“shelf-place”上进行了实验。在这个复杂任务中,Lift3D(DINOV2-ViT-base)仅达到 28 的准确率。
ViT-base 的参数量只有 86M,而 ViT-large 和 ViT-giant 的参数量分别为 304M 和 1B。通过将 2D 基础模型替换为 DINOV2-ViT-large 和 DINOV2-ViT-giant,Lift3D 在“shelf-place”任务上的准确率分别提高到60 和 68,并且收敛速度更快。这些改进表明,Lift3D 策略模型具有良好的可扩展性,且随着更大规模的 2D 基础模型,Lift3D 框架能够生成更鲁棒的操作策略。
编辑:成蕴年