模拟人类反应式抓取过程，普渡大学团队实现机器人学习的数据高效触觉表征

超神经HyperAI

2024-12-31 11:00发布于福建

作者：徐政通

本文已获得徐政通博士授权发布，转载请联系本公众号

在具身触觉社区主办、HyperAI超神经协办的「新锐论前沿」第四期线上分享活动中，普渡大学博士生徐政通以「面向机器人学习的数据高效触觉表征」为主题，向大家分享了 LeTac-MPC、UniT 两大科研成果。

在机器人自主学习的旅程中，触觉是不可或缺的一环，它赋予机器感知物理世界细节的能力。然而，传统触觉感知系统的训练往往依赖于海量数据采集，成本高昂且效率低下。随着数据驱动方法的限制逐渐显现，如何通过高效的数据表征来提升触觉学习的性能，成为当下机器人研究的焦点之一。

近年来，基于自监督学习、稀疏表示以及跨模态感知的创新技术迅速崛起，为触觉表征的简化与优化提供了新的思路。

ergoCub 机器人，专为与人类进行人体工程学交互而设计

这一领域的突破，不仅能够让机器人在有限数据下实现复杂任务的快速适应，还能显著提升它们与人类及环境交互的能力。在这场革命性的变革中，数据高效的触觉表征技术正为机器人感知与学习打开新的大门。

12 月 18 日，由具身触觉社区主办、HyperAI超神经协办的「新锐论前沿」第四期线上分享活动中，普渡大学三年级博士生徐政通以「面向机器人学习的数据高效触觉表征」为题，向大家分享了 LeTac-MPC、UniT 两大科研成果及其研究的技术路线。

HyperAI超神经在不违原意的前提下，对徐政通博士的本次深度分享进行了整理汇总。

可微分优化是机器人学习中的有力工具

优化是机器人领域中一项非常重要且高效的工具，在轨迹规划和人机交互等方面展现出了许多优秀成果。在讨论优化之前，首先需要引入一个概念：可微分优化 (Differentiable Optimization)。为了解释这一概念，我们先从优化问题的通用形式 (General Formulation) 开始。

优化的核心思想是针对具体应用场景构建目标函数 (Cost Function)。这些目标函数通常蕴含大量的先验知识，并可能受到一系列约束条件的限制。因此，构建优化问题时，经常需要在目标函数中添加这些约束条件。

接下来，我们将重点讨论一种基础的优化形式——二次规划 (Quadratic Programming, QP)，其是优化领域中最简单的形式之一，在实际应用中仍然具有广泛的场景。

在此基础上，我们引入「可微分」(Differentiable) 的概念。所谓可微分，指的是在神经网络中，一个层的输出可以对其内部参数进行偏导数计算。引入可微分二次规划 (Differentiable QP) 的意义在于，当我们希望在神经网络中添加一个优化层时，必须确保该层是可微分的。只有这样，优化层的参数才能在网络训练与推理过程中通过梯度信息自然更新和流动。因此，如果我们能让二次规划问题变得可微分，就能够将其融入神经网络，使之成为网络的一部分。

更进一步，机器人学习中的优化问题往往依赖于具体场景中的先验知识，例如目标函数和约束条件的设计。通过构建一个可微分的优化问题，我们可以充分利用这些先验知识，将其有效地融入模型设计。然而，在某些情况下，我们可能无法用模型化的方法描述问题（即无法构建基于模型的表达形式）。对此，可以尝试通过数据驱动的方法，让模型自行学习这些部分的规律。这正是可微分优化问题的核心思想。

综上所述，二次规划 (Quadratic programming) 问题具有可微分的特性，因此我们可以将其作为神经网络的一部分加以引入。这种方法不仅为网络的设计提供了新的工具，也为机器人学习中的模型设计注入了更多的灵活性和可能性。

LeTac-MPC：基于触觉信号的反应式抓取与模型控制方法研究

我们提出了一种称为 reactive-grasping（反应式抓取）的概念，通过观察人类抓取物体的过程，我们发现，人类通常通过手指感知物体的属性和状态，并根据反馈调整手指的动作。例如：

* 当抓取一个鸡蛋时，我们感知到鸡蛋坚硬但脆弱，因此会使用适当的力避免损坏。当手指反馈压力增大时，我们会减弱抓取力度。

* 抓取一片面包时，由于面包较软，手指的动作会相应调整以防止挤压变形。

* 抓取一瓶牛奶时，如果摇晃瓶子，牛奶的晃动会改变物体的惯性。手指会感知这些变化并动态调整抓取动作，避免瓶子因惯性作用滑落。

模仿反应式抓取机器人的实现

借鉴人类的抓取过程，我们探索如何通过基于模型的方法 (model-based approach) 来模拟这一过程。借助基于视觉的触觉传感器 (如 GelSight)，我们可以从原始图像中提取关键特征，通过简单处理生成深度图像或差分图像，并通过阈值化操作计算接触面积 (contact area)。接触面积可以反映施加的力的大小，力越大，接触面积越大；力越小，接触面积越小。

此外，利用光流 (optical flow) 技术追踪标记点 (marker) 的移动，还可以获得另一个重要量：位移 (displacement)，这一量与侧向力相关。结合这些信号，我们可以构造基于比例-微分 (PD) 控制器的控制方法，实现触觉反应式抓取(tactile-reactive grasping)。

从 PD 控制器到 MPC 控制器

除了 PD 控制器，我们还设计了基于模型预测控制器 (MPC) 的抓取方法。MPC 的控制目标与 PD 控制器类似，但其特点是基于线性假设和 Gripper 模型。例如，先引入线性假设 (Linear Assumption) 和单自由度夹持器运动模型 (Single Degree of Freedom Gripper Motion Model)，然后将二者统一建模，最终构造出基于 MPC 的控制律 (control law)。

MPC 控制器的应用与局限性

MPC 控制器 (MPC controller model) 在多个场景中表现优异。在这里我列举两个应用。第一个应用是，在拖动香蕉时，抓手可根据香蕉的动态反馈调整力度，确保抓取稳定。当外力移除（如人手松开香蕉），控制器会逐渐收敛至稳定状态。
论文地址：
https://ieeexplore.ieee.org/document/10684081

第二个应用是我们组另外一位成员在 IROS 上提出的成果，即利用多自由度抓手实现复杂操作任务，并沿用了我们提出的 MPC 控制器。
论文地址：
https://arxiv.org/abs/2408.00610

然而，基于模型的控制器存在一定局限性，难以泛化到现实生活中大多数日常物体。这主要源于建模过程中的简化假设，这种简化和假设往往对一些现实物体无法起作用。如下图所示，对于软物体或形状复杂的物体，难以通过简单的阈值设定精确提取接触面积；而对于牛油果、饼干这种比较硬的物体，其触觉信号 (tactile image) 较强，就可以精确地提取接触面积。

LeTac-MPC 控制器的三大优势

为解决这一问题，我们通过数学方法 (如 Cholesky factorization) 确保优化问题的可解性，从而稳定控制器的训练过程，最终提出了 LeTac-MPC。

下图展示的是最直观的训练结果，我们在仅包含 4 种不同硬度物体的数据集上进行训练，这些物体具有不同的硬度 (stiffness)。尽管训练数据有限，但我们训练的控制器可以推广到具有不同大小、形状、材料和纹理的日常物品上。这种基于小样本训练的泛化能力是控制器的一大优势。

其次，我们训练的控制器对抓取的物体具有抗干扰性，可以实时地调整抓取的方式和力度，从而使被抓取的物体不会因外界的干扰而掉落。

第三，我们训练的控制器具有非常高的响应能力。如下图所示，在剧烈运动或惯性变化场景中（如装有碎屑的盒子），控制器可快速响应物体的动态变化。

UniT：用于机器人学习的统一触觉表示

在上述研究中，我们实现了控制器的泛化能力。那我们能否利用单一的简单物体来学习统一的触觉表征？

如下图所示，单一的简单物体可以是诸如小球或扳手 (如 Allen Key) 之类的几何简单的物体。由于这些物体的触觉图像 (tactile image) 相对简单，我们的方法也较为简洁。

具体而言，我们没有设计全新的网络结构，而是发现通过 VQGAN 可以有效学习具备泛化能力的触觉表征。

在训练阶段，我们采用 VQGAN 模型学习触觉表征。在推理阶段，通过简单的卷积层对 VQGAN 的 latent space（潜在空间）进行解码，从而连接到下游任务（如感知或策略学习）。

论文地址：

https://arxiv.org/abs/2408.06481

重建实验

为验证表征的有效性，我们在 Allen Key 和 Small Ball 上进行了重建实验。

首先是 Allen Key 实验。如下图所示，尽管训练数据仅来自 Allen Key，但我们依然可以通过 latent space 重构出未见物体的原始图像，说明该 latent space 包含了绝大多数原始图像的有用信息。与 MAE 对比时，我们发现 MAE 很难准确重构原始图像，这表明在解码过程中，MAE 可能存在信息损失。

第二个是 Small Ball 实验。如下图所示，虽然训练数据仅来自 Small Ball，且重建效果不如 Allen Key，但模型仍能一定程度上重建复杂物体的原始信号。

此外，latent space 不仅捕捉了触觉几何信息（如形状和接触构型），还隐式包含了标记点的移动信息。例如，通过对原始图像和重建图像的标记点追踪，我们发现二者在 Marker Tracking 上的表现非常接近。

下游任务与基准测试

我们对 UniT 方法的表征能力进行了多个基准测试，包括 6D 姿态估计、3D 姿态估计和 classification benchmark。

对于 6D pose estimation（姿态估计），我们输入了一张触觉原始图像（如 USB 插头的触觉图像），来预测其位置 (position) 和旋转 (rotation)。结果表明，与 MAE、BYOL、ResNet 和 T3 方法对比，UniT 模型在准确性上优于其他方法。

对于 3D pose estimation，我们则仅预测物体的旋转姿态。如下图所示，相对于其他的方法，UniT 有比较好的表现。

其次，我们也做了 classification benchmark（分类基准）。数据集来源于 CMU 的 YCBSight-Sim。虽然数据集较小，但 UniT 在分类任务中展现了良好的性能。尤其是在单一物体上学习触觉表征后，能够自然泛化到其他未见物体的分类任务。例如，仅在 master chef can 上训练的表征，可成功应用于 6 种不同物体的分类，并取得优异效果。部分单一物体训练的表征甚至超过了大量物体训练的表征性能。

策略学习实验

我们进一步将触觉表征应用于策略学习 (policy learning) 实验，验证其在复杂任务中的表现。实验使用了 Allen Key 数据进行训练，并评估了以下 3 项任务：

* Allen Key Insertion （见图左）：精准插入任务，对精度要求极高。

* Chips Grasping （见图中）：处理易碎物体的精细抓取任务。

* Chicken Legs Hanging （见图右）：双臂任务，涉及长时间的动态抓取与控制。

我们对 3 种不同的方法进行 benchmark，这 3 种方法分别是：Vision-Only (仅依赖视觉信号)、Visual-Tactile from Scratch（视觉与触觉联合训练）、Visual-Tactile with UniT（采用 UniT 提取的触觉表征进行策略学习）。如下图所示，使用 UniT 表征的策略学习方法在所有任务中表现最佳。

未来，HyperAI超神经还将协助具身触觉社区持续举办线上分享活动，邀请国内外的专家学者分享前沿成果与见解，敬请期待！

更多具身智能、机器人等领域的前沿研究，欢迎关注公众号「CAAI认知系统与信息处理专委会」。

往期推荐

查看原图 707K