在具身智能领域,有一个被忽视的重要问题:力控技术在机器人操作中至关重要,为何却被机器人学习算法忽视?
这背后的关键原因在于大规模力交互数据集的匮乏。尽管互联网上充斥着海量的操作视频资源,但这些资料中往往缺乏精确的交互力数据,加之收集以力为中心的操作演示数据面临重重挑战,因而虽有海量视频却难以直接转化为机器人学习的有效素材。
当前机器人学习聚焦在以轨迹为中心的模仿学习,在涉及复杂高频接触任务时存在轨迹误差大和交互不确定性的问题。同时,以UMI、DexCap为代表的便携式数据采集系统缺乏有效的交互力数据,难以直接用于鲁棒的机器人力交互策略学习。如何赋予机器人力感知-力交互的具身决策能力,成为当前具身智能领域的挑战性课题。
面对这一难题,穹彻智能与上海交通大学卢策吾团队携手合作,进行深入研究,并发现人类中枢神经系统不仅能预测力负载,还可以将这些动力学信息融入人类运动模型。基于这一洞见,研究团队创新性地开发了一个以力为中心的机器人模仿学习系统ForceMimic。
项目地址:https://forcemimic.github.io/
论文地址:https://arxiv.org/abs/2410.07554
ForceMimic系统由可扩展的现场力-运动数据采集系统ForceCapture,和创新的力-位混合模仿学习算法HybridIL两大核心组件构成。其中,ForceCapture是一个手持式无需机器人参与的现场数据采集系统,可精准捕捉并记录操作过程中的力、姿态及运动轨迹等多维度数据,用于记录高质量自然力交互操作演示,并为后续的力交互模仿学习提供丰富且真实的数据源。HybridIL模仿学习算法则可以通过对大量力旋量-姿态轨迹数据的学习,利用扩散模型从三维视觉中直接预测全空间的力旋量-位置动作,并通过力-位控制基元和位置控制基元匹配全空间力旋量-位置指令,在复杂连续接触操作任务中实现稳健的性能。
以西葫芦削皮实验为例ForceMimic相比当前以轨迹为中心模仿学习算法性能提升了54.5%,数据采集效率相比遥操作从13分钟降低到5分钟。
图1-2:HybridIL操作中的力曲线
实验中,HybridIL算法在确保不损伤西葫芦的前提下,精准地完成对不同尺寸外皮的削除任务,成功应对了各类削皮挑战。尤为值得一提的是,即使在将成功标准提高至削皮长度必须超过10厘米的严苛条件下,HybridIL算法依然能保持高达85%的成功率,这充分证明了其出色的鲁棒性。在削皮效果上,HybridIL算法的表现也更为出色,所削下的外皮不仅长度更长,而且更为光滑均匀。其操作力曲线与人类操作员所收集的数据最为相似,交互力控制也更加精细。
▍ForceMimic方法详解
图2 ForceMimic:以力为中心机器人模仿学习系统
ForceMimic首先使用 (a) ForceCapture,一个手持式无需机器人参与的现场数据采集系统,精准捕捉并记录操作过程中的力、姿态及运动轨迹等多维度数据(详见A章节),用于记录 (b) 高质量自然力交互操作演示,为后续的模仿学习提供了丰富且真实的数据源。随后将手持设备数据转换为机器人端的“伪”机器人数据格式(详见B章节),从而消除手持设备到机器人的领域差距,确保数据的一致性和可用性。利用这些数据,(c) HybridIL模仿学习算法(详见C章节)通过对大量力旋量-姿态轨迹数据的学习,能够精准预测机器人在执行特定任务时所需的力和位置参数,从而在接触复杂连续接触操作任务中实现稳健的性能。完整流程如图3所示。
图3:流程概述:(a) 首先将收集的手持设备数据转换为(伪)机器人数据,消除领域差距。对捕获的6维力旋量数据进行重力补偿,获取力交互数据,SLAM相机记录的姿态转换为机器人的TCP姿态。RGB-D观察图像被回投到点云并过滤掉无关点。(b) 利用这些数据,学习基于扩散模型的策略,同时预测位置和力旋量。(c) 根据预测的力值,选择 IK 关节位置控制基元或混合力-位控制基元,匹配输出的力-位参数执行操作。
A.硬件设计:ForceCapture——精准捕捉力数据的创新解决方案
在复杂连续接触操作中,如何准确、自然且经济高效地捕捉力数据一直是模仿学习领域面临的重大挑战。不同的数据收集方法可能带来不同的力交互动态,即使轨迹相同,交互力也可能大相径庭。因此,设计一款能够有效捕捉人手操作的真实、自然力交互的力-位数据收集系统显得尤为重要。
受到UMI和DexCap这类手持数据采集设备的启发,团队研发了ForceCapture,一款集低成本、高兼容性、强通用性于一身的无需机器人参与的力-位置捕捉设备。该设备的设计紧密围绕三大核心目标展开:
1.可扩展性:团队致力于打造一款成本低廉、易于制造和维护的设备,同时确保其能够轻松适配各种力传感器,满足不同应用场景的需求。
2.现场力的真实感:与依赖力反馈技术的遥操作系统不同,ForceCapture直接从人类操作中捕捉实时力数据,无需用户适应任何人造的临场感,确保数据的真实性和自然性。
3.人体工学舒适性:ForceCapture严格遵循人体工学原则,如合理分布重心和增强操作便利性,以维持用户的自然操作习惯。不良的人体工学设计可能影响肌肉用力模式或引发不适,导致非自然的力数据产生,进而影响数据准确性。
图4:ForceCapture的结构:包括(a)固定工具末端执行器版本和(b)夹爪版本,并提供了(c)独特的自锁功能。
ForceCapture的整体设计如图4所示,包括固定工具末端执行器版本和夹爪版本。两款设计的共同亮点在于其内置的六轴力传感器,该传感器置于末端执行器与用户握柄之间,能够精准捕捉执行器与环境的交互力。同时,一个高精度的SLAM摄像头被安装在力传感器附近,负责记录交互过程中的运动数据。用户只需简单握住手柄,即可直接操作工具或控制手指进行抓取和操作任务。
在夹爪版本中,团队特别设计了“小齿轮和齿条”机制以确保两个手指夹持器的同步运动。通过连接编码器的小齿轮,ForceCapture能够准确记录夹持器的开启距离,并基于编码器角度与夹持器宽度之间的校准关系,实时计算并输出连续的宽度值。
夹爪自锁:人手开合夹爪时,对夹爪施加的力也会传递到力传感器,干扰了手爪和外界交互力的测量,为了解决该问题,团队引入了单向锁定机制,如图4(c)所示,夹爪抓取物体后可以自动锁紧,物体无法撑开夹爪,手指无需手动维持夹爪关闭,避免影响交互力的测量。手指通过指环内杠杆,可以解除自锁,这一设计符合手指控制夹爪开合的自然逻辑,提升了设备的人体工学舒适性。
此外,ForceCapture的整体设计充分考虑了设备的重心分布、高性价比和高效便携。其重心巧妙置于手柄上方,顺应人手施力的自然习惯。其制造过程简便高效,主体结构全由3D打印技术完成,不仅降低了成本,还提升了设计灵活性。打印部件和编码器的整体成本控制在约400元,实现了高性价比。夹爪版ForceCapture设备总重仅0.8千克,力传感器占去0.5千克,其余附件仅重0.3千克。
B.数据收集与转换:精准捕捉,高效处理
ForceCapture数据收集系统集成了高精度传感器,包括六轴F/T传感器、RealSense T265 SLAM相机及RealSense L515 RGB-D相机,各传感器分别以1000Hz、200Hz、30Hz的频率精准采集数据。对于夹爪版本,还特别加入了编码器角度数据的收集,同样以30Hz的频率进行。在数据处理阶段,所有传感器数据将被精确对齐至L515相机的观察频率,确保数据的时间一致性和准确性。
在数据收集开始前,T265相机被暂时安装在L515支架上,以确定两者间的相对位置。一旦数据收集启动,T265相机便移至ForceCapture上,利用初始位置信息跟踪ForceCapture的运动轨迹,实现无缝衔接。
在ForceCapture系统中,力传感器扮演着至关重要的角色,它负责捕捉末端执行器与外部环境交互时的综合力,这其中包括了工具或夹爪本身的重力和可能产生的惯性力。为了确保测量数据的准确性,团队必须从力传感器原始数据中剔除这些不必要的外力影响。
为了实现这一目标,团队基于一个关键假设:ForceCapture的数据收集过程是在准静态条件下进行的。这意味着,在每个测量位置,系统都处于静态平衡状态,可以专注于补偿工具的重力,而忽略由动态运动产生的惯性力。
重力补偿的过程精细而严谨。首先,操作员在准静态条件下操作ForceCapture,同时记录其姿态和力矩数据。这些数据反映了在不同姿态下,工具重力对力传感器读数的影响。随后,团队利用这些静态平衡力数据,构建了一个超定方程系统。该系统通过数学方法整合了多个位置上的力矩平衡信息,使得团队能够利用最小二乘法精确估算出工具的质心和重量。
通过这一重力补偿流程,团队成功地从力传感器原始数据中剥离了工具重力的影响,确保了只记录ForceCapture和外界环境的交互力。
图5:数据采集和可视化
C.HybridIL学习算法:力-位混合全空间动作生成
HybridIL,是一种以力为中心的端到端模仿学习框架,将视觉感知映射至精细的力-位混合控制策略,如图3(b)所示。该算法以点云数据作为视觉输入,首先利用MLP编码器将其转化为紧凑的一维视觉特征向量。随后,这些视觉特征与机器人的工具中心点(TCP)位姿数据相融合,共同构成多模态的联合表征,为后续的策略生成提供丰富而全面的输入。在策略生成阶段,HybridIL采用了经过优化的扩散策略模型,该模型能够精准预测未来20个时间步的位置轨迹及力旋量参数。
图6:力-位控制基元匹配模型策略示意图。当混合力-位置控制基元处于激活状态时,运动方向 d(^) 基于策略提供的姿态轨迹 Pt:t+10 计算, 预测的力 Ft:t+10被正交化为 Ft(丄):t+10 。混合力-位置控制基元以运动方向 d(^) 和力 Ft(丄) 为正交方向,实现力-位置跟踪。
需要说明的是,通常混合力-位控制需要满足正交特性,但HybridIL无需显式的建模这种正交性,而是通过正交的力-位控制基元去匹配模型输出的全空间力-位动作指令。这一策略不同于传统模仿学习方法,后者往往采用固定的位置控制器去跟踪模型预测的位置命令。HybridIL则采用两种截然不同的控制基元,灵活适配模型预测的力-位置参数,如图3(c)所示。具体而言,当预测的力低于6N的预设阈值时,HybridIL会启用基于逆运动学(IK)的关节位置控制器;而一旦预测的力在连续多个步骤中超过6N,系统则自动切换至混合力-位置控制器,以确保精准执行模型预测的参数。
正交力-位置匹配机制的实现过程如图6所示。对于连续超过6N阈值的力-位置动作,HybridIL首先基于前后位置信息确定运动方向,随后将相应的预测力信息精准投射至该运动方向的正交平面上,从而明确了执行过程中的力控制参数。在混合力-位置控制的初始阶段,若末端执行器尚未与操作对象建立稳定接触,HybridIL会预先施加一个与预期力控制方向相反的按压动作,以确保两者间能够迅速且稳固地接触。这些复杂而精细的控制功能均通过Flexiv RDK平台提供的关节位置控制和混合力-位置控制得以实现,共同支撑HybridIL系统高效、准确地执行模型输出的全空间力-位置动作
▍实验验证
团队以西葫芦削皮来验证ForceCapture数据采集系统的效率以及HybridIL算法在实际应用中的有效性。
A. 数据采集效率:ForceCapture vs. 遥操作
在当前的机器人技术中,同步采集位姿轨迹与六轴力数据常依赖于遥操作系统。为了直观展示ForceCapture在数据收集效率上的显著优势,团队特别设计了一项对比实验,聚焦于单臂西葫芦削皮这一具体任务。
图8:用于数据收集效率比较的实验设置,以及完全削皮一个西葫芦所需的时间
实验场景如图8(a)所示,操作员需完成一系列精细动作,包括拿起削皮器、在支架上准确削皮、平稳放下削皮器,以及灵活抓取西葫芦调整其朝向以完成全面削皮。鉴于该任务对力的精确捕捉与手指运动的灵活性有极高要求,团队选用了ForceCapture的夹爪版本作为数据收集工具。
作为对比,团队还设置了遥操作采集系统和人类单手削皮实验,遥操作遵循RH20T中的配置描述,图8(b)显示了数据采集的对比结果。
首先,在效率方面,遥操作所需时间约为ForceCapture的三倍,ForceCapture的数据收集时间几乎与直接人工削皮时间持平,这意味着它几乎能够在不影响操作流畅性的前提下,实现数据的实时捕捉与记录。
其次,在用户友好性方面,ForceCapture也展现出了巨大优势。遥操作通常需要操作员接受专业培训,以熟悉复杂的操作接口与逻辑,而这一过程往往耗时耗力。相比之下,ForceCapture几乎无需任何额外培训,用户仅需简单操作一次便能迅速上手,实现高效的数据采集。这种直观、自然的操作方式不仅降低了学习成本,也极大提升了用户体验,为规模化数据采集奠定基础。
此外,实验过程中还发现了一个重要现象:在遥操作过程中,由于操作接口未能完全模拟真实环境的力交互与动态变化,加之操作员对系统操作逻辑的掌握尚不够熟练,导致了三次操作失误,进而触发了采集工作的中断,影响了任务的连续性与效率。而ForceCapture则凭借其稳定的性能与直观的操作方式,避免了此类问题的发生,确保了数据采集的顺利进行。
得益于ForceCapture的便携性和无需机器人辅助的特点,它能够轻松跨越实验室界限,实现大规模力交互数据的采集。这一优势将极大地推动具身智能在深度物理交互领域的研究进展。
B. 操作性能评估:以西葫芦削皮任务为例
a) 实验设置:
为全面验证ForceMimic系统的有效性,团队将西葫芦削皮任务设定为一个端到端的技能学习任务。在数据采集阶段,团队采用了ForceCapture的固定工具版本(如图2(a)所示),允许操作员以自然姿态握持西葫芦并进行削皮操作。这一设置确保了收集到的数据能够真实反映实际操作中的力与位姿变化。
在机器人实验阶段,团队采用了Flexiv Rizon 4机械臂作为执行平台,并配置了L515 RGB-D相机以捕捉实时视觉信息(如图2(c)所示)。L515相机在数据收集和机器人实验过程中保持固定位置,以确保视觉输入的一致性。机械臂左臂配备夹爪以稳定西葫芦,右臂则使用与ForceCapture相同的固定削皮器,通过HybridIL算法驱动实现削皮技能。
为训练模仿学习算法,团队削完了15根西葫芦,收集了438个削皮技能片段,包含总计30,199个动作序列。相对于感知数据,动作向前推进了 3 个时间步。HybridIL 模型和基线方法均训练了 500 个周期。
b) 实验方法:
除了训练HybridIL之外,团队还训练了其他三种基线方法。Raw DP(Diffusion Policy, 扩散策略)使用原始的视觉感知和机器人姿态作为输入,基于扩散策略输出末端执行器的姿态序列。Force DP结合了视觉感知、机器人姿态和机器人力传感作为输入,同样输出末端执行器的姿态序列。Force+Hybrid DP则使用视觉感知、机器人姿态和机器人力传感作为输入,但同时输出姿态和力旋量序列。对于输出力-位置参数的基线方法,同样采用了混合力-位控制基元来匹配和切换不同的控制模式。Raw DP和HybridIL均测试了20次剥皮动作,由于性能不佳,其他两种模型仅测试了10次剥皮动作。削皮实验中机器人初始TCP姿态与数据集中的姿态一致,即位于西葫芦的上后方。
c) 评估指标:
为客观评估各算法的性能表现,团队制定了以下两个评估标准:
运动轨迹正确性:评估削皮动作是否在不损坏西葫芦的前提下成功削去任何长度和宽度的皮。这一指标旨在检验算法对削皮任务的位置交互操作性能。
削皮连续性:进一步要求削皮过程中必须连续削去超过10厘米的西葫芦皮。这一标准不仅考察了算法的削皮位置准确率,还间接反映了其对力控与位控的综合协调能力,不正确的削皮动作和施力可能导致无法连续削去10厘米的皮。
d) 实验结果与分析
表1总结了四种不同方法在西葫芦削皮任务中的表现,图9则显示了四种方法的削皮结果。
Raw DP方法取得了80%(16/20)的轨迹正确成功率,其失败案例主要归因于用力过大导致西葫芦损坏(如图9-1②)以及未能成功接触西葫芦(如图9-1④)。相比之下,HybridIL方法展现出了卓越的性能,达到了100%的成功率,所有尝试均成功完成了削皮任务(如图9-3所示),证明了其在端到端削皮技能学习任务中的有效性。
将成功标准提高至剥皮长度超过10厘米时,Raw DP和HybridIL的成功率均有所下降。Raw DP的成功率降至55%,新增的失败案例包括剥皮长度不足(图9-1①)和剥皮过程中断(图9-1③)。HybridIL虽然也遇到了类似的挑战,但其成功率仍保持在85%,显示了更强的鲁棒性。HybridIL的失败案例同样涉及剥皮长度不足和中断,但深入分析后发现,这些失败主要是由于输出力-位参数过早结束,导致混合力-位控制基元过早切换为IK 关节位置控制基元。
值得注意的是,包含力输入的模型(Force DP和Force+Hybrid DP)在本次实验中表现不佳。这一结果与团队的初步预期相悖,原本期望力传感信息的加入能够提升模型性能。然而,在初始接近西葫芦时模型还能输出正确动作,当发生接触时候,这些模型则很难预测出准确的削皮姿态和力,导致削皮失败。进一步探究表明,Raw DP虽然能完成削皮动作,但是削皮力均值却在20N左右,部分位置达到40N,远高于人手削皮的平均6N,如图10-1和10-2。机器人削皮和人手削皮中的交互力差异,是导致将力作为输入时模型性能变差的原因。解决交互力的分布差异是提升力感知输入模型性能的关键。
尽管如此,HybridIL方法在本次实验中依然表现出色,在平均7.5N的交互力下成功完成了均匀的削皮任务,而且基本能够吻合模型预测的交互力,如图10-3,均匀的削皮力是实现均匀宽度和厚度削皮的关键。但从图10-3可以看出,HybridIL的削皮交互力依然和图10-1中的人手削皮交互力存在差异,这也是Force+Hybrid DP性能变差的原因。
上述实验不仅验证了HybridIL方法的有效性,也为ForceMimic系统的成功应用提供了有力支持。未来,穹彻智能&上海交大的卢策吾团队将继续优化HybridIL的预测模型和控制策略,探索更多潜在的应用场景,推动机器人技术在更广泛领域中的发展与应用。
▍结论与未来展望
穹彻智能携手上海交通大学卢策吾团队提出的ForceMimic系统,旨在推动以力为中心机器人学习的发展。该系统融合了可扩展的现场力-位数据采集系统ForceCapture,及创新的HybridIL算法,后者通过力交互控制基元精准拟合模仿学习中的力-位置参数。西葫芦削皮任务验证了其有效性。
ForceCapture为机器人学习人类精准力-位技能提供了坚实基础,但与此同时,ForceMimic系统也仍存在进一步提升的空间:
首先,在模型表示方面,当前团队采用了简单的多层感知机(MLP)来处理点云、机器人姿态和力等多模态数据。未来,团队可以探索更加高效的多模态表示方法,以更好地融合视觉、力和机器人状态等多维度信息,进一步提升模型的技能泛化能力。
其次,在控制策略方面,HybridIL目前仅采用了两种控制基元来拟合力-位置参数。未来,团队可以深入研究更多样化的控制基元,并设计算法让模型能够提前预测并选择合适的控制基元及其参数,以实现更加灵活和高效的机器人操作。
最后,从应用层面来看,ForceMimic系统目前已成功应用于西葫芦剥皮这一单项技能。未来,团队可以进一步拓展其应用范围,将其推广至刮擦、擦拭、插入等多种以力为中心的任务中。同时,团队还可以探索如何让机器人结合多个技能执行更加复杂的长期任务,如完整的西葫芦削皮,包括削皮、抓取、翻转等多个步骤。
穹彻智能-上海交通大学卢策吾团队坚信,通过这些努力,ForceMimic系统将在机器人学习和应用中发挥更加广泛和重要的作用。
来源:穹彻智能