利兹大学和伦敦大学提出零样本策略 使四足机器人完成复杂地形穿越

随着深度强化学习(DRL)在四足机器人运动控制领域的广泛应用,四足机器人的运动能力得到了明显提升。然而,现有的DRL控制框架在适应复杂环境和任务时依然面临很大问题,尤其是在泛化性和适应性方面。    

 

图片

 

相比之下,动物通过步态转换策略、多样的步态利用以及即时适应环境变化,展现出了卓越的适应性。近日利兹大学和伦敦大学的两位机器人专家开发出一种框架,使机器人无需额外的传感器或事先进行崎岖地形训练即可穿越复杂地形。Joseph Humphreys 和 Chengxu Zhou 在arXiv预印本服务器上发布的一篇论文中概述了该框架的细节。

         

▍现有端到端DRL框架存在局限性 适应性较差

         

当前最先进的四足机器人系统大多依赖于端到端的DRL,通过训练多层感知器(MLP)来导航各种环境。这些框架在遍历真实世界和城市地形、抵抗扰动、跨越平台、克服可变表面以及从跌倒中恢复等方面表现出色。然而,它们的适应性仍然受到限制,因为大多数系统仅限于部署单一的目标步态或运动策略。 

   

生物力学研究表明,没有一种步态在所有场景下都是普遍有效的。动物通过采用如踱步、小跑和奔跑等名义步态,以及在面对捕食者逃避或障碍物导航等非名义任务时切换到跳跃、蹿跳和弹跳等特殊步态,来实现对环境的适应。现有的DRL框架在复制这种多样性方面仍显不足。

         

▍生物启发的全新DRL框架设计

         

利兹大学和伦敦大学研究团队提出的DRL框架目的在与整合动物运动的三大关键属性:步态转换策略、伪步态程序性记忆和适应性运动调整。  

 

图片

研究团队提出的框架在不同环境中部署的快照

         

该框架通过一个步态选择策略(πG)、一个受生物启发的步态调度器(BGS)和一个运动策略(πL)来实现这些属性。πG基于当前机器人状态和相关BGS输出,通过最小化动物步态转换指标来选择最优步态;BGS根据机器人状态生成步态参考;πL则根据这些步态参考和机器人状态来调整名义步态运动。 

   

图片

 

图片

 

图片

运动策略对比研究实验

         

πG被训练为通过最小化生物力学指标(如能量消耗、肌肉骨骼力、机械功和不稳定性)来选择最优步态。这些指标被统一在πG的训练中,以模仿动物用于最优步态选择的策略。实验结果表明,πG在平坦地形上主要使用小跑和奔跑步态,而在加速时则在小跑和奔跑之间振荡,以优化步态选择和速度跟踪。

         

受生物启发的步态调度器(BGS)通过在线计算每个脚的参考接触状态和笛卡尔位置来生成步态参考。这些参考信息基于机器人当前状态,并编码了状态依赖的伪步态程序性记忆和适应性运动调整。在πL的观察向量中包括BGS输出(βL)明显提高了机器人在复杂地形上的稳定性和性能。

         

运动策略(πL)被训练为在给定高级速度命令(Ucmd)的情况下,实现稳定的运动行为。其观察向量包括βL、机器人状态(s)和基速度命令(vcmdB)。πL的奖励函数旨在优化效率、速度命令跟踪、步态参考跟踪和稳定性。   

         

▍实验结果与分析:

         

通过与没有伪程序性记忆(πnoβLL)和没有状态估计器(πnoSEL)的标准多步态运动策略进行比较,本文验证了πbioL在自适应运动调整和步态多样性部署方面的优越性。

         

图片

每种步态与πG的比较研究

         

实验结果表明,πbioL在平坦地形上的速度跟踪误差、接触计划跟踪误差和基稳定性方面均优于其他策略,并且在复杂地形上能够成功完成所有实验,而其他策略则频繁失败。   

         

生物力学指标在步态选择中的表现方面,实验结果发现,πuniG(统一所有生物力学指标的步态选择策略)在平坦地形上主要使用小跑和奔跑步态,并在加速时在小跑和奔跑之间振荡,以优化步态选择和速度跟踪。

         

此外,πuniG在引入粗糙地形和高加速度时,会利用其他步态作为辅助工具来克服不稳定性。这表明,通过统一多个生物力学指标,πuniG能够成功地模仿动物的步态转换策略。

         

通过将πuniG与单独最小化能量消耗、肌肉骨骼力、机械功和稳定性的πG策略进行比较,以及与动物数据进行比较,本文发现πuniG在所有指标上均表现出色,并且能够模仿动物的步态转换行为。

            

图片

 

图片

动物和机器人步态选择策略的对比

         

实验结果表明,πuniG在平坦地形上的步态转换行为与动物数据高度一致,并且在引入粗糙地形时,其步态选择策略也能够有效地应对不稳定性。

            

图片

 

图片

在现实环境中部署框架以评估适应性

         

此外研究人员还测试了现实世界地形的适应性,尽管πbioL在训练过程中只观察了平坦地形,但它能够在现实世界的不规则地形上成功部署所有步态,并展现出高度的适应性。从实验结果来看,πbioL在草地、松木、泥泞草地和低摩擦板上均能够保持稳定,并通过利用辅助步态来恢复稳定性。这些结果与动物在复杂地形上的行为高度一致。   

         

▍结语与未来:

         

利兹大学和伦敦大学研究团队通过对现有DRL框架在四足机器人运动控制中局限性的分析,提出了一种受生物启发的DRL框架。该框架通过整合动物运动的关键属性,实现了机器人在复杂环境中的高度适应性。该框架在现实世界中展现出与动物相似的步态转换和运动调整能力。为四足机器人运动控制技术的发展提供了新的思路和方法,并为未来的研究提供了有益的参考和借鉴。