机械臂“闭眼抓球”的难题终于有解了——凯斯西储大学的研究团队让机器人在运动中也能精准出手

这项由凯斯西储大学领导、香港理工大学、清华大学及InspireOmni AI联合参与的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.11459v2,有兴趣深入了解的读者可通过该编号查询完整论文。

一个棒球运动员想要接住一个飞来的球,如果他在球抛出的那一刻拍了张照片,然后闭上眼睛,靠着那张照片的记忆把手伸过去——结果会怎样?十有八九扑了个空。现实中的机器人操作臂,正面临着和这位"闭眼接球运动员"一样的困境。研究团队把这个问题叫做"动态盲区",并提出了一套名为"节奏与路径修正"(Pace-and-Path Correction,简称PPC)的方法来根治它。

**一、机器人为什么会"闭眼抓球"**

要理解这个问题,先要认识一类叫做视觉-语言-动作模型(VLA)的机器人大脑。你可以把它理解成一个经过大量视频和文字训练的超级助手,它能听懂人说"帮我拿那个罐头",同时看着摄像头的画面,然后驱动机械臂去完成这个动作。这类模型的出现是近年来机器人领域最令人振奋的进展之一,因为它打破了以往"一个机器人只能干一件事"的局限,具备了相当程度的通用能力。

然而,这类模型有一个根深蒂固的设计习惯,叫做"动作分块"。具体来说,模型每次工作时,先拍一张当前场景的照片,然后根据这张照片预测出一长串连续的动作指令(比如未来16步怎么移动),随后机械臂就闭着眼睛按这串指令执行,直到整串指令用完,再重新拍一张新照片,再生成新一串指令。这种设计很聪明,因为计算量大的推理过程只需要偶尔做一次,执行起来又快又稳。

可问题在于:在那串指令被执行的过程中,如果目标物体动了呢?就像那位闭眼接球的棒球手,机械臂压根不知道球已经飞走了,还在按照旧照片里的位置伸手,结果自然是扑空。传送带上移动的物品、被人碰了一下的目标、突然改变路径的东西……这些在真实工厂或家庭环境中极其常见的场景,都会让当前最先进的VLA模型表现急剧下滑。这个问题不是通过更多训练数据就能解决的——哪怕专门在动态场景数据上反复训练,只要模型的设计里有"闭眼执行一段再睁眼"这个环节,盲区就始终存在。

**二、以前的人们是怎么尝试解决这个问题的**

面对这个困境,研究者们不是没有想过办法。大致上分两条路。

第一条路是给机器人的眼睛"加料"。既然一张静止的照片不够用,那就把多帧画面的变化信息也喂给模型,比如用光流(一种描述画面中每个像素如何移动的技术)来告诉模型"这个物体正在往右移"。也有人让模型去预测未来的场景,甚至专门训练一个能感知运动轨迹的感知头。这些方法听起来不错,但有几个致命缺陷。首先,它们都需要重新训练整个模型,成本极高。更麻烦的是,机械臂本身在运动时,摄像头也跟着动,画面里的"光流"大部分来自机械臂自身的晃动,真正目标物体的运动信息被淹没在噪声里,很难提取。更根本的问题在于,这类感知信息在进入模型后要经过层层神经网络处理,真正的运动意图被稀释得面目全非,而不是被精准地转化为动作修正。

第二条路是缩短"闭眼时间"——既然闭眼执行太长会出问题,那就想办法更快地生成下一串指令。有人把模型压缩到极小以换取速度,有人设计并行计算架构,有人优化动作的编码方式。这条路同样有问题:速度快了,模型的智能水平往往跟着下降,更小的模型对复杂场景的理解能力更弱。而且,即使推理速度再快,每一串指令在执行期间对运动依然是盲目的。更糟的是,盲目地频繁重新推理会让机械臂在相邻两串指令之间出现抖动和不连贯,反而破坏了操作的流畅性。

研究团队注意到,以上两种路线都在回避一个核心问题:指令串的内部,也就是那段"闭眼执行"的时间窗口里,对运动的补偿始终是空白的。PPC的出发点,就是直接在这个最需要帮助的地方动手术。

**三、评测本身也是个难题:先造一把标准尺**

在介绍PPC方法之前,研究团队还解决了另一个被忽视的问题——评测基准的缺失。

要检验一种方法对运动场景有没有效果,就需要一套专门设计的测试集。但现有的机器人操作测试平台大多是为静态场景设计的,即使偶有涉及运动的环境,运动也只是众多变量中的一个,和场景难度、物体种类、任务复杂度混在一起,让人搞不清楚失败究竟是因为运动本身,还是因为别的原因。

于是研究团队构建了一个全新的评测平台,取名MOVEBENCH。这个平台的设计哲学可以用一句话概括:在所有条件都完全相同的前提下,只改变目标物体的运动方式,然后观察机器人的表现变化。就像一个严格控制的科学实验,只调整一个变量。

MOVEBENCH包含一万条测试轨迹,约46万帧画面,跨越十种不同的运动场景。这十种场景分三大类。第一类是"规律运动",包括匀速平移三个难度档(慢速、中速、快速)和加速运动三个难度档。第二类是"不规律运动",包括随机游走(物体以固定速度但方向随机变换)、走走停停(物体交替运动和静止),以及瞬移(物体突然跳到另一个位置,不经过中间路径)。第三类是静止对照组,用来验证方法在没有运动时是否会误伤正常性能。

所有测试中,任务都是同一种:用机械臂抓起目标物体并举起至少3厘米。物体的形状从骰子到罐头到棒球各有不同,但运动方式才是唯一被系统变化的因素。这样一来,任何跨场景的性能差异,都只能归因于运动本身。

**四、PPC方法:用一道数学题拆解出两把修正钥匙**

PPC方法的核心思路,是把"如何应对运动"这个复杂问题,化简成一道有漂亮闭合解的数学优化题,然后发现这道题的答案自然而然地分裂成两个相互垂直、互不干扰的修正通道。

具体来说,每次机械臂开始执行一串指令时,PPC从外部传感器(比如深度相机或物体追踪模块)读入目标物体当前的运动速度和方向。这就是它与之前方法的本质区别:运动信息不从模糊的视觉流中猜测,而是直接从专门的感知工具中读取,就像请一位专职的"观察员"盯着目标报告位置,而不是让执行任务的机械臂分心去感知。

有了这个运动信息,PPC提出了一个优化目标:在机械臂执行指令串的过程中,怎样以尽量小的额外努力,让每一步的实际位置尽量接近"如果考虑了运动应该到达的位置"?这个目标被写成一个标准的二次型代价函数——直觉上,这类函数的最小值往往存在整洁的解析解,不需要反复迭代计算,直接套公式就能得到答案。

当研究团队对这道题求解时,答案分裂成了两个完全正交的部分,就像把一个斜向的力分解成水平和垂直两个分量一样自然。这两个部分,便是PPC的两个修正通道。

**五、第一把钥匙:节奏通道——快一点,刚好够**

第一个通道叫"节奏通道",它处理的是运动方向与机械臂计划路径相同(或相近)方向上的分量。

打个比方:假设传送带上有个罐头正在朝右移动,而机械臂的计划也是往右伸手去抓。那么机械臂需要做的,就是"快一点"——不改变运动方向,只是加快执行速度,让手到达目标位置的时间提前。PPC计算出一个名为α(读作alpha)的压缩因子,它告诉机械臂:在同样的时间预算里,你应该按α倍的节奏来执行这串指令。

α的计算方式非常精妙:它通过目标运动速度与机械臂计划方向之间的夹角余弦值来决定到底压缩多少。如果目标运动方向与机械臂计划方向完全一致,压缩效果最大;如果完全垂直,则节奏通道完全不起作用,把任务交给第二个通道。这种设计确保了节奏通道只处理它擅长的部分,不会乱入其他方向上的修正。

当目标运动方向与计划相反时(也就是说目标在"逃跑"),α会被限定为1,意思是不压缩、按正常速度执行,同时把全部运动信息传递给第二个通道处理。当α太大、超过了指令串的时间预算时,系统会动态调整实际执行的指令条数,确保不超出合理范围。

对于加速运动(物体越来越快)的情况,α的计算式中还有一个额外的修正项,它会随着指令串长度的增加而变大,反映出在更长的执行窗口里,加速带来的累积偏差需要更多补偿。

**六、第二把钥匙:路径通道——弯一弯,刚好到**

节奏通道处理完之后,还剩下一个"残差"——目标运动中垂直于机械臂计划方向的那部分。这部分不能用加速来解决,因为加速只能让你沿着原来的路更快,却不能让你偏向侧面。

路径通道就是专门处理这个侧向偏差的。它为指令串中的每一步都计算一个额外的空间偏移量δ(读作delta),让机械臂的手在执行过程中逐渐向目标运动的方向侧移,就像一位足球运动员带球跑时自然地侧向超越对手一样。

这些偏移量的分布形状非常特别,研究团队在推导过程中发现,它精确地遵循斐波那契数列的比值规律。斐波那契数列是自然界中广泛存在的一种数学结构(向日葵的种子排列、贝壳的螺旋形状都和它有关),在这里它出现,是因为整个优化问题的递推矩阵的特征值恰好是黄金比例φ的平方,而斐波那契数列正是由φ的幂次生成的。

从直觉上理解这个分布:在指令串开始时,侧向偏移量最大,几乎等于目标运动的完整侧向分量;随着步骤推进,偏移量逐渐减小;在指令串的最后一步,偏移量恰好降为零,确保下一串指令从一个"干净"的起点开始,不会把累积的偏移带入下一个执行周期。这种设计在数学上被称为"边界条件约束",在实际效果上就是保证前后两串指令之间的过渡平滑无抖动。

对于加速运动,路径通道同样有对应的扩展,在斐波那契分布之外叠加了一个卢卡斯多项式分布(卢卡斯数列与斐波那契数列是同一特征值结构下的"孪生"序列),专门吸收加速度带来的二阶偏差。

**七、第三把保险:层级双EMA锁存稳定器**

节奏和路径两个通道在理论上的有效性,建立在一个前提上:目标的运动在执行窗口内保持基本稳定,至少是可以用一条平滑曲线近似描述的。然而,随机游走、走走停停这类不规律运动根本不满足这个前提。在这类场景下,如果α根据一个瞬时速度被计算成一个较大值,然后机械臂按这个长执行窗口慢慢走,结果下一帧目标又换了方向,就会造成误判甚至更差的表现。

为此,研究团队设计了一个叫做"层级双EMA锁存稳定器"的辅助机制。EMA是指数移动平均的缩写,是一种常见的信号平滑工具,类似于你计算"最近几次考试的加权平均分"时越近的考试权重越大。这个稳定器的工作原理可以这样理解:

稳定器持续监听目标运动方向的变化。每当目标的运动方向发生超过90度的大转变时,就触发一个"方向突变信号"。一个慢速的外层平滑器负责估计这种突变在最近一段时间里发生了多少次,如果突变频繁,就认为当前场景处于"慢性不规律状态"。这个慢性状态信号再送入一个快速的内层平滑器,后者在慢性状态下会"粘住"——也就是说,即使短暂没有突变发生,也不会马上解除警报。只有当不规律状态真的消退了一段时间,内层状态才会慢慢降下来。

一旦内层状态超过阈值,稳定器就触发,强制将每串指令的实际执行步数缩减到总长度的四分之一。这相当于把"闭眼时间"大幅缩短,让机械臂更频繁地"睁眼看一看",虽然不如完全睁眼,但至少在不规律运动的混乱中不会因为一次错误的方向判断而走太远的弯路。

这套稳定器有一个设计上的优雅之处:它几乎没有需要手动调整的参数。外层平滑系数从指令串的时间结构中自动推导,阈值的设定也通过理论分析确定为"刚好让单次孤立突变维持两轮指令后消散"的精确值。唯一真正由用户决定的参数是内层平滑系数βin,研究中将其设为0.3。论文通过实验验证,外层参数的理论推导值(约0.083)与实验上效果最好的值高度吻合,这直接证明了理论推导的有效性。

**八、测试结果:数字背后的故事**

在MOVEBENCH上,研究团队将PPC封装在四个不同的基础VLA模型外面进行测试,这四个模型分别来自不同的研究团队:NVIDIA的GR00T N1.6、SmolVLA、π0和π0.5。同时,他们还测试了八种对比方法,包括当前最优的推理时封装方法和专为动态场景设计的DynamicVLA,以及Diffusion Policy等基础模型。

测试结果显示出几个一致的规律。

加了PPC的模型,在所有运动场景下都比原始模型表现更好,改善幅度从16.4个百分点到28.8个百分点不等。其中改善最大的是GR00T N1.6,原因很直接:这个模型在静态场景下非常强(成功率88%),但在动态场景下却只有37.3%,说明它受"动态盲区"影响最深,因此PPC能发挥的空间也最大。

在各类运动中,加速运动获得的改善幅度最大(平均跨四个模型约+32.8个百分点),匀速运动次之(+18.2),不规律运动最小(+12.6)。这个排序和PPC的数学结构高度吻合:路径通道里的斐波那契分布专门设计来吸收在执行窗口内累积的侧向漂移,而加速运动正好会在窗口内产生越来越大的这类漂移,因此受益最多。匀速运动主要靠节奏通道处理,不规律运动由于违反了准稳定假设,只能靠稳定器的次级保护,改善相对有限但依然正向。

在速度梯度的分析中,随着目标物体运动速度的增加,PPC带来的改善也在持续增大,在最难的高速档达到了+38.5个百分点。这表明PPC的修正能力不会随着挑战的加剧而饱和,而是能够跟上越来越大的扰动。

对比方法的表现则很有启发性。DynamicVLA是专门为动态操作设计的模型,将骨干网络压缩到0.4B参数以换取极低的推理延迟,并以每2步就重新推理一次的频率运行。但它在MOVEBENCH上整体只有44.9%,不仅低于加了PPC的任何模型,甚至低于它所基于的骨干模型SmolVLA本身(46.5%)。更明显的是,DynamicVLA在静态场景下的成功率是70%,而SmolVLA是81%——也就是说,高频重新推理在没有运动的时候反而把性能拖累了11个百分点,因为每次重新推理都会让相邻指令串产生轻微的不一致和抖动,在一个稳定场景里这就是纯粹的噪声。这说明"更快重新推理"不是解决动态盲区的根本之道。

另一个有趣的失败案例是ACT(时序集成方法)。这种方法把最近几轮的指令串叠加平均,让输出更平滑。在匀速和加速运动中,它表现尚可,但在"瞬移"场景中,成功率直接从基础模型的60%崩到了1%。原因显而易见:当目标物体突然跳位,缓存中所有旧指令串都指向旧位置,把它们平均起来只会让机械臂更坚定地冲向错误方向。PPC在瞬移场景中靠稳定器检测到异常,把执行步数大幅压缩,等待下一轮视觉刷新,因此不会犯这种"积重难返"的错误。

**九、层层拆解:每个设计选择都经过验证**

研究团队对PPC的每个组成部分都做了独立的消融实验,验证其必要性。

去掉节奏通道α(让机械臂完全不调整执行速度)之后,整体成功率从66.1%暴跌至37.8%,下降了28.3个百分点,而且在所有运动类型上都均匀下降。这证明节奏通道是整个系统最核心的修正机制。去掉路径通道δ之后,整体下降24.2个百分点,但损失高度集中在加速运动(从单位数到9.3%),而不规律运动几乎不受影响。这与路径通道专门处理持续积累的侧向漂移的设计逻辑完全吻合。去掉节奏通道中的余弦投影(让α不区分运动方向,直接用全速度值):加速运动性能下降,但不规律运动反而略微提升——因为不规律运动中方向快速变换,不加投影的α反而有时会"蒙对",但这是不稳定的偶然,而非可控的机制。去掉稳定器:损失集中在不规律运动上(-8个百分点),匀速和加速运动几乎不受影响,这精确地验证了稳定器只在准稳定假设被破坏时才介入的设计初衷。去掉卢卡斯二阶修正分支:损失集中在加速运动(-7.3个百分点),而匀速运动和不规律运动几乎不受影响,这直接证明了二阶修正分支只服务于加速度场景的专用设计。把斐波那契分布换成线性分布:成功率下降15.2个百分点,说明斐波那契分布确实比随意的线性递减更能优化修正效果,体现了数学推导的优越性。

此外,研究团队还测试了用固定α值代替动态α的效果。结果显示,任何固定值(2、4、6、8)都显著低于动态α的66.1%,其中α=4和α=6大约只能达到58%。这说明不同时刻、不同场景下需要的压缩程度差异很大,一刀切的固定值无法应对多样化的运动情况,而闭合解提供的自适应α正是优势所在。

**十、噪声鲁棒性:在真实传感器的误差下依然可靠**

由于PPC依赖外部传感器提供的速度信息,研究团队专门测试了当这个信息存在误差时系统的表现。他们在速度大小和速度方向两个维度分别注入不同程度的噪声,然后观察成功率的变化。

结果表明,在中等噪声水平(速度大小误差不超过30%、方向误差不超过20度)以内,PPC的成功率依然保持在远高于不加任何修正的基线之上。真实世界的深度相机和视觉追踪器通常工作在这个噪声范围内,这意味着PPC在实际部署中具备足够的容错性。只有当噪声极度严重(速度误差100%、方向误差45度)时,效果才会明显衰减,但即便如此也不会跌破原始基线。

**十一、计算开销:几乎可以忽略不计**

一个实用的修正方法,不应该在自身的计算上消耗大量时间。研究团队对PPC的每次调用耗时进行了精确测量,发现在单个CPU线程上,每次调用平均耗时0.069毫秒,99%的情况下不超过0.115毫秒。相比之下,GR00T N1.6一次推理大约需要64毫秒。换句话说,PPC的额外开销不到推理时间的0.2%,在实时系统中完全可以忽略不计。

说到底,这项研究解决的是一个"藏在体制内部"的问题——不是机器人的眼睛不够好,不是大脑不够聪明,而是它的行动方式有一个结构性盲区:每隔一段时间才能睁眼看一看,中间那段时间里世界在变化,它却不知道。PPC的思路是在这段盲区里,用数学推导出两把钥匙:一把控制节奏,一把修正路径,在不改动机器人大脑的前提下,让它的动作自然地跟上运动中的目标。

这对于未来的工厂自动化、居家服务机器人、甚至医疗辅助机器人都有实际意义。现实中的物体很少是完全静止的——传送带、孩子的玩具、老人的手,都在动。能在运动中精准操作,是机器人真正走入日常生活的必要条件之一。当然,研究团队也诚实地指出,目前的验证完全在仿真环境中完成,现实世界中的传感器噪声、遮挡、以及更复杂的多物体场景,都是后续需要面对的挑战。有兴趣追踪这项研究后续进展的读者,可以通过arXiv编号2605.11459持续关注。

Q&A

Q1:动作分块(action chunking)为什么会导致机器人在动态场景下失败?

A:动作分块让机器人在拍一张照片后,根据该照片生成一串连续动作指令,然后"闭着眼睛"按序执行完。执行期间如果目标物体移动了,机器人完全感知不到,依然朝旧位置伸手,自然就扑空了。这个盲区是结构性的,不是多训练就能消除的。

Q2:节奏与路径修正(PPC)方法需要重新训练机器人模型吗?

A:不需要。PPC是一个推理时封装器,直接套在任何已训练好的VLA模型外面使用,不修改模型内部任何参数,也不需要额外的训练数据。它只需要一个能提供目标物体速度信息的外部传感器,计算本身是解析闭合公式,几乎没有额外计算开销。

Q3:MOVEBENCH和以前的机器人测试平台有什么不同?

A:现有平台大多在静态场景下测试,即使涉及运动,也把运动和场景难度、物体种类等多个变量混在一起,很难单独分析运动的影响。MOVEBENCH专门把运动方式作为唯一变化的变量,固定任务、场景、物体的其他属性,覆盖匀速、加速、随机游走、走走停停、瞬移等多种运动模式,让测试结论更清晰可信。