从“识别手势”到“理解动作”:这款手环彻底颠覆人机交互
人类的手部拥有极高的灵活性和复杂性,是人与物理世界及虚拟世界交互的核心载体。然而,在虚拟现实、人机交互、机器人控制等前沿领域,实现对手部动作的精准、连续追踪始终是一大难题。现有主流方案——无论是基于摄像头、应变传感器、惯性传感器,还是肌电(EMG)信号——都存在视角受限、佩戴不便、信号噪声大或只能识别有限手势等问题,难以满足真实场景中“任意手部动作实时追踪”的需求。今日,MIT赵选贺教授团队提出了一种全新的解决方案:通过将可穿戴超声成像手环与人工智能算法结合,实现对手部五指及手掌22个自由度(DOFs)的连续、实时、高精度追踪。该系统不仅具备低延迟(<120 ms)和高精度(平均误差约3.78°),还在佩戴位置变化、噪声干扰和长期使用等实际场景中展现出极强鲁棒性。同时,该技术已成功应用于虚拟现实交互和机器人控制,展示出广阔的应用前景。相关成果以“Hand tracking using wearable wrist imaging”为题发表在《Nature Electronics》上。Gengxi Lu, SeongHyeon Kim, Xiaoyu Chen, Yushun Zeng.为共同第一作者。长期以来,手势识别技术更多停留在“分类”层面。例如,肌电传感器只能识别有限的预设手势(如握拳、张开等),本质上属于离散识别(图1a–c)。而真实世界中,人手的运动是连续且高度复杂的,这种“离散化”处理严重限制了交互的自然性。相比之下,该研究提出的超声手环实现了根本性突破。通过在手腕处实时采集肌腱与肌肉的超声图像(图1d–f),系统能够直接“看到”驱动手指运动的内部结构变化,并通过AI模型将其映射为22个自由度的连续动作(图1g)。这意味着,系统不再只是识别“做了什么动作”,而是真正“理解手在如何运动”。更重要的是,这一系统采用256通道超声阵列,实现高分辨率成像,并通过无线模块实时传输数据,构建起一个完整的可穿戴智能感知平台(图1h,i)。图1: 对比传统EMG与超声手环技术,展示从离散手势识别到连续动作追踪的突破。那么,超声图像究竟如何转化为手部动作?研究发现,手腕处的超声图像中包含丰富的结构信息,每一个局部区域都对应着特定关节的运动(图2a)。例如,当食指弯曲时,对应区域的组织角度或距离会发生规律变化(图2b,d)。AI模型正是通过学习这些“图像变化—关节角度”之间的映射关系,实现精准预测。例如,食指MCP关节角度会随着图像中某些结构角度减小而单调增加(图2c);而PIP关节角度则与特定结构间距变化相关(图2e)。这类基于“图像特征”的方法相比传统传感器(依赖单一信号曲线)具有更强的信息维度,也为后续高精度、多自由度追踪奠定了基础。图2: 展示超声图像中局部特征与手指关节角度之间的映射关系。为了验证系统性能,研究团队设计了包含69种复杂手势的数据集,包括数字、字母以及多种抓握方式(图3a)。实验中,受试者连续完成这些动作,系统同步进行预测。结果显示,该手环不仅能识别这些复杂手势,还能在手势之间的过渡过程中保持连续追踪(图3b)。这意味着,即使是未定义的自然动作,也能被准确重建。在精度方面,系统对22个自由度的平均误差仅为3.78°(图3c),远优于传统方法(通常7°–22°)。同时,AI推理延迟低至6–9 ms,实现真正实时响应。图3: 系统对69种复杂手势的连续追踪能力及高精度表现。现实应用中,设备佩戴位置变化、噪声干扰和用户差异是不可避免的挑战。针对这些问题,研究团队引入了“空间变换网络+ResNet”的混合模型,使系统能够自动校正佩戴偏差(图4a,b)。实验表明,即使在新的佩戴位置,系统仍能保持较高精度(平均误差约5–6°)(图4c,d)。此外,系统对噪声、滞后效应和肌肉疲劳也表现出强鲁棒性。例如,在低信噪比环境下仍能保持稳定识别,而在长时间使用或一周后再次测试时,性能几乎无衰减。图4: 在不同佩戴位置、噪声和长期使用条件下的鲁棒性验证。在应用层面,该技术首先在虚拟现实中展现出强大潜力。用户可以通过自然手势实现精细控制,例如通过拇指与食指的距离连续调整虚拟物体大小(图5c,d),或通过手掌旋转实现三维物体的旋转(图5e)。不同于传统系统的“开关式”操作,这种控制方式是连续、可量化的。更重要的是,该系统无需摄像头,因此不受光照或遮挡影响,在复杂环境中依然稳定运行。图5: 在虚拟现实中实现连续、精细的人机交互控制。在机器人领域,该手环同样展现出巨大潜力。研究中,用户通过手部动作实时控制机械手完成复杂任务,例如投篮游戏(图6b)和弹钢琴(图6e,f)。系统可以精确映射每个手指的弯曲角度,使机械手实现高度拟人化操作。即使在手臂大幅移动(约270°范围)时,系统依然能够稳定追踪,显示出优异的空间适应能力。总体来看,这项研究通过“超声成像+AI”的创新融合,首次实现了对手部复杂运动的高精度、连续、实时追踪,突破了传统手势识别技术的核心瓶颈。其在虚拟现实、人机交互、机器人控制等领域展现出广泛应用前景。当然,目前系统仍依赖个体化训练数据,跨用户泛化能力有待提升。但随着大规模数据和先进机器学习方法的发展,这一问题有望逐步解决。未来,结合更小型化的超声芯片和多模态传感技术,该系统甚至有望扩展到全身运动追踪,推动“人机融合”迈入全新阶段。