划重点
01Meta开源了两个相关的数据集emg2qwerty和emg2pose,旨在促进肌电图方面的研究进展。
02emg2qwerty数据集包含100多名不同行为条件下的志愿者,记录了超过520万个按键,旨在解决可穿戴设备的文本输入问题。
03emg2pose数据集包含了193名参与者的370小时肌电信号和手部姿势数据,涉及29个不同的行为组。
04除此之外,团队还引入了一种新的表面肌电信号姿态估计模型vemg2pose,可以重建手部姿态。
05未来,emg2qwerty和emg2pose基准将为机器学习社区提供一个探索表面肌电信号中复杂泛化问题的平台。
以上内容由腾讯混元大模型生成,仅供参考
两个数据集emg2qwerty和emg2pose
(映维网Nweon 2024年12月30日)基于手腕的表面肌电图(sEMG)可以根据用户的预期动作从手腕电信号中测量肌肉活动。然后,机器学习模型将信号转化为数字命令,从而令表面肌电信号成为可穿戴设备快速而强大的输入。
日前,Meta开源了两个相关的数据集emg2qwerty和emg2pose。团队表示:“通过开源数据集和模型,我们希望促进研究界在肌电图方面的进展。”
泛化基于腕带的神经运动接口
尽管用于消费类设备控制的肌电图是相关技术的最新应用,但基于临床的肌电图技术已经存在了数十年,并应用于假肢控制,帮助诊断和监测神经肌肉疾病,以及了解运动系统的生理学等等。
与临床中通常使用的侵入性肌电图技术不同,用于设备控制的消费类肌电图手腕可穿戴设备更有可能扩展到一般用途,因为它属于非侵入性,更安全,并且全天佩戴更舒适。然而,肌电信号难以作为一项消费技术取得突破的一个关键原因是,大多数通过肌电信号预测个人手势或动作的解码模型无法泛化到新用户。
Meta描述了一种构建通用sEMG接口的方法,新用户可开箱即用。特别地,团队发现同样的神经网络定律适用于表面肌电,它决定了像Llama 3这样的大型语言模型如何随着更多的训练数据而实现改进。有了高质量的足够训练数据集,就有可能构建通用的sEMG接口。
emg2qwerty和emg2pose支持构建广义表面肌电信号模型的研究,它们包括大型数据集,每个数据集包含100多名不同行为条件下的志愿者,并提供了具有挑战性的泛化场景,以便在现实用例中进行基准测试。相关数据集将促进算法的进步,形成新的泛化策略。
emg2qwerty:用表面肌电信号进行文本键入
对于像人工智能眼镜这样的可穿戴设备而言,文本输入是一个重大挑战。基于表面肌电信号的输入的目标是解决可穿戴设备的文本输入问题,实现触碰输入,不需要物理键盘,只使用手腕可用的肌肉电信号即可。这可以允许在任何场景下进行精细的高带宽文本输入。
emg2qwerty数据集包括从两个手腕获取的高分辨率表面肌电信号,与来自QWERTY键盘的准确ground-truth按键同步。数据集共记录了来自108名参与者的346小时记录,涉及范围广泛的单个单词和句子输入提示,总计超过520万个按键。
即便在100个用户的规模,尽管在生理、解剖、行为和传感器位置等方面存在差异,但用户之间的通用性依然存在。当使用大约半小时的个人用户输入数据为用户个性化模型时,性能会进一步跃升。通过结合语言模型来改进结果,可以将字符错误率降低到10%以下,而这是使文本模型可用的关键阈值。
emg2pose:处处感知手的运动
随时可用的手姿推断可以为人机交互提供新的、直观的控制方案。基于计算机视觉的手部追踪是有效的,但在非常昏暗的光线条件下,当你的手遭到遮挡时,它们的性能可以得到进一步的增强。基于表面肌电信号的手部追踪提供了在任何环境中感知手部姿势的能力。
emg2pose基准包含了193名参与者的370小时肌电信号和手部姿势数据,涉及29个不同的行为组,包括各种离散和连续的动作,如握拳或数到五。手部姿势标签是使用高分辨率动作捕获阵列生成。完整的数据集包含超过8000万个姿态标签,其规模与最大的计算机视觉等效数据相似。
在基准测试中,Meta提供了具有竞争力的基线和具有挑战性的任务,以评估物理世界的泛化场景,包括手持用户、传感器位置和手势。团队同时引入了一种新的表面肌电信号姿态估计模型vemg2pose,它可以通过整合姿态速度的预测来重建手部姿态。
未来
emg2qwerty和emg2pose基准为机器学习社区提供了一个探索表面肌电信号中复杂泛化问题的平台,而且它们具有显著增强基于表面肌电信号的人机交互发展潜力。团队表示:“我们希望emg2qwerty和emg2pose能够在相关领域推动表面肌电信号机器学习的进步。大型表面肌电信号数据集同时可以在神经科学领域开辟新的研究途径。基准测试的进展应该会加速各种计算设备的直观、高维界面的开发。”
更多信息请点击访问相关页面:emg2qwerty和emg2pose。