Meta推出“音频到表情”SDK，可更好地驱动Avatar的面部表情

新浪XR

2024-12-19 14:19发布于山东新浪VR官方账号

Meta 近期为其 Quest 头显 v71 系统引入了一项名为“音频到表情”（Audio to Expression）的新 SDK。这一 AI 模型通过分析用户的语言和声音细节，能够更精准地驱动 Avatar 的面部表情，为用户带来更加丰富的虚拟社交体验。

在此之前，Meta Avatar 声音驱动主要依赖于 Lipsync SDK。然而，Lipsync SDK 的功能相对有限，主要只能实现 Avatar 嘴唇的同步运动，整体表现较为一般。相比之下，“音频到表情”SDK 则能够进一步模拟还原说话、大笑、咳嗽等多种表情动作，从而大大增强了 Avatar 的感染力和真实感。

值得一提的是，“音频到表情”方案并不需要接入面部追踪系统，因此在硬件开销方面相较于 Lipsync SDK 也更少。它只需要消耗一小部分 CPU 算力和内存资源，即可实现出色的面部表情驱动效果。然而，目前该方案仍无法描绘眼球运动，因此后续 Meta 仍需要引入眼动追踪技术来进一步完善 Avatar 的表现力。

据悉，“音频到表情”SDK 可以广泛应用于 Horizon Worlds、VRChat 等 VR 社交应用中，为用户带来更加真实、生动的虚拟社交体验。

查看原图 149K