划重点
01斯蒂文斯理工学院、佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员开发了一个名为RITA的实时对话互动框架。
02RITA可将用户上传的照片转换为数字化身,参与实时对话互动,为虚拟现实和交互式游戏中的应用开辟新途径。
03通过集成实时反馈机制,用户可在无缝、响应式的环境中与虚拟人物互动,虚拟人物能表现出自然的头部运动和表情。
04RITA采用动态帧匹配和视频插值技术,提高了生成速度,同时集成了大型语言模型以提升虚拟用户对话体验。
05实验结果显示,RITA在生成速度、交互质量和用户参与度方面优于现有方法,预示着交互式数字化身的新时代。
以上内容由腾讯混元大模型生成,仅供参考
将用户上传的照片转换为能够参与实时对话互动的数字化身
(映维网Nweon 2024年12月25日)业界正积极探索数字化身生成技术。在一项研究中,斯蒂文斯理工学院,佐治亚理工学院,以及伊利诺伊大学厄巴纳-香槟分校的研究人员介绍了一个基于生成式模型的高质量实时交互框架。
名为RITA的解决方案能够将用户上传的照片转换为能够参与实时对话互动的数字化身。通过利用生成式建模的最新进展,团队开发了一个多功能平台,它不仅可以通过动态会话虚拟化身增强用户体验,而且可以为虚拟现实和交互式游戏中的应用开辟新的途径。
团队指出,这项研究展示了集成计算机视觉和自然语言处理技术以创建身临其境和交互式数字角色的潜力,并推动了我们与数字内容交互的界限。
将单个图像动画化以创建动态语音驱动的面部动画是人工智能、计算机视觉和多媒体技术的交汇点。生成模型的出现极大地推动了有声视频的创作,将曾经静止的描述转变为生动的语音表现。
但由于视频生成的固有延迟,所述领域面临着挑战,因为将图像和音频转换为无缝视频序列需要大量的计算资源和时间,这通常使实时应用难以实现。
SadTalker和MakeItTalk等最先进的模型中率先通过复杂的面部建模和运动合成来生成对口型视频。以其作为灵感,研究人员提出的RITA框架在生成速度和交互质量方面取得了进展。
尽管SadTalker和类似模型表现出色,但它们主要依赖于离线处理,因为需要复杂的计算来确保音频线索和面部运动(包括嘴唇运动、头部姿势和眨眼)之间的同步性。模型非常有效,但在需要实时交互的应用程序中效果不佳,因而限制了它们在动态的、以用户为中心的场景中的效用。
RITA旨在通过促进端到端的实时对话解决方案来弥合这一差距。就其核心,RITA利用了一种新颖的架构,结合了实时处理的即时性和生成模型的深度来动画化静态肖像。
通过集成实时反馈机制,用户可以在一个无缝的、响应式的环境中与虚拟人物互动。虚拟人物不仅可以对口型,而且可以表现出自然的头部运动和表情,密切模仿人类的互动。这种技术创新的飞跃是通过轻量级模型的战略性应用实现,在不影响角色响应的丰富性的情况下,对速度进行了优化。
另外,RITA引入了大型语言模型的创新应用,以允许虚拟角色参与连贯的、与上下文相关的对话。这种集成不仅增强了交互体验,而且扩展了会说话的虚拟形象的潜在应用。
在RITA中,研究人员改进了生成过程,以确保高清晰度输出和数字化身-用户交互的流畅性。团队指出,所述方案既解决了实现实时交互性的技术挑战,同时解决了在以用户为中心的应用程序中部署这种技术的实际含义。
实验证明,RITA在延迟、质量和适用性方面优于现有模型,从而预示着交互式数字化身的新时代。
总的来说,团队介绍的RITA是一个用于生成实时互动的说话化身的框架。RITA采用动态帧匹配和视频插值技术,大大减少了视频生成过程中所需的帧数,从而提高了生成速度。另外,RITA集成了大型语言模型来构建自然的虚拟用户对话,从而提升用户的交互体验。实证结果表明,与现有方法相比,RITA的性能优越,在生成速度、交互质量和用户参与度方面有显著改善。