划重点
01字节跳动智能创作数字人团队推出名为「INFP」的交互式人像生成技术,可实时驱动单张肖像照片生成相应的对话视频。
02该技术仅需输入一段双轨对话音频,即可在多轮对话中生成自然的人物行为和反馈。
03INFP技术包含两个阶段:Motion-Based Head Imitation和Audio-Guided Motion Generation。
04实验结果显示,INFP在动作多样性、非真人效果、即时交互等方面表现出色。
05该工作以学术研究为目的,会严格限制模型的对外开放和使用权限。
以上内容由腾讯混元大模型生成,仅供参考
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文链接:https://arxiv.org/pdf/2412.04037 项目网页:https://grisoon.github.io/INFP
查看原图 89K