一张照片一段视频生成电影级画面，X-Portrait 2解锁AI视频新玩法

电科技

2024-11-22 23:14发布于北京电科技官方账号

现在说起AI生成视频，很多朋友脑海里浮现的可能还是崩坏的“史密斯吃面”、梅西吃西梅、容嬷嬷喂紫薇吃鸡腿、“邪恶栀子花计划”等名场面。

在过去，AI生成视频上限确实不高。即便是制作成本2.5亿美元的漫威剧集《秘密入侵》，其AI生成的片头也遭到不少网友吐槽“粗制滥造”，不止画风十分诡异，AI画出的主角容貌也与演员差距十分巨大。比如下图的“尼克·弗瑞”跟萨缪尔·杰克逊不能说一模一样，只能说关系不大。

此前AI生成视频长期只能“图一乐”，无法在影视、游戏工业中应用，主要还是因为其存在诸多问题难以攻克。

例如，尽管AI生成视频技术不断进步，但在细节表现上仍与真实拍摄存在差距。人物的皮肤纹理、毛发细节等不够逼真，物体的光影效果不够自然，并且AI生成连续动作时，容易出现卡顿、不自然的过渡，尤其是复杂动作或快速动作转换场景，这会破坏视频的整体流畅度和观看体验。

此外，AI难以像人类演员那样深刻理解和表达情感，生成的人物表情可能在表面上符合情绪，但缺乏内在情感的深度和细腻变化，无法传递出复杂的情感层次，影响作品的艺术感染力和观众的情感共鸣。

最重要的是，在AI生成视频应用于影视、游戏工业的进程中，ID一致性问题堪称一大棘手难题。

所谓ID一致性，即要确保在不同的视频生成过程中，同一角色的外貌形象能够精准且稳定地得以维持。然而，当前的AI技术在这方面表现得不尽人意。

由于AI生成视频多依赖于数据学习与算法模型的运算，在生成过程中会受到多种因素的干扰，从而导致每次生成的视频主角样貌出现明显差异。

例如，在一些早期尝试将AI生成视频应用于影视角色补拍或动画角色扩充的项目中，即便使用了相同的角色素材作为基础，生成的视频里主角的面部轮廓、五官比例、肤色色调等关键外貌特征都可能发生变化，有时眼睛的形状和大小会出现偏差，有时鼻子的挺拔程度或嘴唇的厚薄感与原始设定大相径庭。

就比如前文提到的《秘密入侵》，AI生成的片头中角色容貌跟演员对不上号。像“容嬷嬷与紫薇”之类图片生成视频也存在人物动起来之后面部特征完全变成另一个人的问题。

怎么紫薇看起来比容嬷嬷还老了？

不过，AI视频技术的进步确实神速，可谓是一日千里。近日，字节跳动智能创作团队推出了X-Portrait 2单图视频驱动技术，仅需一张静态照片和一段驱动视频，就能生成电影级的高质量视频，其表现着实惊艳，让人看到了AI视频生成广阔的应用前景。

神态情绪丝滑迁移，X-Portrait 2实测

X-Portrait 2项目是字节跳动智能创作团队推出的一项具有开创性的单图视频驱动技术。

它构建了一个先进的表情编码器模型，区别于以往依赖人脸关键点检测的单图驱动方法，它通过一种创新的端到端自监督训练框架，能够从大量人像视频中自学习ID无关的运动隐式表征。

然后，将这个表情编码器与强大的生成式扩散模型相结合，从而生成流畅且富有表现力的视频。

只需一张静态照片和一段驱动视频，X-Portrait 2即可将视频中从细微到夸张的表情和情绪，迁移到静态照片中，让照片里的人物像视频一样生动地“活过来”。

简单的表情变化，如挑眉、咬唇等，难度较大的表情，比如撅嘴、吐舌头、鼓腮帮和皱眉等，都能高清重现，并高度保留情感的真实感，让生成的视频中的人物情感表达更加细腻、丰富和自然，仿佛真人再现。

比如这段视频，视频人物表情非常夸张，脸部肌肉变化丰富，头部有大范围摆动，都能够很好迁移到生成视频中，动作非常自然，每一个肌肉牵动和光影都真实到了影视级别。系统还为人物计算出了侧脸和后脑的部分，也没有违和感。

再比如这两段从《闪灵》中截取的片段，杰克·尼尔森在这部电影中的表演非常夸张，面部表情丰富而多变。X-Portrait 2生成的视频可以说看不出任何的破绽，面部动作和表情搬到静态图片之后完美呈现出了原本的情绪。生成的口型能够完美对应原台词，人物复杂的发型和胡须也没有出现穿帮。

这段视频里，X-Portrait 2不止还原了安妮海瑟薇的表演，甚至还为图片添加了泪水。

X-Portrait 2不只能针对照片生成，还可以对卡通风格，甚至油画风格人像生成。这也极大拓展了X-Portrait 2能够应用的场景。这种方式极大地简化了创作流程，为创作者提供了一种超低成本且高效的创作方式，使得更多人能够轻松涉足视频创作领域，激发无限创意。

根据官方技术文档，在训练表情编码器时，X-Portrait 2实现了外观和运动的强解耦，使得编码器只关注驱动视频中的表情相关信息。这一特性使得模型能够有效过滤运动表征中的ID相关信号，从而实现跨ID、跨风格的动作迁移。

通过上面的几个官方视频可以看出，在生成视频的过程中，X-Portrait 2能够出色地保留原图的ID，确保生成的视频主角外貌特征与原始照片高度一致，解决了以往AI生成视频中常见的ID一致性问题，使得生成的视频能够更好地融入到各种影视、游戏等内容的创作中，保持作品的连贯性和角色的一致性。

与前一代X-Portrait以及最近发布的Runyway Act-One等其他先进的方法相比，X-Portrait 2在多个关键方面展现出了卓越的性能优势。明显X-Portrait 2的表情更加真实自然，前一代X-Portrait在嘴角、眼珠等部分偶尔会出现穿帮，Runyway Act-One则动作明显与原视频差距较大。

在原视频动作较大时，Runyway Act-One甚至会直接报错，提示无法生成。

对比之下，X-Portrait 2能够更加如实且精准地表现快速的头部动作、细微的表情变化以及强烈的个人情感，这些对于高质量的动画和电影制作等内容创作至关重要的因素，使得X-Portrait 2在影视、游戏工业等对内容质量和情感表达要求极高的领域中更具竞争力，能够更好地满足专业创作者的需求，为观众带来更加逼真、生动和富有感染力的视觉体验。

当然了，你可能觉得这些视频是官方精挑细选的，电科技也选取了几组照片和视频喂给了X-Portrait 2，让我们看看它的实际表现。

先来个“整活”，将《无间道》中两代陈永仁来个换脸，把梁朝伟的演技爆发名场面“嫁接”给余文乐。这是陈永仁看到黄Sir坠楼的场景，短短几秒钟出现震惊、悲伤、恐惧的表情。

喜剧之王中周星驰快速切换表情的表演，我们给到表演表情变化较少的肖央。表情虽然夸张，但是并不违和，X-Portrait 2用光影突出了面部的立体感，每一块肌肉的动作都很自然。

《闻香识女人》中阿尔·帕西诺的精彩演讲，给到一张饱经沧桑的老人的照片。可以看到因为帕西诺的角色是一位盲人，老人照片中有神的双眼也暗淡了下去，眼睛很传神，原视频中坚定的感觉也传达得很好。

对于《美人鱼》里邓超的表演，邓超那种夸张又极具喜感的风格，X-Portrait 2也能很好地驾驭。从他那瞪大的眼睛、夸张而丰富的面部表情，都在生成视频中得到了忠实还原。

再看《李米的猜想》里周迅的表演，给到的图片是一张油画。周迅那细腻而饱含情感的演绎，在X-Portrait 2生成的视频中得以完美延续。她眼中的迷茫、焦急与深情，通过微表情的准确迁移，让观众能够深切感受到角色内心的波澜起伏。

这个应该是最有难度的一组，因为图片给到的是《星鸣特工》中的Lennox，它的面部有着古怪的毛发和类似爬行动物的纹理，生成的视频中这些特种都得到保留。

X-Portrait 2之所以能够实现如此出色的单图视频驱动效果，主要得益于其独特而先进的技术原理。

首先，X-Portrait 2构建了一个创新的表情编码器模型，这个模型通过在大规模数据集上进行训练，能够隐式地捕捉输入中的每一个细微表情。

与以往依赖人脸关键点检测的单图驱动方法不同，它采用了一种创新的端到端自监督训练框架，从大量人像视频中自学习ID无关的运动隐式表征。这意味着模型可以更加智能地理解和提取表情特征，而不受特定人物身份的限制，从而为后续的表情迁移和视频生成奠定了坚实基础。

其次，该模型实现了外观与运动的解耦，在训练表情编码器时，确保了编码器只关注驱动视频中与表情相关的信息，通过设计过滤层等手段，有效过滤运动表征中的ID相关信号。这样一来，即使ID图片与驱动视频中的形象和风格差异较大，模型仍能够出色地实现跨ID、跨风格的动作迁移，涵盖写实人像和卡通图像等多种类型。这种解耦机制不仅提高了模型的适应性和泛化能力，还使得生成的视频在保持表情真实自然的同时，能够更好地保留原始图像的外观特征，确保人物形象的一致性和稳定性。

最后，X-Portrait 2将表情编码器与强大的生成式扩散模型相结合. 生成式扩散模型具有强大的生成能力，能够处理不同视角下的表情变化，生成更加流畅和真实的动画效果。它可以根据表情编码器所提取的特征，以及驱动视频中的动作信息，精确地生成每一帧画面，从而实现从细微到夸张的表情和情绪的逼真迁移，让生成的视频具有高度的真实感和动态表现力。

例如，在处理快速的头部运动、复杂的面部表情变化以及强烈的个人情感等方面，生成式扩散模型能够根据表情编码器所提供的信息，生成自然流畅且符合逻辑的视频内容，使得人物的表情和动作更加生动、自然，仿佛真人在表演一般。

多元应用展望

X-Portrait 2的出现，无疑为众多行业开辟了广阔的市场前景。

在3D动画领域，以往的角色动画制作往往需要耗费大量的人力、物力和时间成本，通过动作捕捉等复杂流程来实现角色的生动表现。

而X-Portrait 2只需提供一张静态图片和一段驱动视频，就能快速生成高质量的动画角色视频，大大缩短了制作周期，降低了制作成本。

过去很多电影中的角色，例如《魔戒》中的咕噜、《猩球崛起》中的凯撒、《阿凡达》中的纳威人等等，都需要演员穿戴复杂的表情捕捉设备。未来可能只需要一个角色设定图和演员表演的视频，就可以实现影视级视频生成了，这对于降低成本、缩短工时，甚至降低创作门槛，都是前所未有的革命。

在游戏领域，X-Portrait 2也有着巨大的应用前景。R星在2011年曾发行过一款游戏《黑色洛城》，游戏中角色表情都采用真人演员采集，甚至成为了这款悬疑探案游戏中的重要元素，玩家需要根据人物的情报、表情来查案。

不过受限于当时技术，《黑色洛城》中角色的表情还不能说完美，在嘴部、眼睛部分还经常会穿帮，但已经是一种非常有趣的体验。在X-Portrait 2帮助下，未来游戏NPC角色可以拥有拟真的人物表情，让玩家更加沉浸。

在玩家面部捕捉方面，X-Portrait 2同样具有巨大的应用潜力。在未来算力和时延问题解决之后，实时的面部捕捉对于VR游戏非常有意义。目前在类似VRChat的聊天室中，玩家只能通过设备简单捕捉手部、腿部、眼睛，更多还是语言和肢体交流，信息量很大的表情是缺失的。

除此之外，在影视后期制作、虚拟直播、数字人创作等领域，X-Portrait 2也都有着广泛的应用前景。在影视后期制作中，可以利用该技术对一些未完成拍摄的镜头进行补拍，或者对已有镜头进行特效处理，提升影片的视觉效果。

在虚拟直播中，主播可以利用自己的照片生成虚拟形象，然后通过实时的表情和动作驱动，让虚拟形象更加生动地与观众互动。在数字人创作方面，X-Portrait 2能够让数字人更加逼真地模仿人类的表情和动作，使其在各种场景下的应用更加自然流畅。

毫无疑问，X-Portrait 2不仅解决了当前AI生成视频中存在的诸多问题，如质量不稳定、表情不真实、ID一致性差等，而且为众多行业提供了一种全新的、高效的内容创作工具。

查看原图 811K