前几天即梦在 Web 端上线他们的数字人 Omnihuman 1.5 版本。
今天来做个测试,同时有个教程教大家怎么用图像模型配合生成名人数字人视频。
相较于之前的 Omnihuman 1.0,这次不只是上传音频和图片他帮你生成带有唇形同步的动态视频,1.5 的控制能力大幅提升,你可以定义视频中的人物表演和运动方式。
几乎搞定了原来 AI 视频不好做的人物表现部分内容。
可以看到在设置部分多了一个动作描述的提示词输入,极大的拓展了数字人的使用场景,基本上可以当一个自定义程度极高的 Veo3 来使用了,你可以控制画面内容、人物、情绪、音色以及运动和运镜方式。
昨天用这个做了一个比较搞的片子,最近不是模仿名人营销很火吗,我做了一个让乔布斯卖破拖鞋的演讲,这种具有热门视觉标定和反差感的视频非常容易火。
我们先用几个基础测试来看一下 Omnihuman 1.5 的能力。
然后我会教一下大家如何用即梦图片 4.0 和数字人 1.5 配合生成这种连贯的数字人视频。
这次更新最明显的一个改动就是数字人不再死板,我们可以通过动作控制让镜头和人物动起来,包括不只是主角也包括其他人物。
比如上面这个案例,我们就可以让女子先抬头,到一个合适可以看到嘴唇的角度,然后再开始说话,同时镜头也在旋转到她的正脸,背后的其他人也在正常行走,这是纯粹的唇形同步模型不能做到的。
另外这次的模型升级在多风格化以及非人形生物的唇形同步上效果也变得非常的自然。
这里这种平面插画的眼睛、嘴部和面部运动都非常自然而且生动,同时依然可以搭配他的动作比如抬手走动等,镜头平移的时候新出现的画面风格也跟原来的很好的保持一致。
这次更新的另一个优势是对表情和表演的响应也更得加的好,上面的提示词为:
女人先以平静神情看向镜头,眼神柔和轻声开口;随即露出讽刺的表情,眉梢微挑、嘴角单侧上扬;短促轻笑后肩部微松;转为温和讲述,目光上扬,右手轻触前景桌上的纸船;最后前倾半步以低语收束,食指轻抵唇边作“嘘”。
可以看到他响应的很好,先是面无表情的说话,然后变成讽刺的表情,之后非常顺畅的在轻笑之后变得温和,然后人物后撤开始看向纸船,最后嘘的动作也做了。
整个视频长达 16 秒,这个长度和提示词词遵循已经非常厉害了,市面上可以做到这么稳定的保持人像 ID 不变同时精准的提示词遵循的几乎没有。
这次更新还有一个优势就是可以控制同一场景多人的对话和表现,我们可以指定声音是由哪个角色发出的,这个一下就让模型的可用性拓展了很多。
比如这里我们就可以做两人的对唱视频,多人对话剧情也可以做了,搭配即梦 4 的改图能力去调整镜头的重点很容易就可以最常见的对话剧情,比某些只会一个固定镜头的电视剧强多了。
从上面这几个测试也可以看到,以往类似模型那种夸张的嘴型问题也一定程度上得到了解决,不再是所有角色说话嘴都张的很大了,模型现在会根据声音内容和提示词去调整,表现自然了非常多。
现在来看数字人教程的部分。
即梦的数字人 1.5 虽然可控和操作简单是跷跷板的两个部分,一般来说可控的模型操作就会相对复杂,所以还是需要一些门槛的。
我们可以看到数字人 1.5 做条视频需要准备三部分内容,首先是首帧的图片,然后就是音频,最后就是对应的动作和情绪提示词。
如果你需要这个视频更加的生动,就必然不可能一直用一个视角和背景,所以我们需要更多的分镜图片和对音频进行切分,这样会让画面更生动。
这里我建议你先准备一个表格将每个分镜的这三个部分写好,然后我们看怎么去准备。
然后我们来讲一下基础的操作:
图像这里没啥问题你直接上传首帧图片就可以。
音频这里说法比较多:
如果你自己没有准备音频的话,你需要直接选择音频部分,这时候即梦一般会根据你上传的角色推荐一个音色,当然你也可以自己选择,选择完成后在说话内容这里直接打字写上要说的话就行。
当然你也可以在音色选择的弹窗「我的音色」这里去克隆你想用的音色,只需要 5 秒音频就行。
另外还有一种情况是,你上传的画面里有多个角色,这时候即梦就会自动检测到,你就可以选择是图片中的哪个角色在说话,可以选单个,也可以选全部。
比如他检测到我这张图片有两个人,就会有三个选项,而且会有对应角色的切图,很直观。
最后是动作描述,这里可以用他们推荐的提示词模板,尽量遵循清晰、不矛盾、少否定,多写具体的内容,少用文学化和形容词表达。
提示词模板:
镜头运动 + 说话角色情绪 + 说话状态(说话/哭泣/唱歌/...) + 具体动作 + (可选)背景事件/其他角色的动作
了解完基础操作之后我们就需要开始准备素材了,首先我们克隆一下乔布斯的音色,你可以用即梦自带的克隆功能,也可以自己用更大的数据量操作,我这里用的自己克隆的。
然后就是第一张图片,我上面的分镜表格这里显示我们需要一张黑色背景的,提示词:Black stage medium shot. Steve Jobs facing the camera,The background is a pure black PPT screen.
然后我们还需要一张拖鞋产品图,哈哈,这里我用即梦生成的,提示词写像苹果 PPT 就行。
苹果风格发布会 PPT,一直非常破的破拖鞋,上面产品名字写着“iFlip One”
只有这两个画面太单调了怎么办,这个时候就得用即梦 4.0 的图像编辑能力了。
我们直接将原来第一张图的黑色 PPT 背景变成刚做的拖鞋 PPT。
当然第三个分镜将会基于第二张图去修改,直接给我们的拖鞋加上挂钩,同时改掉 PPT 上的文字。
这样三张非常模拟乔布斯发布会场景的图片就做出来的,是不是已经有那个味了。
然后我们将所有台词分成三段生成,第一段是提出悬念,然后第二段展示拖鞋,第三段介绍挂钩和发售。
然后按照刚才的介绍的基础操作分别将图片上传,然后写上表格里面的语音和对应的运镜及动作就行。
等待视频的完成,之后的事情你们应该都会了,用剪映之类的把三段合成一段视频就行。
近年来 AI 视频模型飞速发展,一直以来视频模型就是视频模型,唇形同步模型就是唇形同步模型,这样正常影视流程中最常见的动作运镜以及人物表演,被区分成了两个部分。
过去我们面对 AI 视频模型,就像在跟一个才华横溢但性格古怪的艺术家合作。你给出「一个悲伤的女人在雨中行走」这样的提示词,然后祈祷它能理解你心中的「悲伤」是克制的还是崩溃的,「行走」是踉跄的还是决绝的。每一次生成都像开盲盒,创作者被迫成为赌徒去抽卡。
Omnihuman 1.5 呈现的状态更像是一台精密的导演监视器:首帧画面 = 场景设定、音频内容 = 台词剧本、动作提示 = 分镜脚本、多角色控制 = 群戏调度。把创作从玄学变成了工程学。
当然 AI 指令精确之后,对于创作者的要求也变高了,那些更懂表演、调度具备「应该让它执行什么指令」的导演思维的人更能发挥这个模型的价值。
据悉,新模型9月30日也将同步上线即梦手机端,届时在软件商店更新最新版本即梦app,就能体验。
如果觉得藏师傅的内容对你有帮助的话,可以帮忙点个赞👍和喜欢🩷,也可以✈️转给你具有导演思维的朋友,谢谢各位