腾讯版Sora抢先体验!文生视频大模型懂氛围感,有追剧的感觉了

全文2508字,阅读约需8分钟,帮我划重点

划重点

01腾讯混元视频模型推出内测阶段,具备高清大片质感,能生成5秒中文或英文视频。

02该模型在画质、镜头切换、物体运动、提示词遵循等方面表现出色,但仍有提升空间。

03目前,混元内测产品支持多镜头生成和多动作生成,实现自然切换和连贯动作。

04然而,混元视频仍存在不确定性,如生成内容具有不确定性,以及颜色和数量可能不匹配等问题。

05未来,腾讯混元模型有望实现更精准、更接近脑海世界的视频生成,为用户带来更丰富的体验。

以上内容由腾讯混元大模型生成,仅供参考

不知不觉,12 月到了,离 Sora 的演示发布,已经过去将近 10 个月。

Sora 的正式推出应该不远了,但 AI 视频的版图早已不是一家主宰,海外的 Runway、Luma、Pika,国内的快手可灵、字节即梦、智谱清影,占据了前排的位置。

一个意料之中的 Sora 竞争对手,终于也在最近上车了——腾讯混元。

图片

腾讯混元目前的视频模型只能文生视频,正在内测阶段,APPSO 受邀参与了提前体验。

虽然功能不多,有进步空间,但作为一个内测产品,混元在画质、镜头切换、物体运动、提示词遵循等方面,效果让人眼前一亮。

大片质感,拿捏复杂提示词

在腾讯混元输入一段提示词,就能生成 5 秒的视频,支持中文、英文输入。

感官不会撒谎,视频是一个讲故事的媒介,抛却一切参数,它应该首先让人沉浸在画面里。

混元在这方面做得就很不错,具备高清大片质感,让人真实感受每个细节。

拿例子说话,镜头开始聚焦在摇曳的烛光上,一个低头写信的年轻男子轮廓模糊,随着镜头缓缓向右平移,镜头焦点逐渐从蜡烛转移到男子的身影,衣服的纹理清晰可见。

中式朦胧含蓄的氛围感,混元拿捏了。恍惚间,我以为自己在看腾讯视频。

现代的场景,混元也没问题,用 200mm 长焦镜头,捕捉阳台上的英短猫,前景的大盆栽轻微虚化,叶子随风摇曳。

英短猫的毛发细节鲜明,电影胶片的颗粒感和色彩饱和度,让画面的质感更上一层楼。

每个人的脑海,都有很多未被电影和电视剧拍摄的画面,每次我们输入提示词,都是让大模型做「阅读理解」。

当我们构思了场景,在提示词用心写好每个细节,当然是希望模型能够一一呈现,生成我们预期中的画面。混元对复杂提示词的遵循,就尊重了我们的脑洞。

在成都一个热闹的小吃街上,一位主播身穿具有四川特色的服饰,头戴可爱的熊猫耳朵发箍,品尝着麻辣串串,背景是熙熙攘攘的小吃街和各种诱人的美食。

除了麻辣串串有些穿帮、衣服的图案乱成一团,混元整体的完成度很高,主播的吃相不至于让人陷入恐怖谷。

背景里熙熙攘攘的人群和整整齐齐的小吃,看不出什么明显的问题,没有奇怪的物体和人物乱入,甚至可以说很有生活气息。

在一间装饰着复古风格的咖啡馆内,一位年轻咖啡师身着经典的条纹围裙,头戴贝雷帽,站在吧台后,吧台上摆放着咖啡杯和手工甜点。

最值得称道的是,阳光透过彩色玻璃窗,洒在磨光的木板上,混元将倒影的细节呈现得很精致。

生成不同画幅的视频,是 AI 视频产品的基本操作,混元当然也不例外。

按 9 比 16 的比例生成竖屏短视频,人是美的,画面是高清的,光影是绚烂的,当成超现实的艺术鉴赏,头发和服饰反重力也没关系。

一只德牧坐在沙发上,镜头拍着它的侧脸,然后它好像发现了镜头,看向镜头并歪头。是不是有些萌宠短视频的感觉了?

拒绝动态 PPT,物体运动、镜头切换都流畅

画面漂亮还不够,怎么样才能让 AI 视频不像动态 PPT?问题不完全在于时长,1 分钟的视频也可能像幻灯片一样索然无味。

生成流畅、连贯、符合物理规律的运动镜头,解决人物的动作、幅度、流畅性问题,可以说是让视频有动感的一个决定性因素。

正是因为这样,AI 视频模型们都在可控的运镜和运动上下功夫,推出运镜控制、运动笔刷等功能。

图片

混元「常用标签」

目前,混元还是个内测产品,流畅运动主要靠提示词实现,同时会推荐一些景别、相机运动的「常用标签」,方便不太会写提示词的用户们。

但从效果来看,只靠提示词,混元也可以生成大幅度的合理运动,主体不易出现变形。

在崎岖的山地自行车赛道上,一位车手巧妙地操控自行车,尘土在车后飞扬。镜头定格在车手飞跃土坡,身体与自行车在空中舒展的惊险一刻。

在灯火通明的古代夜市,女孩跑着步,面带笑意,时不时回过头,长发和衣袖随之飘动。

浅景深让主体更加突出,女孩成为整个画面的唯一核心,背景被虚化,步伐奇怪、行踪诡异的路人也不那么显眼了。

混元官方 Demo:草莓掉进鸡尾酒杯,溅起水花,高速摄影,2K

画面的动感,不仅仅来自于主体的运动,镜头的流畅切换也很重要,在同一个视频里使用不同的镜头角度和距离,可以产生更加丰富的视觉效果。

这可以用混元的另一项长处实现:多镜头生成。只靠输入提示词,混元可以一次生成多个镜头,前后镜头自然切换的同时,主体和场景保持一致。

也就是说,AI 自己就能完成「转场」,自带运镜能力。

先是从中景切入,呈现整体的古典场景,然后用特写,捕捉男子的表情和动作。

与此同时,环境的光源,男子的脸、服饰甚至他手中握住的笔,都保持得一模一样。

图片

类似的,当要求先特写男子坐在电脑前思考,然后镜头切换到男子的背面,拍摄到电脑屏幕,以及旁边的咖啡杯、盆栽、手办,混元也交出了非常丝滑的作业。

除了多镜头生成,混元还能多动作生成——生成同一个主体的多个连贯动作。

图片

比如这个视频,提示词写得非常简单:一个女性正在慢跑,突然看到路边有一只小狗,她停下脚步蹲下来抚摸小狗。

混元的表现堪称惊喜,女孩和小狗双向奔赴,小狗自己完成了一个转身,女孩来回摸狗的手法也非常娴熟和自然,手的动作和小狗的动作无缝衔接。

把提示词写得更精准,离脑洞更近一点

当然,混元也存在问题,每次生成的内容具有不确定性,这是大模型的通病,做不到完全可控,抽卡是不能避免的。

打斗的动作尤其为难 AI,不管是写实还是动画,看来武术指导无法被 AI 替代。

比如这段,布景大致遵循了提示词,但两位大侠你们到底用的是什么武器,怎么打得眼花缭乱又没有伤害的?

图片

混元官方也指出了生成视频可能存在的问题:同时输入多个实体,可能不会都生成出来;颜色和数量可能未必匹配。

混元大模型仍在升级和调试中,未来可期。

如果之后有图生视频的功能,那就更好了,文生视频很难做到镜头和镜头之间的连续,目前很多商业化交付的 AI 片子,基本都是图生视频,先在图片阶段尽量做到一致性。

与此同时,我们可以依靠一些方法论,提高提示词的精细度与准确度,反复细化、调整、优化提示词,多次尝试总没错。混元官方推荐的提示词写法如下:

主体+场景+运动 + (风格表达) + (氛围描述) + (运镜方式) + (光线) + (景别)

以及,考虑到很多用户不擅长写提示词,混元提供了提示词模板,我们照葫芦画瓢就可以。

图片

看到 AI 视频赛道从 Sora 演示发布卷到现在,作为用户,心情其实就是六个字:打起来,打起来!

别吊胃口了,多一点落地的、更可控的、更容易上手的视频产品才是真的。

AI 视频的意义,究竟是什么?固然我们可以从降低成本的角度考虑,但同样,也可以从更浪漫的角度理解。

图片

混元官方 Demo:一个敦煌雕塑风格的神仙,身材曼妙,弹着琵琶,在博物馆中轻盈起舞,衣袂飘飘。

就像 Runway CEO 所说,相机改变了我们捕捉现实的方式,AI 也正在改变我们创造现实的方式。现在 AI 视频就像最初的银版照片,原始但充满无限可能。

每次使用 AI 视频产品,其实就是在根据我们自己的喜好,直接生成个性化的视频内容,想看什么自己生成,这是刷海量的短视频也无法替代的体验。

我们期待的,无非是 AI 视频再精准一点,离脑海里的世界更近一点。这样的未来,已经越来越近了