注: 文章发布之前突发: 即梦2.0刚做了官网更新, 模型暂不支持真人人脸了, 城主表示理解, 因为这个模型太强了, 强到以至于要慎重考虑如何正确合理使用的程度了.
(还好本文所附带的几个真人测试视频是在封之前生成的, 大家可以感受一下模型的强大)
----
在标题党泛滥的当下,“XXX时刻”之类的字眼早已让人审美疲劳, 对于刚出的新模型, 冠上top1的名号更有吹嘘之嫌。但城主经过深思熟虑,还是决定沿用这个标题。
因为名副其实。
显然,这篇文章就是纯粹的“自来水”。就好像即梦2.0的突然低调发布一样, 一切都不在预料中, 城主知道年底各大厂都集中发布新模型, 但完全没有预料到字节就这么掏出了一大杀器.
简单使用后, 城主很同意字节发布时在飞书使用手册的最后那句: "Kill the game"(杀死比赛), 即梦2.0基本上终结了视频生成的第一阶段.
第二阶段, 城主以为就是一键长片,5分钟以上那种了
即梦网页对Seedance2.0的小标题是: "全能王者". 霸气侧漏, 但城主在初步测试过后仔细一想, 这话很客观.
关心视频生成的同学,这两天想必在视频号上刷到了大量博主关于即梦2.0(Seedance 2.0)的测试视频。在城主看来,最有趣的其实不仅仅是那些精彩绝伦的生成结果,而是众多博主在测试过程中的真实反应:
“测到一半觉得很兴奋,测到最后觉得很绝望。”
兴奋自不必说,而绝望则源于模型强得离谱——强到让专业做视频的博主觉得,做视频这行饭碗可能真要保不住了。
如果各位觉得这种论调在自媒体时代显得过于熟悉和夸张,城主想坦诚地直言:这不是噱头,也无意哗众取宠。这确实是先行测试者们的肺腑之言,也是城主此刻的最深感触。
即梦2.0究竟强在哪里?
关于即梦2.0的更新细节,虽然已有诸多说明,城主在这里为大家提炼几个核心变化:
1. 万物皆可“@”的参考机制:你可以传入图片、视频甚至音频作为参考,去精准生成你想要的内容。以前我们还得费劲描述,现在直接用“@某张图片”或“@某个视频”的方式,就能指哪打哪,精准控制人物、动作或特效。 2. 九宫格/N宫格叙事生成:直接传入一张九宫格或多宫格图片,模型便能理解时序,按照顺序依次生成连贯画面。 3. 扎实的多人互动与运镜:多人物互动场景,特别是快速切镜的打斗画面,表现得异常扎实。更不用说从1.5版本开始就傲视群雄的对话口型与视频同出能力。 4. 纯文本直出分镜:你甚至不需要上传任何图片,仅凭一段文本描述一系列分镜,模型就能直接把视频做出来。
除此之外,还有一些令人惊喜的“小确幸”:比如一次直出长达15秒的视频,比如暴涨的生成成功率——基本告别了靠运气“抽卡”的时代。
集大成者,也是破局者
客观来说,上述功能点单拎出来其实并非首创:
• 用“@”参考内容,最早见于Vidu; • 九宫格生视频,是OpenAI的Sora最初被挖掘出的惊艳功能; • 至于文生视频,此前的各类模型也都能做。
但关键在于,即梦2.0做到了“一步到位”的集大成。 它不仅把散落在各家模型中的闪光点全部容纳由于一身,更恐怖的是,它似乎把每一点都做到了目前的最强。
• 关于参考生视频: 之前的模型虽然支持,但总有各种瑕疵,要么画质不过关,要么对参考图的一致性保持不够,产出结果不见得比基础的图生视频更好。而即梦2.0解决了这些痛点。 • 关于九宫格参考: 源自Sora的创意被即梦2.0完美落地,且因为它没有限制对真实人物的参考,这种自由度让曾经惊艳的Sora瞬间显得“不香了”。 • 关于动作场面: 快速切镜的打斗场景,之前的模型尝试过,但几乎没人能做好。如果城主没记错,这是视频模型第一次能如此轻松地生成“拳拳到肉”、逻辑扎实的打斗戏。 • 关于文生视频: 即便没有任何参考图,仅凭文字,其生成结果的扎实程度依然令人咋舌。
这一次即梦2.0给人感觉一个明显的特点就是“稳”。生成的质量稳如老狗.
基本上,随便给点文字描述,加一张参考图,就能直接拿到你想要的结果。不需要你成为“提示词工程师”,也不需要反复研究输入图片的参数设置。
这种随心所欲、直达结果的掌控感,应该就是震撼到无数博主的根本原因。
案例分享:从“手搓”到“直出”
写到这里,感觉太像硬广了。为了自证清白,城主和大家分享一个实测案例。
下面这个小片子,是城主之前制作的一个《EVA》与《东京爱情故事》的混搭故事。当时为了实现它,我使用了香蕉模型设计分镜图,再进行视频生成。特别是其中的厨房场景,为了达到基本满意的效果,城主在后期调试上花费了大量时间。
而这一次,顺手把原来的分镜脚本进行了简化描述,连同两个人物人物图直接丢给即梦2.0:
让人说什么好呢?看着这个结果,城主顿时觉得,此前为调整这些镜头的各种手工技术、所耗费的相当时间,在这一刻都成了新王登基的炮灰。
然后再试一个, 连分镜都不写, 直接给人物, 描述一个场景:
这些都是随手写的一句, 直接生成15秒的多分镜视频. 上面这个对决的视频, 让城主印象特别深的,是碇真嗣和绫波丽的表情, 那个表情让我感觉这就是真人的表演, 完全感觉不到所谓AI的痕迹.
提示词就是这么一句话:
其实这次的每个改进都值得一次模型发布了, 字节把所有的改进都塞进这一个低调发布的新模型中,最终效果直接亮瞎了眼所有人的眼。而且这只是刚发布后的简单测试, 随着大规模使用和研究, 想必这个模型的能力会被进一步挖掘, 而不少博主已经开始喊出: 真人短剧已死
怪不得在官方的飞书说明文档里,在大规模灰度上线的前夜,内部团队写下了这样一句话:
"Kill the game."
确实有这个底气。
技巧的终结,流水线的开启
在AI时代,深入一线实战的同学往往会有这样一种刻骨铭心的体验:所有的使用技巧,都比不上AI大模型的一次底层迭代。
上一次有这种强烈感受,还是在Google的香蕉模型横空出世时;而第二次,就是现在的即梦Seedance 2.0。
即梦2.0才刚刚发布一天,它的强大能力估计在未来几天内还会持续发酵。很快,我们就会看到使用这个模型制作出的、真假难辨的长篇内容——这股风潮,至少会首先席卷短剧领域。
即梦2.0的真正意义,在于让AI长篇视频生产,特别是真人AI长篇视频生产,真正进入了“流水线时代”。
在此之前,虽然Sora、Veo3、Kling、Vidu等模型各有千秋,也确实能做出长视频,但有实战经验的同学都知道:做做动画或许还凑合,一旦涉及到真人AI长视频,在人物一致性、表演张力、分镜切换等各个环节,都是对创作者的巨大考验。
这也是之前城主为什么大量依赖香蕉模型的原因——因为它能很好地在图像之间保持一致性。但这一次,即梦2.0出现后,城主意识到:香蕉模型不再是必须的了。
即梦2.0把视频生成带入了一个理想境界:人物设计图 + 表演文本,一步直接实现最终的视频生产。
如果非要挑刺,说即梦2.0还有什么弱点,那就是单次生成最长15秒的限制。尽管这已经是有史以来最长的生成时长,但如果能拉长到30秒,那便是绝对的“超级完美”。
登顶第一之后: 幸福的烦恼
有幸见证了一个中国模型登顶世界第一。
毋容置疑的,突然出现的即梦2.0就是当前世界上最强大的视频生成模型。
这句话城主就放在这里,邀各位看官一同见证。
注: 在这个文章即将发出来的时候,, 即梦2.0的生成规则似乎有所调整, 有可能开始对一些真人照片的参考进行限制, 从创作者的角度显然是不希望如此的。
但客观而言, 这个模型如此强大, 真的到了轻而易举用一张照片来指挥一个人物表演的程度。而在此之前,要做到这一点, 多少还有一点技巧门槛, 即梦2.0把这个门槛降到了接近于0.
所以, 或许至少要引入名人肖像权的鉴定判断. 否则从昨天开始,可以看到一些苗头, 按照国内之前各种ai创作的乱入, 可以预期各种以假乱真的名人恶搞短视频将会立刻出现,而甚至只用一张照片,就可以让一个人物(无论是虚拟的还是现实的, 名人还是素人)出演一部电影产片的时代已经来了.
这是最坏的时代, 也是最好的时代.