即梦Seedance2.0视频模型“王者归来”之后 | 最新突发: 模型太强以至禁止了真人人脸支持...

Web3天空之城

2026-02-09 18:29发布于北京科技领域创作者

问AI · 模型强大到限制真人人脸的原因是什么？

Web3天空之城|城主

注: 文章发布之前突发: 即梦2.0刚做了官网更新, 模型暂不支持真人人脸了, 城主表示理解, 因为这个模型太强了, 强到以至于要慎重考虑如何正确合理使用的程度了.

(还好本文所附带的几个真人测试视频是在封之前生成的, 大家可以感受一下模型的强大)

----

在标题党泛滥的当下，“XXX时刻”之类的字眼早已让人审美疲劳, 对于刚出的新模型, 冠上top1的名号更有吹嘘之嫌。但城主经过深思熟虑，还是决定沿用这个标题。

因为名副其实。

显然，这篇文章就是纯粹的“自来水”。就好像即梦2.0的突然低调发布一样, 一切都不在预料中, 城主知道年底各大厂都集中发布新模型, 但完全没有预料到字节就这么掏出了一大杀器.
简单使用后, 城主很同意字节发布时在飞书使用手册的最后那句: "Kill the game"(杀死比赛), 即梦2.0基本上终结了视频生成的第一阶段.
第二阶段, 城主以为就是一键长片,5分钟以上那种了

即梦网页对Seedance2.0的小标题是: "全能王者". 霸气侧漏, 但城主在初步测试过后仔细一想，这话很客观.

关心视频生成的同学，这两天想必在视频号上刷到了大量博主关于即梦2.0（Seedance 2.0）的测试视频。在城主看来，最有趣的其实不仅仅是那些精彩绝伦的生成结果，而是众多博主在测试过程中的真实反应：

“测到一半觉得很兴奋，测到最后觉得很绝望。”

兴奋自不必说，而绝望则源于模型强得离谱——强到让专业做视频的博主觉得，做视频这行饭碗可能真要保不住了。

如果各位觉得这种论调在自媒体时代显得过于熟悉和夸张，城主想坦诚地直言：这不是噱头，也无意哗众取宠。这确实是先行测试者们的肺腑之言，也是城主此刻的最深感触。

即梦2.0究竟强在哪里？

关于即梦2.0的更新细节，虽然已有诸多说明，城主在这里为大家提炼几个核心变化：

1. 万物皆可“@”的参考机制：你可以传入图片、视频甚至音频作为参考，去精准生成你想要的内容。以前我们还得费劲描述，现在直接用“@某张图片”或“@某个视频”的方式，就能指哪打哪，精准控制人物、动作或特效。
2. 九宫格/N宫格叙事生成：直接传入一张九宫格或多宫格图片，模型便能理解时序，按照顺序依次生成连贯画面。
3. 扎实的多人互动与运镜：多人物互动场景，特别是快速切镜的打斗画面，表现得异常扎实。更不用说从1.5版本开始就傲视群雄的对话口型与视频同出能力。
4. 纯文本直出分镜：你甚至不需要上传任何图片，仅凭一段文本描述一系列分镜，模型就能直接把视频做出来。

除此之外，还有一些令人惊喜的“小确幸”：比如一次直出长达15秒的视频，比如暴涨的生成成功率——基本告别了靠运气“抽卡”的时代。

集大成者，也是破局者

客观来说，上述功能点单拎出来其实并非首创：

• 用“@”参考内容，最早见于Vidu；
• 九宫格生视频，是OpenAI的Sora最初被挖掘出的惊艳功能；
• 至于文生视频，此前的各类模型也都能做。

但关键在于，即梦2.0做到了“一步到位”的集大成。 它不仅把散落在各家模型中的闪光点全部容纳由于一身，更恐怖的是，它似乎把每一点都做到了目前的最强。

• 关于参考生视频： 之前的模型虽然支持，但总有各种瑕疵，要么画质不过关，要么对参考图的一致性保持不够，产出结果不见得比基础的图生视频更好。而即梦2.0解决了这些痛点。
• 关于九宫格参考： 源自Sora的创意被即梦2.0完美落地，且因为它没有限制对真实人物的参考，这种自由度让曾经惊艳的Sora瞬间显得“不香了”。
• 关于动作场面： 快速切镜的打斗场景，之前的模型尝试过，但几乎没人能做好。如果城主没记错，这是视频模型第一次能如此轻松地生成“拳拳到肉”、逻辑扎实的打斗戏。
• 关于文生视频： 即便没有任何参考图，仅凭文字，其生成结果的扎实程度依然令人咋舌。

这一次即梦2.0给人感觉一个明显的特点就是“稳”。生成的质量稳如老狗.
基本上，随便给点文字描述，加一张参考图，就能直接拿到你想要的结果。不需要你成为“提示词工程师”，也不需要反复研究输入图片的参数设置。

这种随心所欲、直达结果的掌控感，应该就是震撼到无数博主的根本原因。

案例分享：从“手搓”到“直出”

写到这里，感觉太像硬广了。为了自证清白，城主和大家分享一个实测案例。

下面这个小片子，是城主之前制作的一个《EVA》与《东京爱情故事》的混搭故事。当时为了实现它，我使用了香蕉模型设计分镜图，再进行视频生成。特别是其中的厨房场景，为了达到基本满意的效果，城主在后期调试上花费了大量时间。

而这一次，顺手把原来的分镜脚本进行了简化描述，连同两个人物人物图直接丢给即梦2.0:

让人说什么好呢？看着这个结果，城主顿时觉得，此前为调整这些镜头的各种手工技术、所耗费的相当时间，在这一刻都成了新王登基的炮灰。

然后再试一个, 连分镜都不写, 直接给人物, 描述一个场景:

这些都是随手写的一句, 直接生成15秒的多分镜视频. 上面这个对决的视频, 让城主印象特别深的，是碇真嗣和绫波丽的表情, 那个表情让我感觉这就是真人的表演, 完全感觉不到所谓AI的痕迹.

提示词就是这么一句话:

其实这次的每个改进都值得一次模型发布了, 字节把所有的改进都塞进这一个低调发布的新模型中，最终效果直接亮瞎了眼所有人的眼。而且这只是刚发布后的简单测试, 随着大规模使用和研究, 想必这个模型的能力会被进一步挖掘, 而不少博主已经开始喊出: 真人短剧已死

怪不得在官方的飞书说明文档里，在大规模灰度上线的前夜，内部团队写下了这样一句话：
"Kill the game."

确实有这个底气。

技巧的终结，流水线的开启

在AI时代，深入一线实战的同学往往会有这样一种刻骨铭心的体验：所有的使用技巧，都比不上AI大模型的一次底层迭代。

上一次有这种强烈感受，还是在Google的香蕉模型横空出世时；而第二次，就是现在的即梦Seedance 2.0。

即梦2.0才刚刚发布一天，它的强大能力估计在未来几天内还会持续发酵。很快，我们就会看到使用这个模型制作出的、真假难辨的长篇内容——这股风潮，至少会首先席卷短剧领域。

即梦2.0的真正意义，在于让AI长篇视频生产，特别是真人AI长篇视频生产，真正进入了“流水线时代”。

在此之前，虽然Sora、Veo3、Kling、Vidu等模型各有千秋，也确实能做出长视频，但有实战经验的同学都知道：做做动画或许还凑合，一旦涉及到真人AI长视频，在人物一致性、表演张力、分镜切换等各个环节，都是对创作者的巨大考验。

这也是之前城主为什么大量依赖香蕉模型的原因——因为它能很好地在图像之间保持一致性。但这一次，即梦2.0出现后，城主意识到：香蕉模型不再是必须的了。

即梦2.0把视频生成带入了一个理想境界：人物设计图 + 表演文本，一步直接实现最终的视频生产。

如果非要挑刺，说即梦2.0还有什么弱点，那就是单次生成最长15秒的限制。尽管这已经是有史以来最长的生成时长，但如果能拉长到30秒，那便是绝对的“超级完美”。

登顶第一之后: 幸福的烦恼

有幸见证了一个中国模型登顶世界第一。

毋容置疑的，突然出现的即梦2.0就是当前世界上最强大的视频生成模型。

这句话城主就放在这里，邀各位看官一同见证。

注: 在这个文章即将发出来的时候,, 即梦2.0的生成规则似乎有所调整, 有可能开始对一些真人照片的参考进行限制, 从创作者的角度显然是不希望如此的。

但客观而言, 这个模型如此强大, 真的到了轻而易举用一张照片来指挥一个人物表演的程度。而在此之前，要做到这一点, 多少还有一点技巧门槛, 即梦2.0把这个门槛降到了接近于0.

所以, 或许至少要引入名人肖像权的鉴定判断. 否则从昨天开始,可以看到一些苗头, 按照国内之前各种ai创作的乱入, 可以预期各种以假乱真的名人恶搞短视频将会立刻出现，而甚至只用一张照片，就可以让一个人物(无论是虚拟的还是现实的, 名人还是素人)出演一部电影产片的时代已经来了.
这是最坏的时代, 也是最好的时代.