ZPedia | 全网实测首发！字节豆包视频大模型细节、真实感、语义理解显著增强，多人交互、特定人物和物理规律理解还有待优化

ZFinTech

2024-09-28 09:00发布于北京科技领域创作者

全文4354字，阅读约需13分钟，帮我划重点

划重点

01字节跳动推出了两款视频生成大模型——PixelDance和Seaweed，旨在突破视频生成中的难关，实现高质量的动态视频创作。

02PixelDance模型可以生成更长的10秒视频，在语义理解能力、动效效果生成和一致性能力上表现更好。

03然而，Seaweed模型在多人交互、特定人物和物理规律理解方面仍有待优化。

04目前，模型s在画面质量上适合生成“环境描述类镜头”、“单人动作镜头”，但在多人交互、物理逻辑等方面仍有不足。

05未来，随着技术的迭代与发展，视频生成大模型有望在物理世界、常识等方面取得更大突破。

以上内容由腾讯混元大模型生成，仅供参考

Z Highlights

9月24日，字节跳动正式推出了两款颇具潜力的视频生成大模型--PixelDance和Seaweed。两个模型旨在突破视频生成中的难关，实现高质量的动态视频创作。
本文一共测试了Seaweed模型在8个内容品类下，17个全网最新的用例。在画面质量，Seaweed模型擅长生成“环境描述类镜头”、“单人动作镜头”，在对自然语言的理解上有明显的提升。
PixelDance可以生成更长的10秒视频，在语义理解能力、动效效果生成和一致性能力这三个能力项上都有更好的表现。

01 两款豆包视频生成大模型正式发布，字节跳动再次颠覆视频创作的传统方式

9月24日，字节旗下火山引擎在深圳举行的AI创新巡展上，正式推出了两款颇具潜力的视频生成大模型--豆包视频生成-PixelDance(以下简称模型p)和豆包视频生成-Seaweed(以下简称模型s)。这个引人注目地发布，不仅展示了字节在视频生成领域的强大能力，还引发了广泛的关注与讨论。

正如火山引擎总裁谭待所言，这次发布的模型p和模型s旨在突破视频生成中的难关，实现高质量的动态视频创作。模型p和模型s支持从文字和图像生成高保真的视频。未来，创作者们在视频制作过程中，能够通过复杂的指令充分表达创意，一键生成想要的画面。

图：火山引擎总裁谭待发布豆包视频生成模型

具体来说，模型s和模型p现阶段的不同点在于：

02 Seaweed模型，提供内容生产的新可能性，全网最全基于内容品类的效果测试

在模型发布后，我们第一时间拿到了即梦的内测账号，并从内容品类的角度对模型s的生成效果进行了测试。不同其他着重于模型能力，技术突破、或者娱乐玩法的模型测试。我们将测试的重心放在了“视频生成大模型是否能够应用于现有的内容创作环节中”，具象化目前视频生成大模型在实际内容品类中的生成效果。

目前，很多内容创作者，尤其是自媒体创作者，在制作视频内容时，都无法规避找素材这一经验问题。例如，想要的素材找不到，找到的素材有版权风险。

现在视频生成大模型提供了内容生产的新可能性，我们从商业广告宣传片、社会新闻、体育赛事、历史故事、动物世界、自然风光、军事科普、科幻电影这8个内容类型角度，分别使用模型s生成了对应的素材内容。以下的生成结果均未抽卡，即使用提示词在即梦AI工具中第1次生成的结果。

1、商业广告宣传片

模型s，提示词：特写镜头展示一个美味多汁的皇堡,肉饼冒着热气，芝士正在融化。背景是一个明亮、现代化的汉堡王餐厅，有顾客在用餐和工作人员在准备食物。

模型s，提示词：保时捷911型跑车在蜿蜒山路上快速飞驰在公路上，公路的两边是森林和河流。

其中保时捷广告的画面中，仍然能够看到有部分画面扭曲的问题出现，具体表现为向远处行驶的红车最后直接消失和路面融为一体了。但是汉堡广告的画面生成的质量很高，其中融化的芝士、美味的汉堡都非常的真实。

2、社会新闻

模型s，提示词：在一个繁华热闹的大都市中心,高耸的摩天大楼林立,闪烁的霓虹灯光照亮了街道。一位身着醒目黄色制服的外卖小哥骑着电动车，背着外卖箱，在车水马龙中灵活穿行。小哥独自前行的背影与周围光鲜亮丽的行人形成鲜明对比。

模式s，提示词：在一个白色为主色调的咖啡店内，一个穿着围裙的咖啡师愤怒地将手中的咖啡粉朝站在柜台前的顾客脸上扔去。其他顾客惊讶地看着这一幕。

送外卖的黄衣制服小哥在驾驶细节上非常真实，美中不足的是远景的人物和车牌号等细节还是能看出一些不符合物理逻辑的地方。但另一则前不久热议的发生在某家咖啡门店的社会新闻，则能明显观察看到，咖啡杯从男人的手上直接平移了出来，男人也没有做出扔的动作。模型s在多人交互，尤其是一些大身体幅度的动作上，生成效果还有待加强。

3、体育赛事

模型s，提示词：足球场上，一名身穿红色球衣的前锋正在带球快速向前冲刺，并用力一踢将球射进球门。背景是欢呼的观众。

模型s，提示词：室内体育馆，两名羽毛球选手正在进行一场羽毛球比赛。背景是灯光明亮，观众席满座。镜头特写至其中一位羽毛球选手扣球的动作。

红色球衣的足球运动员跑步的姿势，跑动过程中头发的飘逸感和球衣的动态效果十分逼真，美中不足的是模型s没有将提示词中要求的带球冲刺和射门的动作生成出来。另一个羽毛球比赛则有点抽象，不仅场面出现了多个羽毛球乱飞，人物的动作僵硬不流畅之外，模型也未正确理解提示词中对两名选手比赛的人数要求。结合社会新闻中，咖啡店事件的生成效果，目前模型s在“多人、大幅度交互镜头”的生成上，能力还有可以进一步提升的空间。

4、历史故事

模型s，提示词：富兰克林·罗斯福站在演讲台上，身着深色西装，戴着圆形眼镜，正慷慨激扬地发表演讲。镜头切换到台下，会议厅内坐满了西装革履的议员，他们正在全神贯注地听着演讲的内容并鼓掌。

模型s，提示词：关羽骑在一匹高大的赤兔马上，英姿勃发。他身着绿色战袍，面容坚毅，长须飘扬。手持青龙偃月刀，正在激烈的战场上奋勇杀敌。周围是混乱的战场,烟尘弥漫,士兵厮杀。

美国总统的演讲场景，模型s正确理解了提示词中对人物身着深色西装，带着圆形眼镜的服装要求。演讲的画面中，人物的唇形，面部的神态也足够逼真。唯一不足的是，对于罗斯福这样特殊人名的要求，模型并没有正确理解特定人物的五官特征，生成的人物和罗斯福五官。另外在中国历史故事，关羽的场景中，模型s仿佛是看多了“劣质的国产电视剧”，画风非常奇怪。但是人物的五官真实性的确是表现出模型s目前对于细节的把握能力。

5、动物世界

模式s，提示词：非洲大草原上，一头成年长颈鹿正在树上吃着嫩绿的树叶。远处，另一头长颈鹿正缓步走来。背景是广阔的草原，天空湛蓝，几朵白云悠闲地飘过。

模式s，提示词：动物园熊猫馆内，两只成年大熊猫激烈地扭打在一起。围栏外站满了惊讶的游客，有的拿出手机正在拍摄。

模型s对于动物相关的画面，生成表现力非常好，无论是长颈鹿的身体细节，还是多个大熊猫之间的打斗动作，都显得十分真实。尤其是大熊猫相关的生成结果，假设是在短视频场景中，5秒钟看完视频就下划下一个的话，相信不会有很多人能看得出来内容是由AI生成的。

6、自然风光

‍

模型s，提示词：一朵盛开的粉红色牡丹花，一只毛茸茸的蜜蜂从远处飞来停在花朵中心。蜜蜂的翅膀微微颤动，采集花蜜。

模型s，提示词：一片茂密的森林，阳光透过树叶洒落斑驳光影。镜头下移，一条湍‍急的溪流从远处奔腾而来。

模型s对自然风光的生成效果也是令人精细。蜜蜂采蜜的结果中，无论是花朵的细节还是蜜蜂振翅的动作都尽显真实，非常像拍摄的视频上蒙上了一层高饱和的滤镜，效果非常逼真。同时在溪流穿过森林的结果中，穿透森林的阳光，溪流湍急的细节也都表现真实。可以想象，在一些自然风光的纪录片中，即使混入了这两个画面，也不会显得太违和。

7、军事科普

模型s，提示词：大型航空母舰在宽阔的海面上航行，甲板上一架战斗机正在起飞。

模型s，提示词：废墟中一辆重型坦克，炮塔缓缓移动瞄准远处的目标。一枚导弹从发射管呼啸而出。导弹击中远处的目标，产生巨大的爆炸。

军事科目类内容对物体的细节，物理常识要求较高。在航母的生成结果中能明显看到航母的甲板上有游客四处行走，停在甲板上的飞机的比例也不对，不过值得表扬的是海面和航母本身的外观则显得质量十分之高。在坦克的生成结果中，坦克的炮筒、移动的方法明显不符合物理学要求，但是坦克本身的细节和废墟的细节都十分真实。

因此，我们可以大概总结，目前模型s在物体的生成质量上的确是让人惊喜，不过仍然需要补充视频生成大模型对物理世界运行法则基本规律的认知，在结果的真实感上再进一步提升。

8、科幻电影

‍

模型s，提示词：一个荒凉而异域的星球表面，岩石遍布，植被稀疏。地平线上，三个太阳逐渐升起，大小不一，颜色各异，它们的光芒交织在一起。星球表面的光影剧烈变化。

我们也探索了现在视频生成大模型在影视行业的应用可能性，选用了在著名科幻小说《三体》中，三日凌空的这一场景。首先在场景整体的真实感上，模型s表现得不错，每种不足的是对于太阳数量和颜色的要求，模型没有精准地理解，还有可以进步的空间。

综上，此次豆包推出的模型s，在画面质量上，适合生成“环境描述类镜头”、“单人动作镜头”，尤其是在自然风光和动物世界的品类里，生成的2个cases，都表现了超乎预期的效果。但是不适合“剧场类内容”、“多人、大幅度交互镜头”，例如多人之间扔东西，羽毛球赛事等，生成结果都仍然有明显的AI感。

另外，在提示词语义理解能力上，可以明显看出模型s在自然语言理解能力上的效果提升。只不过受限于模型生成时长能力的限制（最多生成5秒的镜头），因此会出现提示词复杂，生成结果漏内容的情况。同时，对于一些“专业名词”的生成，效果也可以进一步提升。也期待未来随着技术的迭代与发展，视频生成大模型可以做到真正的理解物理世界，具备常识，可以生成更长的视频内容。

03 PixelDance模型，突破技术难关，加速拓展AI视频得创作空间和应用落地

PixelDance是基于DiT结构得视频生成大模型。通过自研的高压缩比、高还原性视频隐状态编码和解码模型，强力保证了扩散模型在隐状态空间的高效编码与运转。同时模型p能够一次性生成长达10秒的视频片段，为创作者们提供了更为广阔的创意空间和更加高效的创作工具。具体来说，模型P在语义理解能力、动效效果生成和一致性能力这三个能力项上都有更好的表现。

受限于目前模型p仍然在内测当中，只能以提供提示词和参考图的方式，让豆包的内部相关同学协助生成。因此，我们只拿到了一个提示词的实际生成结果，在下列的展示中，我们会引用豆包官方释放的部分参考样例，并在视频结果下方做出标识。

1、更精准的语义理解能力

豆包视频大模型具有更精准的语义理解能力，不同于其他过往的视频生成只能完成指令单一动作的要求。豆包视频大模型可以理解更加复杂的prompt，并精准理解语言当中动作的先后时间关系，并在视频生成结果中加以呈现。

‍

模型p，官方示例，提示词：女人微笑着低下头，镜头拉远，一个白人男人注视着这个女人。

例如在上述的例子中，豆包视频生成大模型能够准确理解提示词当中要求先出现女人微笑着低下头，再拉远镜头，给到一个白人男人的时间先后关系。

2、更强大的动态效果生成

豆包视频生成大模型的生成结果动作更灵动，镜头更多样，表情更丰富，细节更丰满。不同于以往视频生成结果更像PPT动画，豆包视频生成大模型支持变焦、环绕、平摇等超多镜头语言，给生成结果带来真实世界的体验。

模型p，提示词：镜头跟随，红色汽车在公路上前进，背景是日落。

模型p，官方示例

在第一个汽车行驶的例子中，镜头的移动更加自然，从以汽车为主体过渡到以落日为主体的镜头平移并没有其他视频生成大模型的割裂感。对于动态的人物动作，例如小女孩从汽车内走出来，也很完美地展示了汽车车门被打开，小女孩从下车到面向镜头的整体动作。

3、一致性的多镜头生成

DiT的架构让模型p具备在一个生成结果中包含多个镜头短片的能力，并且成功攻克了多镜头切换时一致性的技术挑战。可以10秒内讲述一个起承转合的故事，并保持主体、风格、氛围的一致性。

模型p，官方示例

在这个10秒的生成结果中，一共包含了3个短镜头切换，公主安睡、室外的鸟和王子亲吻公主，三个镜头的切换都保持了画风的一致，同时在镜头1和镜头3之间，公主的头发、衣服、五官也能够辨识出这是一个人，解决了其他视频生成大模型经常出现人物不一致而导致无法解决连续性故事的问题。

整体来说，从模型s到模型p，从5秒的视频生成到10秒的视频生成，技术的发展远比我们想象地要快很多。可以想见，未来，多人交互、物理逻辑、世界常识等问题得到优化后，内容领域将会有新的格局，内容的消费形态也会有新的变化。未来可期。

作者：Zheng Yi

欢迎扫码加群参与讨论

查看原图 574K