豆包启动视频生成功能内测，可保持多镜头一致性

三易生活

2024-11-07 18:42发布于湖北三易生活官方账号

日前有消息显示，字节跳动旗下AI智能助手豆包正在内测视频生成功能。据称，该功能具备“文生图”和“图生图”能力，支持动态运镜，还可选择不同的风格和比例，并且其所生成的视频可保持多镜头一致性。

此前在今年9月的AI创新巡展上，字节跳动方面就正式发布了豆包视频生成-PixelDance和豆包视频生成-Seaweed两款模型。据官方透露，豆包视频生成模型是基于DiT架构打造，通过高效的DiT融合计算单元，让视频可在大动态与运镜中自由切换，同时还拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。值得一提的是，其采用全新设计的扩散模型训练方法，攻克了视频生成中的多镜头切换一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。

而得益于深度优化的Transformer结构，豆包视频生成模型的泛化能力也十分出色。具体而言，该模型可生成3D动画、2D动画、国画、黑白、厚涂等多种风格的视频，能够适配电影、电视、电脑、手机等各种设备的比例。不仅如此，经过剪映、即梦AI等业务场景打磨和持续迭代，这一模型还具备专业级光影布局和色彩调和能力，生成画面视觉也极具美感和真实感。

目前，豆包视频生成-PixelDance、豆包视频生成-Seaweed两款模型均已在火山引擎开启企业邀测，并且也在即梦AI内测版开启小范围测试，后续将逐步开放给所有用户。

此前在今年8月，豆包还上线了音乐生成功能，并提供流行、摇滚、R&B、爵士、雷鬼、电音等11种音乐风格，还可选择男声或女声演唱，并且其生成的声音在吐字清晰度和流畅性上表现良好。为了让AI音乐更好地贴合用户的情感表达，其还预设有快乐、伤感等11种情绪状态。

据火山引擎方面透露，在产品能力日益完善的同时，豆包大模型的使用量也在极速增长。截至今年9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首次发布时增加十倍，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

【本文图片来自网络】

查看原图 59K