豆包启动视频生成功能内测,可保持多镜头一致性

日前有消息显示,字节跳动旗下AI智能助手豆包正在内测视频生成功能。据称,该功能具备“文生图”和“图生图”能力,支持动态运镜,还可选择不同的风格和比例,并且其所生成的视频可保持多镜头一致性。

图片

此前在今年9月的AI创新巡展上,字节跳动方面就正式发布了豆包视频生成-PixelDance和豆包视频生成-Seaweed两款模型。据官方透露,豆包视频生成模型是基于DiT架构打造,通过高效的DiT融合计算单元,让视频可在大动态与运镜中自由切换,同时还拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。值得一提的是,其采用全新设计的扩散模型训练方法,攻克了视频生成中的多镜头切换一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

而得益于深度优化的Transformer结构,豆包视频生成模型的泛化能力也十分出色。具体而言,该模型可生成3D动画、2D动画、国画、黑白、厚涂等多种风格的视频,能够适配电影、电视、电脑、手机等各种设备的比例。不仅如此,经过剪映、即梦AI等业务场景打磨和持续迭代,这一模型还具备专业级光影布局和色彩调和能力,生成画面视觉也极具美感和真实感。

目前,豆包视频生成-PixelDance、豆包视频生成-Seaweed两款模型均已在火山引擎开启企业邀测,并且也在即梦AI内测版开启小范围测试,后续将逐步开放给所有用户。

图片

此前在今年8月,豆包还上线了音乐生成功能,并提供流行、摇滚、R&B、爵士、雷鬼、电音等11种音乐风格,还可选择男声或女声演唱,并且其生成的声音在吐字清晰度和流畅性上表现良好。为了让AI音乐更好地贴合用户的情感表达,其还预设有快乐、伤感等11种情绪状态。

据火山引擎方面透露,在产品能力日益完善的同时,豆包大模型的使用量也在极速增长。截至今年9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时增加十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

【本文图片来自网络】