小米开源视频配音模型ControlFoley,声音想怎么配由你决定
币界网
2026-05-29 18:49
发布于广东
币界网消息,小米大模型应用团队发布并开源视频音效生成框架ControlFoley。该模型的重点是「可控性」,能够根据画面配音,也能接受文字描述或参考音频,让声音按创作者意图生成。ControlFoley采用基于cav-mae改造的时空音视频编码器,并引入「时间-音色解耦」策略,确保声音与画面同步。该模型在多个常规视频配音测试中达到开源SOTA水平,项目的技术报告、代码、模型权重和demo均已开放。