智谱AI清影大升级：4K超高清、自带BGM，“默片Sora”进入“有声电影时代”

财联社

2024-11-08 18:39发布于上海上海报业集团旗下《财联社》官方账号

全文2573字，阅读约需8分钟，帮我划重点

划重点

01智谱AI视频生成大模型产品清影迎来全新升级，具有4K超高清分辨率、60帧率、可变尺寸和多通道生成功能。

02升级后的清影可生成与画面匹配的音效，使“默片Sora”进入“有声电影时代”。

03为此，智谱推出音效模型CogSound，能根据视频自动生成音效、节奏等音乐元素。

04同时，智谱已构建独家、完善、原创的多模态模型矩阵，包括语言模型、图像生成和理解模型、视频生成和理解模型以及情感语音模型GLM-4-Voice。

05未来，智谱将继续与合作伙伴产出更好的AI生成视频工具，推动视频内容生产的发展。

以上内容由腾讯混元大模型生成，仅供参考

你用大模型制作的视频，今后也许可以“唱歌”了。

今日，智谱AI视频生成大模型产品清影迎来全新升级，升级后的清影有着高达 4K 分辨率和 60 帧率，同时具有可变尺寸，以及多通道生成，能够更好适应专业视频制作者和短视频创作者的复杂刚性需求。

最重要的一点是，用新清影制作的视频，自带音效，这也是目前市面上现有的视频生成产品，尚不具备的功能。新清影此举也意味着，“默片Sora”，从此进入“有声电影时代”。

即日起，新清影在智谱清言网页和App上线，音效功能将很快在本月上线公测。为了支持广大开发者，智谱也同时将最新的CogVideoX v1.5模型进行了开源。

“默片Sora”进入“有声电影时代”

自年初OpenAI发布Sora之后，今年大模型领域最热闹的细分赛道要数视频生成，国内AI厂商们也在加速研发迭代，一众产品在6-7月迎来发布更新潮。

就在今年的7月，智谱的生成视频模型CogVideoX上线清言App，名为清影，这是国内最早全量上线C 端、人人可用的生成视频功能。只需一段指令或图片，30秒就能生成AI视频。为影视创作带来了更多创新玩法，如广告制作、短视频、表情包梗图等。

在大模型产品能力建设上，智谱AI持续快速迭代。相较于3个月前，本次更新的清影，功能更完善，生成的视频效果，也更符合人类多元的审美和情感表达。

具体功能来看，基于CogVideoX模型的最新技术进展和智谱最新推出的音效模型 CogSound，新清影从5个方面实现了提升。

一是模型能力全面提升。在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强；更强的人物面部表演细节、动作连贯性和物理特性模拟，提高了视频的自然度和逼真度。

二是有4K超高清分辨率。支持生成 10s、4K、60 帧超高清视频，视觉体验拉到极致，动态画面更加流畅。

三是可变比例。支持任意比例的图像生成视频，超宽画幅也能轻松Hold住，从而适应不同的播放需求。

四是多通道生成能力。同一指令/图片可以一次性生成4个视频。

最重要也是最意外的，就是AI视频可以带上声效了。新清影可以生成与画面匹配的音效，这也使得当前的“默片Sora”，从此进入“有声电影时代”。据了解，音效功能将很快在本月上线公测。

最强助攻：音效模型CogSound

自Sora之后，全球对生成视频的关注达到了前所未有的高度。

从技术角度，生成视频意味着大模型对物理世界规律有较好的理解，这为具身智能、元宇宙和虚拟现实混合系统的发展开辟了新通路。

从商业化角度，生成视频将为专业影视工作者、短视频创作者提升产量、产能，变革生产流程发挥重要作用。

在技术方面，新清影的功能实现，主要采用了基于CogVideoX模型的最新技术和最新推出的音效模型CogSound，并在数据筛选、模型结构、视频理解、transformer架构和训练框架等多个方面进行了多项创新。

比如，针对内容连贯性问题，智谱自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，大大减少了视频扩散生成模型的训练成本和难度。

再比如，为解决大多现有视频数据缺乏对应描述性文本或描述质量低下的问题，智谱还自研了一个端到端的专门用于标注视频数据的视频理解模型CogVLM2-caption，为海量视频数据生成详细的、贴合内容的描述，进而增强模型的文本理解和指令遵循能力，更好地理解超长、复杂的prompt（提示词），生成的视频也更符合用户的输入。

作为这次功能更新的核心——给视频配上声效——音效模型CogSound和音乐模型CogMusic的加入，功不可没。

即将上线的音效模型CogSound，能根据视频自动生成音效、节奏等音乐元素，它是基于GLM-4V的视频理解能力，可以准确识别并理解视频背后的语义和情感，在此基础上生成与之相匹配的音频内容，甚至生成复杂音效，如爆炸、水流、乐器、动物叫声、交通工具声等。

据了解，在自然环境声音（如水流、下雨、常见动物叫声）、燃烧/爆炸声音（烟花、木头燃烧）、交通工具声音:（汽车引擎、火车、直升机）、敲击/碰撞声（乐器、键盘、风铃）、人类声音:（人群呼喊、婴儿啼哭）等方面，音效模型CogSound都有着不错的生成效果。

音效模型CogSound将于本月上线清言App，与新清影一起生成有声AI影片。在未来，用户只需要提供一个好的创意，利用AI的辅助，一个idea、一张图，就能轻松变成一段自带BGM的AI视频。

多模态，通往AGI的必由之路

过去的一年，生成视频技术在视频时长、生成速度、分辨率及一致性等方面，取得了长足的进展。随着大型模型技术的不断被攻坚，人工智能为人类的价值也开始释放。

从使用路径来看，CogVideoX生成视频模型即将同步上线清言App开放平台bigmodel.cn，据了解，即使没有编程背景的个人，也能轻松调用此工具来创作视频，这无疑进一步降低了视频创作的技术门槛。

在C端市场，生成视频工具的出现，可以极大地鼓励并推动广大C端用户积极参与到视频内容的生产中来。在当下以短视频 App 作为流量入口的互联网环境下，这一趋势将继续有力地推动UGC（用户生产内容）生态朝着更加繁荣的方向发展。

新出现的音效模型能够实现视频与音频的同时创作，不仅在普通用户中广受欢迎，在电影产业中也有着广阔的应用前景。例如，它可以高效生成电影中复杂的战斗场面或灾难场景的音效，有效缩短制作周期并减少成本。

随着生成视频功能不断朝着专业化方向进行迭代升级，其对B端客户群也将产生越来越大的影响———专业视频制作、视频内容营销、游戏、广告营销以及传媒等领域，基于这些生成视频工具，内容创作成本正在持续下降。

从长远来看，大模型多模态AI的发展预示着一个理想化的未来，理论上，从脚本创作、视频画面生成到声音和音效的制作，传统视频制作的各个步骤都可以通过大型AI模型来完成，实现全流程的自动化。这不仅是大模型多模态AI的典型应用场景，也是其工具价值的完美展现。

视频作为图像模态的再扩展，将AIGC的技术推向高潮，也让人类实现AGI的梦想，更进一步。

在智谱看来，真正的智能一定是多模态的，听觉、视觉、触觉等共同参与了人脑认知能力的形成。因此，包括文字、图像、语音和视觉等模态在内的智谱多模态大模型矩阵，能够进一步提高大模型的应用和工具能力。

智谱于2021年开始在多模态文生图、文生视频领域研发，作为最早布局多模态大模型技术的公司，当前，其已构建了独家、完善、原创的多模态模型矩阵。包括语言模型、图像生成和理解模型、视频生成和理解模型以及10月底刚刚发布的端到端情感语音模型GLM-4-Voice。

随着音效模型CogSound的加入，多模态大模型家族在声音模态方面实现了人声、音效的多链路布局，健全了智谱基于图像、视频和声音的多模态模型矩阵。

打通大模型应用的“最后一公里”，在产品能力建设上，智谱还在持续快速迭代。据了解，未来智谱将携手视觉中国等合作伙伴，基于更丰富的视觉内容，产出更好的AI生成视频工具。