智谱AI发布CogVideoX v1.5与谷歌推出Gemini驱动的Vids：AI视频生成工具最新进展

deephub

2024-11-12 09:45发布于北京

在AI视频生成领域，智谱AI和谷歌分别发布了具有重要突破的新产品。智谱AI推出开源视频生成模型CogVideoX v1.5，谷歌则发布了由Gemini驱动的AI视频制作工具Vids，两者都展示了AI视频技术的最新发展水平。

智谱AI的CogVideoX v1.5：开源视频生成新突破

智谱AI最新发布并开源的CogVideoX v1.5包含两个主要模型：CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。此次更新带来了以下重要进展：

核心功能升级

视频生成能力

支持5秒和10秒视频生成
实现768P分辨率输出
支持16帧生成能力
I2V模型支持任意尺寸比例

新清影平台特性

支持生成10秒4K、60帧超高清视频
集成CogSound音效模型
支持一次性生成4个视频的多通道输出
可生成与画面匹配的音效

技术优化

开发自动化筛选框架过滤不良视频数据
推出CogVLM2-caption端到端视频理解模型
采用高效的三维变分自编码器（3D VAE）技术
优化文本和视频的交互效果

谷歌Vids：Gemini驱动的智能视频制作工具

谷歌推出的Vids是一款面向普通用户的AI视频制作应用，由其Gemini AI模型提供支持。产品具有以下特点：

主要功能

内容创作能力

支持文字提示直接生成视频
可导入Google Drive文档自动转换
自动生成场景、脚本和推荐媒体素材
智能匹配背景音乐

制作工具

提供多样化视频模板
支持动画和转场特效添加
内置免版税素材库
支持导入Google Drive和Google Photos资源

语音与录制功能

支持Gemini AI语音旁白
配备滚动式提词器
支持视频录制和屏幕录制
提供纯音频录制选项

协作特性

支持浏览器中实时协作编辑
提供组织内部安全分享机制
与Google Workspace深度整合

应用场景

两款产品的发布为不同场景提供了AI视频解决方案：

CogVideoX v1.5

专业视频内容创作
高质量视频生成研究
自定义视频开发应用

Google Vids

帮助中心教学视频
企业培训材料
公司公告制作
会议总结回顾

这两款产品的发布显示了AI视频生成技术在不同应用方向的最新进展，为专业开发者和普通用户都带来了新的内容创作选择。