在AI视频生成领域,智谱AI和谷歌分别发布了具有重要突破的新产品。智谱AI推出开源视频生成模型CogVideoX v1.5,谷歌则发布了由Gemini驱动的AI视频制作工具Vids,两者都展示了AI视频技术的最新发展水平。
智谱AI的CogVideoX v1.5:开源视频生成新突破
智谱AI最新发布并开源的CogVideoX v1.5包含两个主要模型:CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。此次更新带来了以下重要进展:
核心功能升级
视频生成能力
支持5秒和10秒视频生成
实现768P分辨率输出
支持16帧生成能力
I2V模型支持任意尺寸比例
新清影平台特性
支持生成10秒4K、60帧超高清视频
集成CogSound音效模型
支持一次性生成4个视频的多通道输出
可生成与画面匹配的音效
技术优化
开发自动化筛选框架过滤不良视频数据
推出CogVLM2-caption端到端视频理解模型
采用高效的三维变分自编码器(3D VAE)技术
优化文本和视频的交互效果
谷歌Vids:Gemini驱动的智能视频制作工具
谷歌推出的Vids是一款面向普通用户的AI视频制作应用,由其Gemini AI模型提供支持。产品具有以下特点:
主要功能
内容创作能力
支持文字提示直接生成视频
可导入Google Drive文档自动转换
自动生成场景、脚本和推荐媒体素材
智能匹配背景音乐
制作工具
提供多样化视频模板
支持动画和转场特效添加
内置免版税素材库
支持导入Google Drive和Google Photos资源
语音与录制功能
支持Gemini AI语音旁白
配备滚动式提词器
支持视频录制和屏幕录制
提供纯音频录制选项
协作特性
支持浏览器中实时协作编辑
提供组织内部安全分享机制
与Google Workspace深度整合
应用场景
两款产品的发布为不同场景提供了AI视频解决方案:
CogVideoX v1.5
专业视频内容创作
高质量视频生成研究
自定义视频开发应用
Google Vids
帮助中心教学视频
企业培训材料
公司公告制作
会议总结回顾
这两款产品的发布显示了AI视频生成技术在不同应用方向的最新进展,为专业开发者和普通用户都带来了新的内容创作选择。