腾讯混元视频生成大模型对外开放,并全面开源

图片

12月3日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后的又一新举措。腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。

用户只需要输入一段描述,即可生成视频,生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。

据腾讯混元的多模态生成技术负责人凯撒介绍,目前视频生成的开源生态差距比较大,最大的问题在于:图像生成的算力和数据消耗与视频是数量级之间的差距,因此,“大家不太有信心或者不太想把自己花这么多成本的模型开源出来给大家用。混元属于后发的模型,前面领先的很多机构目前还是一个闭门造车的状态,有最好的模型大家也没有用起来。”

“视频生成特别是文生视频领域成熟度远没有大家想象的那么高,失败率很高,抽卡太多了。这个技术程度至少在我们内部评估还没有到大规模商业化的程度,还在技术打磨阶段。在这个阶段里,我们对外开源的操作,也是希望跟社区一起,把技术早日推向像图像生成这种真正可用的状态。”凯撒说道。

从年初以来,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。(文/赵小天 编辑/李不清)