打开通义万相的官网,已经可以看到视频生成模型已经更新到了最新版本2.1了
目前这个最新模型已经全面开放,普通人注册登录之后就可以尝试生成。一个文生视频生成需要耗费5个灵感值。但是只要你签到之后,会送你50个,一天相当于可以让你免费生成10个视频。
但是目前生成视频还是比较慢,一般来说一个视频需要等个5-7分钟左右。
在官方给出的新模型效果上看,其在VBench的榜单上排名第一。这个视频生成榜单 是一个用于评估和比较视频生成模型性能的综合基准测试工具,由 VBench 团队开发并在 CVPR 2024 发布。
VBench 将视频生成质量分解为 16 个综合维度,包括但不限于视频的清晰度、连贯性、时序一致性和多样性等。这些指标可以全面揭示每个模型的性能强项与短板。
从图中可以看到,Wanx 2.1 模型在多个指标上表现突出,其总分(Total Score)取得了最高的84.70%,在质量分(Quality Score)上则获得了85.64%,表明其在视频生成的质量维度上表现优异,接近其他顶级模型。而在语义分(Semantic Score)上达到80.95%,说明其在语义一致性方面表现稳定,反映其生成视频在语义相关性上的良好表现。最后在主观评分极高,说明在用户或专家的直观评价中得到了高度认可。
通义万相优势
要知道,目前国内国外其实已经有很多视频生成模型,像国内的可灵、海螺、即梦、Vidu,还有国外的sora、luma、pika等视频生成模型都能够生成符合物理世界规律的视频。但是有一个问题在于其不能够在视频中生成中文。
而这一次通义万相2.1新版本,则克服了视频中不能生成中文的缺点,第一次能够有效控制中文的生成。
比如下面这个视频,可以很精细的生成“可可”这两个字体,并控制手指上的移动位置:
另一个优势在于,它能够在复杂稳定的控制肢体运动的生成。
有人说,想要检验一个视频生成模型是否成功,可以去让它生成“体操”视频。这就是相当于AI视频的“图灵测试”。
在大部分AI体操视频生成中,扭曲的肢体、不协调的动作满屏皆是。
这背后反映了复杂肢体运动生成的挑战性。由于涉及精细的动作细节和高水平的协调性,这类任务已经成为衡量 AI 视频生成能力的重要标杆。
生成一个复杂的人物运动场景,对于 AI 来说犹如破解一项物理难题——它不仅需要确保身体各部位的精准配合与四肢的协调,还需综合考虑重力作用、人体运动特性和平衡感等多方面的细节。
在最新的升级版本中,通义万相 2.1 展现了令人惊叹的「运动天赋」。
无论是滑冰、游泳,还是跳水等极具挑战性的场景,万相 2.1 都能稳稳驾驭。从生成效果来看,模型未出现任何诡异的肢体动作或不符合物理规律的情节,让人眼前一亮。
就拿这个跳水动作来说,完全展现出了专业级选手的风采。从肌肉的精准控制到入水时溅起的水花,每一个细节都高度符合自然规律。不仅动作流畅自如,整体协调性也堪称完美,令人难以相信这是 AI 自动生成的结果。
从体验效果上看,通义万相对于不同的风格都能够很好的hold住。影视质感与艺术风格,一键转换
电影级色调融合印象派笔触与抽象表现,强大的艺术风格表现力不仅能稳定生成多种风格视频,还能精准还原影视级画面的质感与细节。
Prompt:哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在古老的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与紧张的氛围。近景动态骑马场景。
模型架构
万相的模型架构还是来自于DIT架构,这个架构早已经成为各家各户视频生成模型的基础架构。
精准理解和模拟物理世界,是当前视频生成模型面临的核心挑战。现有模型在处理大幅运动或物理复杂场景时表现不佳,常常生成肢体扭曲或违背物理规律的画面。为解决这一问题,通义万相 2.1 引入了自主研发的视频 VAE(变分自编码器)和 DiT(Diffusion Transformer)架构,大幅提升了时空上下文关系的建模能力。
具体而言,VAE 通过将视频划分为若干块并缓存中间特征,实现了对超长 1080P 视频的高效编解码,支持生成无限长度的高清视频。而 DiT 则通过时空全注意力机制和参数共享机制,显著提高了生成质量和训练效率。
这种架构设计不仅解决了传统模型在复杂场景下的表现瓶颈,还为生成高质量、物理一致性强的视频开辟了新的路径。
写在最后
2025年刚刚开始,通义就发布了如此重磅级的AI模型,确实让人眼前一亮。很多人都说2025年将会是AI应用大爆发的一年。随着技术的不断进步,AI 在多个领域的潜力逐渐显现,尤其是在视频生成、自然语言处理、智能驾驶和医疗影像分析等方面,都达到了前所未有的高度。像通义万相 2.1 这样先进的模型,凭借强大的生成能力和更贴近真实的表现,正在逐步改变传统行业的工作方式和用户体验。
越来越期待今年的AI能够给普通人带来更多的便利和创新~
推荐阅读