拿下近3亿元融资后,爱诗上线新模型,AI视频生成速度杀入10秒大关

全文4610字,阅读约需14分钟,帮我划重点

划重点

01爱诗科技发布新一代视频模型PixVerse V3.5,主打生成速度快、运动控制强,动漫和动画效果行业领先。

02与Sora相比,PixVerse V3.5的生成速度更快,最快可达5秒,等待时间不超过10秒。

03除此之外,PixVerse V3.5在运动控制方面有所提升,虽遇体操运动仍能避免翻车。

04同时,PixVerse V3.5支持多分辨率,包括720P、1080P和4K分辨率,画质高清细腻。

05除此之外,PixVerse V3.5还具备丰富的特效玩法,如首尾帧功能、节日特效等,降低影视创作门槛。

以上内容由腾讯混元大模型生成,仅供参考

机器之心原创
作者:杨文

我们实测16个Prompt:生成速度比Sora还快,动漫效果行业SOTA。

前段时间,AI 毒液特效爆火,迅速攻占抖音小红书。

而想出这个「鬼点子」的正是爱诗科技。

他们把自家视频模型 PixVerse V3 和电影《毒液:最后一舞》进行联动,搞出了这一热门玩法。

图片

此外,在 SuperCLUE 12 月文生视频测评结果中,PixVerse V3 综合能力更是吊打 Sora。

图片图片来源:https://mp.weixin.qq.com/s/yOkK5jG3D9d5xllqbUFDRA

短短一个月,火爆全球的 PixVerse 母公司又发布了新一代视频模型 ——PixVerse V3.5。

该模型主打一个生成速度快、运动控制强,动漫和动画效果还拿下行业第一。
先奉上几个视频给大家一眼。

视频来自 X 博主 @aziz4ai:

https://x.com/aziz4ai/status/1872614428598014298

还有网友称这绝对是市场上最好的「图片转视频」模型。

图片


高清视频来自 X 博主 @vladimircherner:

https://x.com/vladimircherner/status/1872978258444120224

自今年 1 月 PixVerse V1 版本上线以来,爱诗科技平均每 2-3 个月就有大的模型升级。

其中既有底层模型能力的提升,也有新功能的增加和用户界面的优化。

接下来,我们就来个全方位测评,看看 PixVerse V3.5 究竟进化到何种程度了。

PixVerse 官网链接:https://app.pixverse.ai/

10 秒跑出一个视频

在这个用户体验至上的时代,AI 视频缓慢的生成速度无疑是让用户抓狂的「罪魁祸首」之一。

PixVerse V3.5 就在速度上卷出了新高度,据说是全球首个接近实时生成的高质量 AI 视频模型。

官方称,使用 turbo 模式和分辨率较小的图片进行视频生成,等待时间不超过 10 秒,如果各方面条件给力,它能达到最快 5 秒的生成速度。

为了测评这一点,我们专门掐了下秒表。

以外国老头喝茶看电脑这张梗图为例。我们选择 turbo 模式并使用「圣诞战袍」特效,PixVerse 仅需 7 秒左右的时间即可搞定。

图片

头发花白、一本正经的老头立马换上清凉圣诞装,秒变肌肉男。

图片

AI 视频的生成速度是衡量性能的关键指标之一,因为它直接影响着用户体验和创作效率。

试想当你打开 AI 视频生成应用,急需快速处理任务时,却不得不面对漫长的排队等待,以及像乌龟爬一样的生成速度,这无疑会大大影响创作热情。而 PixVerse V3.5 的出现,恰好解决了这两大痛点。

此外,不同的应用场景对生成速度也有着不同要求。

在直播、游戏等实时互动场景中,快速生成是必不可少的刚需;影视制作虽然对速度要求不那么苛刻,但提升生成效率依然能显著改善工作流程。

因此,PixVerse V3.5 此番提速,势必会为内容创作开启更多可能性。

运动控制强

一直以来,精确的运动控制都是 AI 视频的短板。

只要幅度变大,动作就会扭曲变形,即使是 Sora、Veo2 也免不了翻车。

图片Veo2 的生成效果

PixVerse V3.5 在运动控制方面下了大功夫,虽然遇到体操运动仍容易出 bug,但与上一代相比已经有了长足的进步。

比如我们让它生成一段啦啦队成员进行蹦床运动的视频。

女孩们跳跃的同时双手开合,动作整齐划一,没有出现不自然的扭曲或变形。女孩飘扬的头发、蹦床的凹陷等细节 PixVerse V3.5 也处理得很逼真。

要知道,蹦床运动是一个技术、艺术和物理规律的综合体。

它涉及重力、弹力等物理现象,还涉及多主体动作的协调性,这对于 AI 来并非易事。

Prompt:一群啦啦队成员在蹦床上跳。

在下面这则小男孩奔跑的视频中,虽然生成的是慢镜头,但运动幅度大,小男孩也没有出现左右腿不分、动作诡异的情况。

虚化的背景、荡起的发丝、泛起的尘土也都让画面更加真实。

图片Prompt:一个小男孩正在操场跑步。

我们使用它的图生视频功能,试试经典的吃面镜头。

上传一张「皮衣刀客」黄仁勋的图像,输入 Prompt:这名男子正拿着叉子吃意大利面。

PixVerse V3.5 完美刻画了从叉子夹面到入口、咀嚼、吞咽的连贯动作,同时精准呈现了颈部的自然筋纹和皮在灯光下的细腻光泽变化。

图片

画质高清细腻

PixVerse V3.5 还是个细节控,很擅长处理光影、纹理以及人物的面部表情等。

同时,它支持多分辨率,720P、1080P,甚至还可以升级为 4K 分辨率。

比如一名时髦的女士走在繁华的大街上,画面很有电影感。

女人微笑的表情、行走的动作以及衣服的褶皱都很自然逼真,就连背景中的行人也几乎找不出什么问题。

Prompt:一名中年妇女行走在纽约的大街上。

PixVerse V3.5 不仅能完美还原真实场景,在非现实画面的创作中也同样表现惊艳。

西装革履的金毛煞有介事地敲着打字机,那蔫头耷脑的模样,很有当代打工人的牛马感。

Prompt:一只穿着西装的狗,正在老式打字机上打字。

穿着厨师服装的小狗手拿铲子摊煎饼,虚化的厨房背景中摆着各式各样的厨具、炉灶,细节满分。

Prompt:一只穿着厨师服装的狗在做煎饼。

不得不说,它生成的怪物史莱克简直和动画电影中一模一样,毛衣的针织纹理也清晰可见。为了体现麦当劳这一场景,咖啡杯上特意印着大大的 Logo。

Prompt:怪物史莱克在麦当劳喝咖啡。

我们再来看看它对于复杂提示词的理解能力。

Prompt:low-angle tracking shot, 18mm lens. The car drifts, leaving trails of light and tire smoke, creating a visually striking and abstract composition. The camera tracks low, capturing the sleek, olive green muscle car as it approaches a corner. As the car executes a dramatic drift, the shot becomes more stylized. The spinning wheels and billowing tire smoke, illuminated by the surrounding city lights and lens flare, create streaks of light and color against the dark asphalt. The cityscape – yellow cabs, neon signs, and pedestrians – becomes a blurred, abstract backdrop. Volumetric lighting adds depth and atmosphere, transforming the scene into a visually striking composition of motion, light, and urban energy.

(低角度跟踪拍摄,18 毫米镜头,汽车漂移,留下光线和轮胎烟雾的痕迹,创造出视觉冲击力极强的抽象构图,摄像机低角度追踪拍摄,捕捉这辆橄榄绿色的时尚肌肉车驶近弯道的瞬间,随着汽车急速漂移,镜头变得更加风格化,在周围城市灯光和镜头光晕的照射下,旋转的车轮和滚滚的轮胎烟雾在漆黑的沥青路面上形成了光与色的交错,城市景观 —— 黄色出租车、霓虹灯和行人 —— 成为一个模糊的抽象背景。体积光增加了画面的深度和氛围,将这一场景转化为一个由运动、光线和城市活力构成的视觉冲击。)

面对这一长串的文本描述,PixVerse V3.5 几乎实现了每一个细节:低角度跟踪镜头、轮胎烟雾,橄榄绿的车身、城市中闪烁的霓虹灯以及穿梭的黄色出租车…… 即便在高速运动场景中,画面依然清晰稳定。

其电影级的镜头语言、光影效果和动态表现,不禁让人想到《速度与激情》的经典画面。

Prompt:A massive, terrifying monster appears among the skyscrapers in a dystopian city under a stormy night sky. The creature has glowing red eyes, sharp claws, and reptilian scales. Lightning flashes illuminate the dark cityscape, Helicopters circle in the background, while panicked citizens watch from the streets below. The atmosphere is tense, with a cinematic mix of chaos and awe .

(在狂风暴雨的夜空下,一个巨大、恐怖的怪物出现在一个乌托邦城市的摩天大楼之间。这只怪物有一双闪着红光的眼睛、锋利的爪子和爬行动物般的鳞片。闪电照亮了黑暗的城市景观,直升机在背景中盘旋,而惊慌失措的市民则在下面的街道上观望。气氛紧张,混乱与敬畏交织在一起。)
PixVerse V3.5 生成的画面极具张力,怪物可怕的形象让恐怖氛围拉满,远处的闪电划破夜空照亮整个城市,形成强烈的光影对比。

动画效果一流

PixVerse V3.5 不仅擅长写实风格,在动画创作上表现也很出色。

只需输入提示词,就能直出日漫、3D 动画等多种风格,画面精美,丝毫不输专业的动画制作软件。换句话说,其动画效果已跻身行业顶尖水平。

Prompt:A cinematic shot, old Hollywood era musical. A group of tap dancing hamsters dance across a busy Christmas high street. light mist, light snow falling, 3D Animation.

(电影镜头,老好莱坞时代的音乐剧,一群仓鼠在繁忙的圣诞大街上跳着踢踏舞,轻微的薄雾,轻微的雪花飘落,3D 动画。)

图片

生成的画面中,大街上张灯结彩,各种圣诞元素拉满。拟人化的小仓鼠有节奏地跳着舞。

即使在多主体的情况下,PixVerse V3.5 仍能保持动作协调一致,画面没有出现虚化闪帧变形等问题。

Prompt: A meeting of a lion, a bear and a giraffe, all of them wearing suits,Disney style(穿着西装的狮子、熊和长颈鹿开会,迪士尼风格。)

图片

PixVerse V3.5 巧妙地抓住了迪士尼动画的特点,角色表情丰富且夸张,毛发、服装以及环境的光影效果,都力求逼真和生动,配色也很舒服。

更有意思的是,角色边指手画脚边侃侃而谈的场景可太像打工人开会了。

我们再来试试图生视频的风格化。

上传一张美漫风格的图片,输入 Prompt: Two cars are engaged in a chase.

图片

PixVerse V3.5 延续画面风格特征,让静态图片瞬间动起来。两辆汽车在街道上演追逐大戏,一路火花带闪电,镜头也能随着汽车而移动,变换不同的城市场景。

图片

它还能生成黑白动漫风。这种风格强调线条和对比,PixVerse V3.5 使用粗犷的线条勾勒出人物和环境,并利用黑白对比增强视觉冲击力。

天空飘落的雨丝、男人六亲不认的步伐都让画面更加生动。

图片图生视频。Prompt:The man walks to a car in a rainy night.

此外,它还能在画面字体不出现乱码的情况下,让四个角色同时动起来,而且姿势各异。

图片图生视频。Prompt:Four assassins take up fighting stances.

进阶玩法

除了模型升级外,PixVerse 还有更多进阶玩法。

比如新增首尾帧功能。我们上传两张 AI 生成的写实照片作为视频的首帧和尾帧,PixVerse 以此生成一段连贯的视频。

图片


图片

上效果:
图片

它还赶在圣诞节前夕上线了一堆节日特效。

比如「圣诞礼物盲盒」特效,只需上传一张图片或视频,输入「我想要……」的提示词即可。

图片

来看看效果:

图片

以及「万物皆可羊毛卷」特效,随便上传一张梗图,就能秒变卷发。

图片

截至目前,它已经上线了 27 种特效,其中比较出圈的就有「成为肌肉猛男」、「爱的抱抱」、「扫射一切」等。

图片

一番实测下来,我们可以清晰地看到 PixVerse V3.5 的进步。秒级生成速度为内容创作带来前所未有的流畅体验,精准的运动控制让高难度动作不再「变形」,细腻的画质表现更是将每一帧都打磨成了电影级画面。

更令人惊喜的是,它在写实与动画两个领域都展现出强大的驾驭能力,再配合丰富的特效玩法,极大地降低了影视创作门槛。

大家也快去体验一波吧。