1亿用户之后,爱诗科技给短剧行业专门做了一个新模型:PixVerse C1

问AI · 爱诗科技布局多模型,C1如何推动影视工业化?

短剧自习室统计的AI短剧3月数据显示,抖音端AI短剧单月新增播放量TOP50榜单上,AI真人短剧数量高达43部,占比86%。

AI真人类内容份额的提升,释放了一个信号:AI生成内容不再是边缘化的科技奇观,而是正在成为短剧供给端的重要生产力;观众也不再介意“是不是AI做的”,只关心“好不好看”。

这也意味着,影视工业化的大门,正在被AI推开。而市场需求的爆发,也加速了底层模型的更新和相关厂商的布局。

今天,3月31日刚上线PixVerse V6的爱诗科技发布新模型PixVerse C1,同步上线Web端和API平台——据悉,该模型是爱诗科技自主研发的全球首个影视行业大模型,聚焦于短剧、动漫、影视等内容的生成需求。

短剧自习室进一步了解到,与V系列通用模型不同,C1是独立训练的垂直行业大模型,针对影视、短剧等场景进行了专项优化,在打斗动作、术法特效、多宫格分镜等场景效果方面实现突破。

图片

(截图自PixVerse官网)

站在生态的角度来看PixVerse C1,其定位值得留意,或将是下一轮AI模型的竞争要地:吸引真正做影视内容生产的用户群体,真正走进影视生产核心流程,真正完成从“玩具”到“工具”的蜕变,成为PS之于设计圈一般的存在。

图片

  术业有专攻,PixVerse C1瞄准的是影视工业化  

简单来说,影视工业化是从手工作坊到标准流水线的过程。

它不否定创意的重要性,但更强调创意在落地过程中的可复制、可控制、可预期,不同工种之间可以高效协作,方方面面的成本能被更好地估算和管理。

最直接的表现就是,导演想要一个法术对轰的特效,团队能理解导演脑子里想的是什么场面并尽可能稳定做出来,而不是每次都抽卡碰运气。

这也是PixVerse C1瞄准的方向:把AI从不可控的灵感工具,变成可嵌入标准流程的生产环节。

就拿其多宫格分镜直出的功能来说——

提前准备一张多宫格的分镜图拼图,并在PixVerse C1模型的“参考”模式中,上传图片,选好分辨率、画幅宽高比、时长,点击“生成”,就可以坐等一键出片了。

目前,该功能支持3-9宫格的分镜拼图,拼图顺序代表了分镜顺序。就测试结果来说,不需要每次都凑够9个分镜图,其在补齐分镜方面的表现相当不错。

图片

(相关动图)

来看看成片效果:

整体的分镜衔接非常流畅,古树有花瓣飘落,女主角端坐在一根枝桠上,衣袂飘飘,妆造和上传的分镜图基本一致;随着镜头拉近,女主角的表情、遥望的远方逐一呈现。过程中的场景光影、花瓣动态,都符合分镜的预期。

同时,AI自己理解的运镜也到位,先是一个古树全貌的大远景,镜头拉近之后,环绕着主角的侧身、面部特写,最后顺着角色眼神展现人物远望的景色,组成了一段完整的镜头,基本可以弥补小白创作者在专业影视制作上的短板。

 该图片可能由AI生成图片(短剧自习室用PixVerse C1制作的AI视频片段)

不知道大家有没有发现,我们在测试这个功能的时候,只上传了多宫格分镜图,并没有写任何提示词。

这意味着,只要分镜图对了,导演脑海中的创意不再需要经过“口头/字面描述→手绘线稿→动画师逐帧生成”的长链条,而是直接在模型层就能实现可视化落地。传统流程中需要数天甚至数周的动态预演,被压缩到一次生成的时间里。

更广泛来说,编剧也能直接参与视觉内容的生产,网文公司可以缩短视觉化的验证周期,将海量IP快速转化为AI短剧,或者生成展示故事线的PV,提前测试市场反应、降低改编风险。

同时,这一功能也相对锁死了生成的确定性:分镜怎么排,视频就怎么动,运镜不用操心,人物也不会频繁变脸,减少无效的积分消耗。

这正是影视工业化需要的——不是偶尔惊艳的“神之一手”,而是可预期、可复用、可嵌入流水线的生产力,指向的是一个让AI真正听懂创作者语言的未来。

图片

  影视级表演的硬骨头,被垂直模型啃下来了  

影视工业化,并不只是“跑通流程”,其终极命题是内容质量的稳定输出

正如网络大电影和院线大片一样,都是工业化影视体系出来的产品,但后者在视觉效果方面远超前者,这与投入的成本有莫大关系——但有了AI之后,这个门槛一定程度上被抹平。

工业化要解决的核心矛盾在于:如何在批量生产的前提下,依然把控住“质感”这条线。而这,正是垂直模型最难啃、也最值得啃的骨头。

PixVerse C1的解决方案是针对工业化痛点做专项优化,进一步强化打斗动作和术法特效、提升角色情绪表达和多人对话口型匹配的精准度。

比如在传统影视中常常要燃烧经费的科幻战斗场面,搭棚置景,吊着威亚的演员满天飞,灯光、武指、场务等等一个剧组的人全程待命,后期特效更是手搓得冒烟。

如今,在PixVerse C1模型的文生视频中,一段简短的提示词,便可以一键生成一段分镜成片,剧组的能力全部集成在平台里:

科幻枪战,未来都市,双方身穿机械装甲,手持能量武器,枪战在悬浮建筑间展开,能量光束交错,爆炸时有粒子特效,建筑碎片飞溅,镜头采用广角视角,展现宏大场景和科技感。

图片

(相关动图)

从一键成片的效果看,动作流畅度、打击感、运镜节奏都符合想象,大场面调度能力甚至超出预期:既能补充角色开枪的特写镜头,也能保持多人混战、追逐等复杂场景里角色空间关系的相对稳定,最后的粒子特效还足够壮观。

要知道,传统影视的很多粒子特效都需要通过编程技术模拟物理动态来生成,《哪吒2》中的不少单镜头缓存量高达10T。虽然AI一键生成不能与《哪吒2》的精细程度相提并论,但一句提示词、几分钟产出的性价比还是拉满。

 该图片可能由AI生成图片(短剧自习室用PixVerse C1制作的AI视频片段)

除了科幻,古装玄幻的特效也常常是成本大头,妆造、特效、场地,哪哪都要钱。

但如果AI能够生成人物自然、法术生动的内容呢?我们在PixVerse C1中输入了下面这段提示词:

一位亚洲男性和一位亚洲女性,都身着古装,在半空斗法,一人用火球术,一人用雷法,两人飞速靠近,但不要相碰,到合适距离的时候两人各自伸手指向对方,法术碰撞,要求展现法术碰撞的粒子效果、符合物理的发丝飘动、子弹时间运镜,人物保持静止,仅摄影机高速环绕并推至特写,捕捉人物的冷厉神情。

 该图片疑似AI生成图片

(相关动图)

依然是一键成片——

从视觉效果上看,运镜完全呈现了提示词的要求,从环绕到特写,把人物斗法时的场面完全“拍摄”出来了。

同时,法术的特效与人物动作、光影、招式精准匹配,细致到衣带发束、甚至头发丝都完美融合到这段“表演”中,仿佛用上了真人短剧剧组的鼓风机。

更值得一提的是,我们在提示词中只简单写了法术的名称,但火球术和雷法到底应该长什么样,我们并不清楚,也没法用提示词详细描述,AI却能够识别出来并生成相应的特效。

据悉,这得益于PixVerse C1针对短剧中常见的法术、技能、系统界面等特效元素进行专项优化,搭建出高频术法特效库,包含了火球术、雷法、剑诀、阵法、渡劫天雷、系统面板等数十类模板。

如此一来,更多创作者的制作门槛被进一步拉低,只需要专注于讲好故事,特效的表达、成本都有AI解决了。

 该图片可能由AI生成图片(短剧自习室用PixVerse C1制作的AI视频片段)

我们还测试了PixVerse C1的角色情绪表达能力

在所有影视元素里,“人”的微表情、眼神变化、呼吸节奏是传递情绪、情感的最小单位,也恰恰是决定一场戏“真不真”的核心,是工业化影视能够打动观众的要点。

为了尽可能试探出PixVerse C1在这方面的表现,我们设计了一个极度依赖微表情和肢体语言的场景:

全景,一位亚洲女性,倚着门框,向远处张望,眼神空洞;近景,她仿佛看到了什么,身体站直起来,一手扶着木门,眼睛微微睁大,眼神灵动起来,眉毛轻抬,表情自然惊讶,不夸张,展现出瞬间的意外感;特写,她看清楚来人,眼中噙满泪水,但倔强地未落下,嘴角微微下压,面部肌肉紧绷,肩膀微微颤抖,身体微微蜷缩

 该图片疑似AI生成图片

(相关动图)

成片效果相当惊艳,提示词的要求全都照做,仿佛真人演员按照剧本完成表演,神态从萎靡到震惊,手自然扶上门框,身体借力站直,眼球转动,眼眶泛红,呈现了教科书般的标准“演技”。

理论上,让角色“说哭就哭、说笑就笑”,应当是AI的基本功。但在行业早期,不少模型、工具都不约而同地卷特效,忽略了人物的“表演”,因此形成了AI表演生硬、“不走心”的刻板印象。

而AI发展到现在,模型能做到的效果或许已经超出很多人的想象。就拿PixVerse C1来说,支持10+种基础情绪以及细粒度的微动作控制,也支持通过提示词补充人物微动作,如点头、皱眉、眨眼等。

 该图片可能由AI生成图片(短剧自习室用PixVerse C1制作的AI视频片段)

综合上述实测,除了极少量镜头出现bug和相对公式化的角色特写,PixVerse C1在特效、动作与表演三个极考验质感的维度上,基本上都交出了超预期的答卷。

它用垂直行业数据的专项训练,把过去需要庞大剧组、昂贵特效团队、漫长后期才能堆出来的视觉冲击力,压缩到输入提示词的一键生成操作中。这对于追求工业化稳定输出的影视团队来说,相当于把大片感的制作门槛打了下来。

图片

  打造PixVerse C1,爱诗科技再次提前落子  

可以肯定,AI完全有能力融入影视工业,只是真正为业内定制的垂直模型还不够多。

因此,率先提出这一概念并落地的PixVerse C1是一个很好的研究案例,也让人不禁好奇,打造这款模型的幕后公司——爱诗科技,究竟在下一盘怎样的棋?

这并非爱诗科技第一次进入大众视野。

在技术层面,爱诗科技多次展现出对行业发展路线的预判,从其推出的系列AI模型可见一斑。

目前,爱诗科技已经上线了三个系列的AI模型:

V系列是通用视频生成旗舰模型,为其他系列模型提供底层支持,面向的是更广泛的创作场景。比如最新一代的PixVerse V6,在人物真实感、复杂运动、物理模拟与声画协同等方面全面升级,这些都在C1中有更加细致的体现。

R系列是实验性质很重的世界模型作为全球首个通用实时世界模型,PixVerse R1发布于大众尚未真正意识到世界模型潮流开始的1月,目前已有近百万月活,本月又上新数字分身功能,进一步加强互动体验。

C系列是影视工业赛道的垂直模型,聚焦于影视工业化中的具体痛点,并进行专项优化,能够把V系列深入运用到特定领域,吸引更加明确的细分用户群体。

这样的布局,无疑能让爱诗科技同时兼顾接地气的多层次获客,又不会落下前沿技术探索。官方信息显示,PixVerse累计用户规模已突破1亿,为其探索下一代互动视频产品提供了坚实的用户基础。

图片

(图源:爱诗科技Alspheret)

在商业化层面,除了B、C两端的用户,爱诗科技也颇受资本青睐。

3月12日,爱诗科技宣布完成C轮融资,并称本轮融资完成后,资金将主要用于视频基础模型的持续迭代、实时世界模型的前沿研发、下一代互动娱乐范式的产品化与全球化的人才团队建设。

该轮融资由鼎晖香港基金、鼎晖VGC、鼎晖百孚领投,产业投资人中国儒意、三七互娱,知名投资机构亦庄国投、众为资本、国泰君安创新投资、苏创投集团、苏州卓璞、华控基金、复星锐正、苏州宜和,及数家全球知名家办参与投资,海外知名投资机构 UOB Venture Management、OCBC生态下 Lion X 基金、3W Fund、Antler、EnvisionX Capital、iGlobe Partners 等参与投资。

显然,爱诗科技从一开始就带着清晰的商业逻辑:

用V系列沉淀技术和数据,用R系列卡位下一代互动叙事,用C系列直接切入短剧、动漫等现金流密集的行业场景——三者形成闭环,用户规模反哺技术迭代,行业模型又反过来撬动付费意愿更强的B端市场。

而C1的落子,恰好踩在了两个时间窗口的交汇点上:一是AI视频生成平台从玩具走向工具的认知拐点;二是短剧行业从卷投流走向卷内容的供给侧升级。

换句话说,PixVerse C1不仅仅是一款产品,更是一张爱诗科技押注“AI+影视”赛道的底牌。

它或将一定程度上影响行业对垂直模型价值的判断——到底是昙花一现的概念,还是真正能改写短剧生产流程的工业化引擎。从目前的实测来看,答案正在向后者倾斜。