潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

AI划重点 · 全文约2685字,阅读需8分钟

1.潞晨科技创始人尤洋博士在MEET 2025智能未来大会上分享了视频生成模型的发展前景。

2.尤洋认为,视频生成模型应实现精细化文本控制、任意机位/任意角度、角色一致性和风格定制化。

3.目前,潞晨科技开发的VideoOcean视频生成模型正处在测试阶段,旨在提供更具性价比的选择。

4.通过更好的算法优化,VideoOcean技术帮助各大短视频巨头训练出更快速、精度更高、智能程度更高的视频大模型。

5.未来3年,视频大模型有望实现更真实的场景复现,降低真实场景复现难度。

以上内容由腾讯混元大模型生成,仅供参考

编辑部 发自 凹非寺

量子位 | 公众号 QbitAI

奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。

从开年到现在,国内外、初创独角兽到互联网大厂,都纷纷投入视频生成领域,带来一个个新鲜模型的同时,视频、影视行业也随之发生巨变。

不可否认,当下的视频生成模型还遇到诸多问题,比如对空间、对物理规律的理解,我们都期待着视频生成的GPT-3.5/4时刻到来。

在国内,有这样一家从加速训练出发的初创公司,正在为此努力。

它就是潞晨科技,创始人尤洋博士毕业于UC伯克利,后赴新加坡国立大学担任校长青年教授。

今年潞晨科技在加速计算领域之外,开发视频生成模型VideoOcean,为行业带来更具性价比的选择。

在MEET 2025现场,尤洋博士也向我们分享这一年对于视频生成领域的理解与认知。

图片

MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

  • 视频生成模型应该实现精细化文本控制、任意机位/任意角度、角色一致性、风格定制化

  • 3年后或许就能迎来视频生成的GPT-3.5/GPT-4时刻

  • 视频生成大模型的一个直接应用价值就是突破现实的限制,极大降低真实场景复现难度。

(为更好呈现尤洋的观点,量子位在不改变原意的基础上做了如下梳理)

3年后或是视频大模型的GPT-3.5时刻

今天非常开心来到量子位大会,非常开心和大家交流,今天讲一下我们在视频大模型领域做的一些工作。

首先是我和我的创业公司潞晨科技的介绍。我从UC伯克利毕业到新加坡国立大学任教,很荣幸创办了潞晨科技。

图片

我们之前是做算力优化的。2018年谷歌打造了世界上第一个千卡集群TPU Pod,当时世界上最大的模型还是BERT。我们帮助谷歌,将(当时)世界上最大模型的训练时间从3天压缩到76分钟

也很荣幸,去年华为盘古大模型的一个工作也是我们一起来做的,并获得了ACL最佳论文。我们的技术帮助华为盘古大模型在训练中更高效。微软、英伟达等公司团队也使用了我们的技术做一些分布式训练,我们希望让大模型训练更快、成本更低。

图片

步入今天的话题,来重点介绍一下视频生成大模型。

我们打造了一个产品叫Video Ocean,现在正处在测试阶段。先来介绍一下产品,后面再探讨我觉得视频大模型将会如何发展。

首先,我觉得视频大模型第一个重要的方面是,它应该能够实现精细化的文本控制。

其实我们今天都在用AI去生成大模型了,我们肯定希望它能够精准反映出想要的东西。但很遗憾,比如现在用文生图APP去生成图片时,还是会发现很多图片内容无法做到精准控制,所以我认为这方面还有很大的发展空间。

在Video Ocean模型训练过程中,我们做了一些初步探索。一个比较好的例子,我们能够精准地提供一些描述,戴着墨镜,留着胡茬的欧洲男人。显而易见这个视频里面确实是我们想要的那个感觉,蓝天、海岸、沙滩、背光、单手持相机、黑色T恤,也有对着镜头说话。

图片

我认为AI视频大模型未来3年可能最重要的还是实现视频大模型的Scaling Law。

这个过程不需要非常炫酷的产品能力,最重要的是把它的模型与现实世界的连接能力做到极致。我觉得最终形态就是人们说一段话、给一段描述,它能精准地把描述以视频的方式展示出来。

所以我觉得未来3年,AI视频大模型就像山姆·奥特曼说的那样,今天是Video的GPT-1时刻,可能3年后到视频大模型的GPT-3.5、GPT-4时刻。

这里展示一下Video Ocean的Demo,目前我们做到了这样的水平。

第二点是未来视频大模型怎样能够实现任意机位、任意角度。

现在拍电影、拍纪录片可以拿着手机、摄像机不断地晃,想怎么晃就怎么晃,这样是对镜头有真实控制的。未来AI视频大模型,首先应该做到这一点,同样的描述,换一下角度、换一个镜头,它的形象是不应该改变的,它就是同样一个物体。

更进一步讲,未来AI视频大模型还能颠覆很多行业。比如现在看足球、看篮球赛,我们看到的镜头是现场编导给我们看的镜头。他给我们看远景、近景。

未来能不能依靠AI视频大模型,人来控制镜头,决定想要看哪,相当于在体育场里可以瞬间移动,移动到教练席、最后一排、第一排。任意机位、任意角度的控制。我觉得未来AI视频大模型在这方面也是非常关键的,当然当然Video Ocean现在做了一些尝试,初步效果还是不错的。

我觉得第三点重要的是角色一致性。

因为做出AI视频大模型,最终肯定是需要产生营收、实现变现的。谁会愿意为这个付费,比如广告工作室、广告商、电商博主、影视行业。如果深入这些行业的话,一个关键点是角色一致性。

比如一个产品的广告,肯定从头到尾这个视频中的衣服、鞋、车,样貌不能有太大变化,物体角色保持一致性。

拍一部电影,从开头到结尾,主演的样貌、关键配角的样貌肯定也不能变化,在这方面Video Ocean也做一些很好的探索。

再一个是风格的定制化。我们知道现在演员人工成本是非常贵的,道具成本也很高。

未来3年之内,如果AI视频大模型正常发展,我感觉会有一种需求,比如一个导演可以让一个演员在游泳池里拍一段戏,然后拿到素材通过AI将它转成泰坦尼克场景下的游泳,转成阿凡达场景下的游泳,这种能力反而是AI最擅长的。赋予电影感、艺术感的画面。

总之大模型一个直接的应用价值就是突破现实的限制,能够极大降低真实场景复现的难度。

可能之前大家听过一个段子,好莱坞导演想制造一个爆炸镜头,他算了一下预算,第一种方案是盖一个城堡把它炸掉,第二个方案是用计算机模拟这个画面。成本算下来之后,发现这两种方案的成本都很高,当时用计算机模拟的成本更高,现在AI就是要大幅降低大模型对于生成电影的成本。

如果这一点实现后,我们可以不受场地、天气等外部因素的限制,并减少对真实演员的依赖。这倒不是抢演员的饭碗,因为一些关键镜头是非常危险的,比如演员跳飞机、跳楼,演员去解救即将引爆的炸弹之类,这种镜头未来只需要演员的身份和肖像权,AI可以把这样的镜头做好,所以对电影行业能够极大做到降本增效。

正如昆仑万维方汉老师刚才说的,虽然我们的计算资源有限,但是我们发现通过更好的算法优化确实能够训出更好的效果,比如Meta使用6000多个GPU训练30B的模型,最近我们会在一个月内发一个10B版的模型,我们仅用了256卡。

Video Ocean前身是我们团队先打造了一个Open-Sora的开源产品,这个开源产品是完全免费的,在Github上,效果非常不错,比如美国独角兽Lambda labs做了一个火爆的应用数字乐高,其实这个数字乐高就是基于Open-Sora做的。

图片

今年年初Sora出来之后,各种短视频巨头都对视频大模型这一块比较重视,比如中国的快手、抖音,美国就是Instagram、TikTok、SnapChat,这可以看到SnapChat的视频模型也在早些时候发布了,叫Snap Video,这是它的官方论文,他们就引用了我们训练视频大模型的技术,所以说这些技术也帮助一些巨头真正把视频大模型训得更快,精度更高,智能程度更高。

图片

谢谢大家!

点击https://video.luchentech.com可体验Video Ocean更多详细能力