近距离围观Sora团队,内测艺术家谈正式版负评,AI还不具备创作能力

AI划重点 · 全文约4046字,阅读需12分钟

1.近一年的等待,Sora正式官宣,成为视频生成产品,受到万众期待。

2.国内艺术家Junie Lau作为首位合作者,分享了与Sora团队合作互动的体验。

3.Junie认为Sora在可控性方面有所改进,但仍需时间适应新工作流。

4.此外,Sora团队与艺术家保持密切联系,实时收集反馈,共同探索AI创作能力。

5.尽管如此,Junie认为目前AI仍不具备完整的创作能力,道路仍在探索中。

以上内容由腾讯混元大模型生成,仅供参考

北京时间本周二,被万众期待将近一年的 Sora,终于正式官宣。不再是几个 demo 片段,不再是 Sam Altman 时不时打的哑谜,而是一个完整的视频生成产品。
图片
由于太过火爆,上线没多久就流量爆炸,OpenAI 不得不暂停新用户注册,等候队伍能长得能等上一整天。
但有一群人,不仅是 Sora 的「老用户」,还参与着这个产品的塑造过程,见证了它的迭代与更新——他们就是不久前曾传出叫板 OpenAI 的 Sora Alpha Artist。
为了获得创作者们的反馈和建议,也为了观察 Sora 在他们手上所能激发的创造力,Sora 跟一群艺术家们保持着密切联系,实时收集他们的反馈,也把他们的精彩创作作为案例分享。
图片
在 Sora 发布之际,APPSO 独家对话 Sora 首位合作的国内艺术家 Junie Lau。她是 AI导演,也是 Stable Diffusion 首届 AI 短片全球冠军。作品曾获得有「AI 奥斯卡」之称的 Runway AI 电影节银奖,并参与到了全球首部 AI 长片电影「Our T2 Remake」的制作当中。不久前,她作为 Runway 中国社群的负责人,完成了 Runway 中国社区的落地与推广。
图片
在对话中,她不仅用实际的生成片段阐释了自己高强度使用 Sora 的感受,还分享了与 Sora 团队合作互动的体验。更重要的是与我们探讨了,生成式视频工具快速发展的一年多以来,走过的弯路有哪些、可能的未来在哪里。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
现在还没碰到 Sora 的天花板
APPSO:Sora 正式发布了,好看的样片你肯定见过不少,网上的负面声音是你想象过的吗?
Junie:我预想到有蛮多人会吐槽的,其实现在发的是一个 turbo 版本,算是一个改良版,需要的算力更少,可以让更多人使用。但是在效果上面,我个人感觉有一点不同。我把同样的 prompt 放进去,现在这个版本其实是没办法跑出来的。
APPSO:是模型层面就不一样了吗?
Junie:应该是模型不一样,相当于改良了,变成现在这个模型。目前的 Sora 是一个阶段性的产品。
APPSO:所以它成了一个在使用上,体验没那么好的东西?
Junie:那不是,这一点我要反驳一下。我的逻辑是这样的:它的可控性其实不那么强,反而就可以给出各种各样的东西。我并不会只是跟它说一个我脑海里的画面,而是一个想法。我在它的基础上去拓展我的一些想法,这样一来一往,是我非常享受的一个过程。
APPSO:可以理解为抽卡的过程反而成了一个互动的过程?
Junie:我不知道是不是还要用「抽卡」这个词。我认为抽卡的概念在于,你已经有一个图片,把图片送进去然后看基于这张图片的动态,哪个更顺畅哪个更贴近。但 Sora 完全是基于提示词,因为我们是无限 credit,所以我疯狂点击,每一次都能给不一样的东西。
(编者注:Sora 为艺术家账户开设无上限的 credit 额度,不受付费计划影响)
这个是在工作流上很大的一个改变。过去的工作流是你有一个创意,先去 Midjourney,或者 Stable Diffusion 或者 Flux 里面,去把想法变成图片,再放到可灵、Runway 或者海螺里面,把这个图片变成一个视频。现在我在 Sora 上不用这一套了,它直接就可以出我想要的画面,不再需要经过之前的那一套流程。
我已经把 Midjourney 的套餐,从每月 36 美元降档到每月 10 美元,因为我觉得不那么需要它,Sora 已经能满足很多我在艺术上的需求。
APPSO:这个变化是技术架构层面的不同,还是背后使用到的数据不同所带来的?
Junie:确实某些算法上面的东西是不太一样。我到现在说实话还没感觉到 Sora 的天花板在哪里。我平时用 Runway 比较多,用多了就能看出来它的天花板在哪里,比如说有一些三维质感的东西,有一些特殊视效的东西,你能大概感觉到它喂了哪些数据进去。其它的视频生成工具也会给我类似的感受。但是 Sora 用到现在,我都还不敢说它背后的数据量有多大。
比如我做时尚类的短片比较多,Sora 跑出来的镜头,像上面这个鞋子,它的质感非常不一样。

下面是同样的 prompt 放进 Midjourney 里面的效果。
图片
我为什么说没有碰到它的天花板,举个例子,比如我要一个美女,一个很简单的 prompt,(其它产品)可能会给出比较符合主流审美的、刻板印象的美女形象,我需要很细节的改词,才会拿到一些新的东西。
APPSO:最近比较流行的 AI 生成工具,得到好评都是因为「没有 AI 味儿」,或者味道不太重,你觉得 Sora 也是胜在 AI 味不重吗?
Junie:过去的一些 AI 工具,怎么说呢,是有一种很塑料感,有种不真实感。但 Sora 不能说是很「真实」,而是很「不一样」。AI 生成的一个重点是让它做出不存在的东西——不存在的东西怎么说得上真实不真实呢?可是 Sora 会比之前我接触过的工具,更接近真实。
比如这个视频里,这个逆光时发丝的质感,这是一个很感受化的东西。还有她背后的光影变化了,这些头发丝也跟着变化。

APPSO:像不像实拍是一个衡量标准吗?
Junie:这也是 Sora 和 Runway 不一样的地方。很多工具会有「你有什么我也要有什么」,而且会纠结于用 AI 做传统影视在做的东西。Sora 和 Runway 虽然也涉及到传统影视,比如 Runway 背后的团队,有华纳影业出来的成员。
但是在另外一个维度上,他们是想做一些新东西,这些创新就来自于和艺术家的密切合作。艺术家在提出想要什么样的功能的时候,他们就会考虑去开发这些新功能。他们并不是要说把一个生成视频,做成很像传统影视出来的质感,而是更愿意探索什么是 AI 可以实现的,怎么样可以拓展艺术表达。
APPSO:对于物理运动的表现呢?算是一个标准吗?
Junie:我觉得因人而异。对我来说 Sora 的优势在于,能满足我很多奇奇怪怪的艺术表达,模型的艺术性对我来说是更重要的,物理表现反而没那么重要。那肯定会有一部分人的需求就是对口型、稳定性、主体一致性等等,那可能其它的工具会更适合用来满足对可控性的追求。
和 Sora 合作是怎样一种体验?全员活人
APPSO:聊聊你们和 Sora 团队的合作吧,你们的工作模式是怎么样的?
Junie:我们有一个三百多人的大群,里面 Sora 的工作人员有三十多个,剩下的都是艺术家,各行各业的都有,有画画的、做建筑的等等,整个氛围比较年轻。每周我们都要一起开会,还会有当周的主题挑战活动,有点像内部的电影节这样。这些挑战不是强制参与的。
我这次发出来的片子《What if,Mother》其实是给一个挑战活动做的,那个活动还没有官宣,但 Sora 说片子可以发出来。我在刚刚拿到 Sora 就知道有这个挑战活动,但我需要从零开始学起,从最开始接触算起到把这个片子做出来,前前后后大概花了两周的时间吧。

没有做得很好,只能说是做多少发多少,我觉得 Sora 还是存在一些学习成本的,不太能直接上手就用。比如人物的可控性其实是通过 storyboard 实现的,其中又涉及到用 prompt 来实现对场景和人物的控制,不是简单地把图复制进去跑一跑,它需要新的工作流。
APPSO:这个片子里最花功夫的部分是什么?
Junie:后面有一段有很多水的镜头,这个当时是得一边学一边做,水的物理表现我当时也不确定能不能实现。他们内部给了很多教程,而且每个星期的周会,都会有答疑环节,也会有不同的艺术家来分享他们的工作流,他们是怎么用 Sora 的。
APPSO:Sora 官方跟你们的来往多吗?
Junie:很多。使用上有什么问题,他们会立刻回复,比如说有个 prompt 跑不出来,或者画面显示不出来发到群里,马上就会有工作人员说「你把问题发来我看一下是怎么回事」,真的是 24 小时技术支持。
我们的群「活人感」很强,Sora 团队技术的、产品的人都在群里,平时也会跟我们聊天。Sora 发布会前还有工作人员在群里说他们一直在为了发布会加班,还拍照给我们看,一群人在会议室干活。
图片
发布会中出现的 Sora 产品负责人,日常在艺术家社群中非常活跃. 图片来自:OpenAI 官网
我觉得他们是真的把我们当自己人,很像一个大家庭。群里一般最多的还是讨论作品,会互相点赞支持。然后就是对产品的讨论。产品的人之前也有来找我,问用起来感觉如何,有没有碰到什么问题。他们团队不大,架构很扁平,不同职能不同部门之间不会很分散。
APPSO:有什么具体的例子吗,比如你们提出的反馈后,在产品更新里得到呈现?
Junie:日常的反馈还是很多的,非要说的话可能是图生视频的功能。现在这个是不太好用,之前也有艺术家提过反馈。但这里有一个版本的问题,他们可能没有在目前发布的版本上体现出改良,现在的图生视频是挺难用。
APPSO:所以当时艺术家们「反水」是怎么一回事?
Junie:其实在群里,日常也是会有一些负面反馈和批评的。但是我记忆里这个艺术家(编者注:指牵头发起抗议 Sora 的艺术家),平时也不怎么讲话,好像突然之间就爆炸了。后续参与公开信签名的,也不全是 Sora 的合作艺术家。
我们每周都有挑战活动嘛,有一些是有现金奖励的。但这些活动不是强制参与的,你可以参加也可以不参加,另外还会有一些线下的活动,见面会啊,社群活动啊这些,他们跟电影节也有合作。然后像是艺术家做的片子,他们发在官方的社媒上,也是一种曝光跟宣传的方式。这确实是一个很看个人取舍的问题吧。
AI 还算不上具备创作能力
APPSO:你觉得 Sora 目前的功能里,最能体现艺术性的是什么?
Junie:有一个风格预设的功能,你只要定义了你自己想要的风格之后,你输入什么提示词都是预设的的风格。在我的短片的前半段全部都是黑白,我用了它的八十年代的预设,然后再在提示词里说,我要一个第一人称视角,在一条街面上走,然后看到些什么。在这个预设之后我跑一百条视频,都是这个黑白的风格。
图片
Sora 提供的风格预设
另外像 remix,re-cut 这些功能,我觉得还是有改变一些跟 AI 工具交互的方式、创作的方式。像下面的镜头是来自马上要发的新作品,也是 Sora 帮我把脑子里一个大概的想法,给完全具象化。

不过我当时从零开始也花了不少时间来搞清楚怎么用,可能大家都需要花时间了解吧。
APPSO:从你的描述来看,似乎 Sora 已经具备一些创作能力了是吗?
Junie:这个创作能力具体是指什么呢?我们现在已经有比如说机器人画画、下围棋,还有很多说是 AI 原生、没有人工干预的创作,这个是你说的创作能力吗?
APPSO:随机组合、把元素像捏泥巴一样捏在一起只能算第一阶段的,但如果是呈现出来的画面、镜头,有潜在的审美逻辑,可以算是具备一定的创作能力了。尤其是「没有 AI 味」,是能体现模型对于素材和语义的合理理解的。
Junie:我个人觉得,还是要有所表达,无论是用剪辑的方式,还是镜头切换的方式。表达是指我的想法,或者是我脑子里的一个疑问,(从这个疑问出发)来有所表达,这是我所定义的创造力。在这个维度上,我觉得 AI 还不具备。
但现在来说,没有一个 AI 产品是百分百完美的,这条路大家都在探索。
图片