深度 | DeepMind高级研究总监专访:AI是否能够实现真正的艺术创作?

图片

图片来源:Google DeepMind

Z Highlights

  • 虽然我们已经能够用AI生成出色的图像,但控制能力一直是个挑战。用户能够输入提示并获得所需图像,这是Transformer模型和Diffusion模型带来的重大突破之一。
  • 这些模型不仅仅是使用方程式,它们通过视频学习世界的物理规律。输入是带有描述的视频帧,模型通过这些帧进行训练,从而生成真实的视频。为了生成高质量的视频,模型需要学习世界的物理规律。因此,我们对这些模型作为世界和物理模拟器的潜力感到兴奋。不仅可以用于电影制作,还可以用于机器人环境的模拟,几乎任何领域。
  • 我们也需要考虑如何使AI技术真正发挥作用。这不仅仅是构建模型的问题,而是要弄清楚它们如何适应社会、如何满足用户需求,我们到底在构建什么。要做出有意义的成果,我们必须超越基础技术,找到它们与实际应用和社会需求的契合点。

AI能否可以实现真正的原创?

主持人Hannah Fry:欢迎收听Google DeepMind播客,我是主持人Hannah Fry教授。我们已经深处于生成式AI的时代。仅仅几年前,很难想象AI能够成功地制作出令人惊叹的视频、创作交响乐、以伟大的荷兰大师风格创作艺术,或者写出让你心跳加速的悬疑惊悚小说。然而,今天这些都已经变为现实,机器在创造性工作中的能力不断被推动向前发展。但AI是否真的能够实现真正的创作呢?
一直梦想着这一刻的人之一是Douglas Eck。他是生成式AI领域的先锋,最近负责监督Google DeepMind发布了最先进的视频和图像生成模型。Douglas是高级研究总监,负责领导生成媒体领域的研究。他还是一名音乐家,当他不在弹钢琴或吉他时,你可能会发现他在思考一些关于艺术社会目的的大问题,以及AI是否会赢得奥斯卡奖,这些都是非常适合我们对话的问题。Douglas,你在这个领域工作了多久?
Douglas Eck:我可以自豪地说我是这个领域的元老。早在2000年、2001年,我就在尝试让递归神经网络演奏爵士和蓝调音乐。那时我们没有数据,也没有计算资源,但我们有激情,这就是我们拥有的一切。2015年和2016年,我创建了一个叫做Magenta的项目:音乐和艺术生成。我们是早期探索生成式AI创造性方面的团队之一。那时技术还很年轻。我一直在思考这些问题,看到现在的进展我非常兴奋。如果这发生在10年或15年后,而我已经退休了,我会觉得自己错过了。所以我很高兴能在这一切发生时亲身参与其中。
主持人Hannah Fry:从你的个人愿望来看,这种事情是你年轻时就希望发生的吗?
Douglas Eck:在某些方面,它超出了我的预期。我们已经做得比我想象的要多。我们看到像Transformer和 Diffusion这样的模型以及其他许多东西,确实推动了领域的发展,比我想象的要快。这不是一种渐进的、缓慢的进步,而是过去五年里发生了显著的变化,释放了大量潜力。我认为这是一种计算能力和许多因素的结合,事情在某种程度上几乎停滞不前,然后突然大幅度推进。我觉得这是很重要的,所以现在我们正努力弄清楚这项令人兴奋的技术。
主持人Hannah Fry:确实,如果我们在问AI是否能创造性地工作,那么首先定义一下我们对创造力的理解是很有意义的。你可以说一下你的理解吗?
Douglas Eck:这是一个关于创造力的问题,很多人讨论“大写的创造力”与“小写的创造力”。显然,AI模型能够创造出对我们来说新颖、令人惊讶和愉悦的样本,在这方面,问题已经得到回答,可能已经有十年了。然而,当我们谈论真正的新想法和新类型时,比如说,AI目前还没有在艺术领域产生那样的影响。此外,我认为“大写的创造力”还有一个社会层面的因素对我来说很重要,那就是我关心创作艺术的人的背景,无论是绘画还是音乐。
我最喜欢的一个例子是,有一段时间AC/DC从流媒体服务中消失了,大约15年前的事。那时我和我7岁的儿子一起听AC/DC的音乐。AC/DC消失后,流媒体服务中被一个AC/DC翻唱乐队替代,这个乐队成功地操控了系统。如果你搜索“Back in Black”,他们的专辑会出现并被播放,封面也很相似,所以我没注意到,结果听到的音乐很糟糕,因为我知道真正的歌手的声音。这对我来说很重要。而我儿子却觉得这和原版没什么区别。对他来说,缺乏与艺术家的社会连接,这只是一个几乎完美的翻唱。对我而言,这种失真让人无法接受。当我们谈论艺术和创造力时,实际上谈论的是创作者,因为这才是我们所关心的连接。如果未来有AI能够制作第十三张Beatles专辑,第十四张专辑,第100张专辑,我们会面临一个难题:这并不是Beatles的真正意义。Beatles是某个时代的象征,是我的童年,是John、Paul、George和Ringo的音乐,这些都极为重要。我不认为我们应该排除未来AI可能成为我们欣赏和追随的对象,并推动这个领域的发展。但目前我们还没有达到那一步。如果我们长时间讨论创造力而忽视艺术的社会部分,我们真的会错过关键点。
主持人Hannah Fry:确实很有趣。我们讨论得很深入,但我喜欢你提到的观点:艺术是关于传达人的经历的,而这种经历目前至少无法被复制。
Douglas Eck:完全同意。思考实验确实很有趣。如果你有时光机器,你可能会做其他事情。但假设你把Andy Warhol的画送回13世纪法国,大多数人会直观地认为这没有意义。那时候的人无法理解像金宝汤罐头或玛丽莲·梦露这样的文化符号。艺术家们不断地反映、评论和推动文化,而这些文化问题目前都是由我们创造、驱动和回应的。
主持人Hannah Fry:是的,你可以把艺术分成两个方面。一方面是原始性,即它是否是全新的,从未存在过;另一方面是质量和深度,这涉及到艺术的独特性和它对观众的影响。原始性关注的是创造的新颖性,而质量和深度则涉及到艺术品的内涵和它如何与观众的情感产生共鸣。
Douglas Eck:确实如此。虽然我们已经能够用AI生成出色的图像,但控制能力一直是个挑战。用户能够输入提示并获得所需图像,这是Transformer模型和Diffusion模型带来的重大突破之一。这种可控性,使得AI的强大功能与用户表达的能力结合,确实带来了有趣的进展。我也希望AI能够强大且做出令人惊叹的事情,但控制它的能力对避免快速乏味至关重要。
主持人Hannah Fry:确实,创意在很多方面仍然主要存在于人类而非AI本身。AI可以生成内容,但真正的创造力往往源于人类如何利用这些工具、如何设定目标和如何塑造结果。
Douglas Eck:是的,但这并不意味着技术不重要,技术和艺术家之间的结合非常重要。对我来说,我做的是音乐,我不认为自己是一个伟大的音乐家,但我真的有点沉迷于在钢琴或吉他上即兴演奏时的流动状态。有一点你会忘记,比如,在认知上,你会忘记这架钢琴并不是你自己。你忘了它不是你自己,它是你的延伸,这很美妙。科技带来了新的自我表达方式。我们的目标是,我们能不能建立一种新的方式,让你可以把大脑中的这些想法表达出来?
主持人Hannah Fry:这是有可能的。随着技术的发展,AI的直观性和控制力不断提高,未来可能会达到一种状态,让人感觉AI就像是身体的一部分。这种深度的融合能够让创作者更自然地表达自己,就像使用乐器一样。
Douglas Eck:我也认为这是可能的,而且在我们现在的一些工作中已经开始出现这种情况。我不想神秘化这个过程,挑战在于让AI更好地融入我们对艺术的理解。未来我们可能会看到全新的艺术形式出现,AI将帮助我们创造它。虽然现在我们还在使用AI制作图像、音乐和视频,但随着音乐模型的进步,我们离实时创作越来越近。想象一下,未来你可以像用智能循环踏板一样,与AI一起演奏吉他,这就是一个简单的例子。
主持人Hannah Fry:我也很喜欢这种对未来的展望。现在的情况确实是,人类在策划、指导、打磨和完善创作,而不是整个过程无缝集成。当前,AI更像是一个强大的工具,帮助我们实现创意,但人类的参与仍然至关重要。未来,随着技术的发展,这种整合可能会更加流畅,达到更自然的创作体验。
Douglas Eck:完全同意。转化、策划和创作是现在的三大步骤。比如,将一张照片通过AI转化成自己更喜欢的东西,这就是转化。策划则涉及选择和组织创意,使其符合目标或风格。Instagram是策划的经典例子。AI在策划方面可以帮助我们探索和建议意想不到的东西。至于创作,从提示生成全新的东西确实是最具挑战性的,因为这需要AI和人类创意的深度融合。
主持人Hannah Fry:好的,那么关于原创性的问题,AI是否真正创造了原创的东西,还是在某种程度上只是模仿已有的内容?
Douglas Eck:我认为它确实让我们能够创造出原创的东西。尽管这些模型是基于我们世界的数据训练的,我常常说它们像是变形镜,它们并没有完美地反映我们的世界。通过这种方式,这些“变形镜”可以产生一些非常有趣的新材料。我认为这些材料确实是新的和具有变革性的,给我们提供了新的创作素材。
主持人Hannah Fry:我们使用的描述有点像“我见过的创意就是这样”,几乎在尝试判断它是否有创意。你有没有办法衡量AI的创造力?
Douglas Eck:我们确实可以衡量创造力,比如使用距离度量。基本的想法是对比图像之间的像素差异,但这种方法可能不够全面。然后你会意识到像素可能被不同地缩放。因此,我们转向更复杂的测量方法。我们可以测量训练集与生成结果之间的距离之类的东西。我们可以测量模型重复训练集中的片段。总之,我们有办法做到这一点。我认为我们仍然需要依赖人工评估来理解这一点。我们在人类评估方面做得很不错。而机器在这方面通常表现得比较平庸,也就是说,它们并不完美。但总的来说,我认为我们有办法测量生成结果的距离,也就是它们的创新程度。
主持人Hannah Fry:好的,我想问一下,我记得在AlphaGo比赛中,有一个非常著名的第37步,在与李世石的对局中,这一招让所有围棋专家和AI研究人员都大为震惊。这一招是我认为非常非传统的围棋策略。在你们的创意领域中,是否有类似的时刻,让你们感到非常惊讶的创意瞬间?
Douglas Eck:我还没有看到过类似的时刻。我确实见过一些艺术家和AI的完美结合,看到过一些视觉艺术作品让我非常喜欢。我相信很多艺术家可能有他们自己的“第37步”,我很想听听他们的故事。不过,我觉得目前我们离这种创意时刻还差得很远。我多次被震撼过,尤其是第一次听到由音乐变换器创作的音乐,那真是令人惊叹,我感到这是第一次听到神经网络能够创作出极具趣味的音乐。
主持人Hannah Fry:我们在这里讨论的不仅仅是音乐,这就像在很多不同的空间里,你都希望它能有创意。
Douglas Eck:是的。让我们谈谈视觉领域吧。特别是图像生成和视频生成方面。我这里有一台笔记本电脑。首先,我想给你展示一张由Imagen 3生成的静态图像,这是一款我们最强大的图像生成模型。
主持人Hannah Fry:这张图像展示了一个混合的风景,有草地、沙地,有些岩石和山脉。还有三只非常精美的热气球,看起来非常逼真。光线在三只热气球上保持一致,来自同一个方向。整体效果非常真实。虽然细看时,你可能会发现那些岩石比实际情况更尖锐,但从整体上看,确实非常具有说服力。
Douglas Eck:确实,你注意到那些尖锐的岩石非常好,因为实际上它们也是某种意义上的真实。这张图像的提示是“以DALSA相机的风格拍摄,使用偏振滤镜,拍摄三只热气球漂浮在土耳其卡帕多奇亚独特的岩石地貌上。”原来这些岩石的形状确实很尖锐,而且热气球上的颜色和图案与景观的土色调形成了对比。这几乎像一首诗。这是由Irina Blok和她的团队创作的,我们称之为Prompt Whisperer的天才。这张照片捕捉了体验这种冒险感的精髓,确实充满诗意。
我注意到了,气球确实有些不规则,这实际上反映了热气球在风中会出现的形状变化。这些尖锐的岩石正是卡帕多奇亚的真实样貌。即使是这些小的形状变异,展示了Imagen 3模型在图像生成方面的惊人能力。
主持人Hannah Fry:我想知道,Prompt的撰写方式对结果有多大影响。因为Irina每天都在写提示,她对这些模型非常熟练,但她肯定不仅仅是写了“土耳其的三只热气球”这么简单。提示的风格和细节如何影响最终生成的图像?
Douglas Eck:你提到了一点非常重要的内容,那就是Prompt的一致性。模型如何响应非常具体的Prompt对于生成高质量图像至关重要。如果模型只是简单地回应“三只热气球飘过一些山脉”,我们就无法获得像这样的细节。Irina Blok已经掌握了这种提示的诀窍,但我们确实需要提高模型在没有Irena Block的情况下也能生成同样高质量图像的能力。实际上,用户可以快速上手这些提示,Irina只是一个艺术家。接下来,我们来看一下v0生成的这段一分钟零五秒的视频。
v0是我们新的Google视频生成模型。这个视频有几个Prompt:快速跟踪镜头穿过一个繁忙的反乌托邦城市区域,画面中有明亮的霓虹标志、飞行汽车、雾气和夜间镜头眩光,体积光照,快速跟踪镜头穿过一个未来主义的反乌托邦城市区域,画面中有明亮的霓虹灯、天空中的星际飞船和夜间体积光照,变化较小,带有一辆车的霓虹全息图,这辆车以光速行驶,画面具有电影感和令人惊叹的细节,以及体积光照。
如果我来描述应该看到的画面:我们将从顶部进入,以跟踪镜头的方式下降。我们将看到一辆以光速行驶的霓虹全息图汽车,然后汽车从隧道中驶出,回到现实世界的香港。因此,我们可以预期会有一个回到香港的过渡场景。
主持人Hannah Fry:是的,视频的开头完全符合提示中的描述。看到了被霓虹灯装饰的建筑,镜头平滑地移动,然后加速,逐渐靠近建筑之间。接着,汽车在街道上飞驰,霓虹灯的反射映在湿漉漉的地面上,周围还有其他汽车在争道。一切几乎都因高速而模糊,但整体非常一致。现在,画面进入一个隧道,有大灯照亮,最终从隧道中驶出,进入一个极为逼真的现代场景。
Douglas Eck:确实,这真是一个令人惊叹的时刻,绝对是一个“Wow”时刻,对吧?当我们从隧道中出来时,确实会让人感到一阵激动,甚至有些鸡皮疙瘩。
主持人Hannah Fry:是的,不仅每个单独的场景都遵循提示,而且这些场景之间的过渡也非常流畅。视频确实比图像更复杂,这是为什么呢?
Douglas Eck:有两个原因。一个是从一个角度来看,视频就是大量的图像。你知道,每秒钟大约有24到30帧。所以对于一秒钟的视频,你需要生成很多帧。另一个原因是时间上的一致性问题,这才是最关键的。
主持人Hannah Fry:时间一致性,意味着在时间推移的过程中,它必须保持连贯和合理。
Douglas Eck:即使是简单的事情,比如有人在运球,篮球的运动也不能改变,篮球必须按照正常的运球方式移动。这涉及到物理问题,比如如何模拟世界的物理现象,使其能够反映我们生活的真实世界。如果篮球的边缘不对称,颜色或图案发生变化,或者它的运动不够逼真,这些都会影响你对篮球的认知。确实有很多层次需要处理。
这些模型不仅仅是使用方程式,它们通过视频学习世界的物理规律。输入是带有描述的视频帧,模型通过这些帧进行训练,从而生成真实的视频。为了生成高质量的视频,模型需要学习世界的物理规律。因此,我们对这些模型作为世界和物理模拟器的潜力感到兴奋。不仅可以用于电影制作,还可以用于机器人环境的模拟,几乎任何领域。特别是捕捉真实世界物理学(包括流体动力学)这方面,尤其令人惊叹。我们正在考虑提供给用户或电影制作者更多的控制方式,虽然目前还有很多改进空间,但像v0和Imagen 3的工作标志着我们研究的一个重要时刻。
主持人Hannah Fry:因为这不仅仅是创建漂亮的图像,而是如何使用它。
Douglas Eck:当然。我认为,这里的主要用例确实来自于这样一个事实,即这些模型可以了解物理世界的一些情况,而那些可以通过某种方式了解世界物理的模型,对于科学探索、模拟等都是非常有用的。这项工作具有科学发现的整体性和方向性。此外,我们还花了很多时间讨论创意方面的问题。这是我认为的两个主要领域。
主持人Hannah Fry:因为对很多人来说,图像生成、视频生成甚至音乐生成的技术似乎突然从无到有地快速发展起来了。但实际上,你们已经为此梦想了很长时间。
Douglas Eck:实际上,我也是这样。我像一些孩子说的那样,从小就一直对音乐充满了兴趣,就像那些职业足球运动员从很小的时候就开始踢足球一样。我从小就对音乐充满了热情。
我在印第安纳州南本德长大。虽然我们家是工薪阶层家庭,但我对这种成长经历非常满意和自豪。我们其实并不富裕,我曾经想要一架钢琴,但最后得到了一个小号,因为租小号更容易。这是真的。我记得我甚至在五六岁的时候就对音乐产生了兴趣。
我邻居家有一台自动钢琴。早期的自动钢琴有脚踏板,可以来回踩动,这些踏板控制着风箱,将空气通过一个纸卷,这些纸卷上有孔。当空气通过纸卷时,如果卷上有孔,就会触发相应的琴键。我记得当时就问我妈,能不能去Ed和Jean的家,我想看看那个自动钢琴。我对它的迷恋几乎超越了孩子对糖果店的兴奋。现在回想起来,我几乎都快要流泪了。因此,我一直在思考技术和音乐之间的关系。虽然直到你问这个问题时我才意识到,但我从五岁起就开始思考技术和音乐的互动了。
主持人Hannah Fry:确实,机器演奏音乐有一种独特的魔力。那就跟我谈谈你在过去五年里玩过的一些东西吧。
Douglas Eck:我花了很多时间思考这些技术之间的相互作用。它们如何协同工作?我不需要亲自参与v0和Imagen的进步,因为很多优秀的人在做这方面的工作。但是,我们如何将这些部分有效地组合在一起呢?例如,我一直在思考Pixar是如何将技术转化为一系列令人惊叹的电影的。我们可能无法完全照搬Pixar的做法,但我们应该了解将技术融入人们生活的真正挑战。
我把这跟有翼飞行的历史做了对比。第一次飞行到登月之间,仅仅用了不到70年的时间。如果我们看AI,我们已经在这方面摸索了至少30年。那么,30年后,航空领域经历了什么?你们已经掌握了飞行技术,现在开始考虑如何创建航空公司,如何让人们在全球范围内移动和连接。这个过程不仅仅是解决航空学问题,还涉及到更高层次的需求。
同样,我们也需要考虑如何使AI技术真正发挥作用。这不仅仅是构建模型的问题,而是要弄清楚它们如何适应社会、如何满足用户需求,我们到底在构建什么。要做出有意义的成果,我们必须超越基础技术,找到它们与实际应用和社会需求的契合点。
图片
图片来源:Google DeepMind
如何解决AI发展过程中存在的问题
主持人Hannah Fry:确实,这一点非常重要。许多人都在思考这些技术对人的意义。虽然有些人积极欢迎这些变化,但也有一些人对此感到犹豫或担忧。关键在于如何平衡技术进步与公众的实际需求和担忧。
Douglas Eck:我完全同意。我也分享这些担忧,我们确实需要非常谨慎。我们在这个领域工作了很长时间,并且考虑了很久。在某些方面,我们的进展比较缓慢,因为我们意识到技术的影响力,并且一直在倾听社区的声音。我们花了很多年时间与艺术家、音乐家、视觉艺术家,甚至戏剧和电影制作人合作,理解这些工作如何融入他们的创作中。对我来说,与这些社区合作,尝试理解如何为他们和所有人做出更好的贡献,是我工作中最有意义的部分。因此,我们非常重视这一责任。
主持人Hannah Fry:那你能做什么呢?当然,这些模型的训练是基于人类创造的知识产权。你该如何解决这个问题呢?
Douglas Eck:我们正在考虑一些方法,比如识别水印、归属模型输出到创作者的方式。虽然这仍然是一个困难且未解决的问题,但我们希望能够帮助建立新的方式来补偿艺术家的工作。我认为确保这一点非常重要。我们也希望确保使用像SynthID这样的技术来水印并确保能够识别这些作品在生态系统中的流动。我自己是个音乐家,我在SoundCloud上有一些作品,虽然只有五首歌,但我不会告诉你怎么找到它们,因为它们是我的。保护创意和知识产权非常重要。无论是个人还是行业,都需要确保这些权利得到尊重和保护,以鼓励创作和创新。
主持人Hannah Fry:那么,将来会是什么样子?你是否会向作品被纳入模型的人支付版税?它是如何运作的?
Douglas Eck:这确实是一个复杂但重要的问题。我们正在朝着一个解决方案迈进,即建立一个协议,让网站能够标注哪些作品可以用于AI训练,哪些不可以。允许创作者完全禁止其网站上的内容被用于训练是完全可以接受的。
另一项挑战是如何将作品以清晰、便捷的方式纳入系统,以便进行准确的归属。这方面有一种技术叫做基于检索的生成。假设有一个系统了解视觉世界的物理规律,并且使用了许可的数据进行训练。现在,假设你是一位具有独特视觉风格的艺术家,我们可以通过检索你的作品——在获得你许可的情况下,将你的作品以某种向量表示存储在数据库中——来使用你的风格。生成的图像会明显反映你的风格,这样的归属问题就变得简单了。通过这种方式,我们可以标注图像为使用了你的风格,并且这为市场平台的建立打开了大门。
主持人Hannah Fry:我的第二个问题是,这些模型是否已经在艺术家的作品基础上产生了成果?
Douglas Eck:确实,我们有很多可能出错的地方。我时常思考MP3革命时期音乐产业的变革,像Limewire、Napster和BitTorrent这些对音乐艺术家造成了很大的影响。然而,YouTube是一个在那时有效的例子,我为当时作为音频研究员参与其中感到自豪。
主持人Hannah Fry:YouTube让艺术家能够按自己的方式与观众连接,这对于音乐创作和传播是非常重要的。
Douglas Eck:是的,我们创建了一个比BitTorrent更优质的用户体验,建立了一个完整的侵权内容撤下机制,构建了一个不仅能将创作者与粉丝连接起来,还能帮助他们发展职业和盈利的创作者网络。
现在这是一个相当繁荣的生态系统。虽然它不是唯一的生态系统,但我们希望看到类似于YouTube的生态系统。也许它们不是完全一样的YouTube,但有可能会是。我的YouTube同事们可能会觉得有点不一样,但确实有额外的因素来处理生成过程。同时,仍然需要确保资金流动、归属清晰以及艺术家的自我营销能力,展示自己并争取知名度也是非常重要的。
确实,创作者网络中的很多活动都是为了追求知名度,这很棒。我希望所有这些都能实现。虽然目前我们没有现成的解决方案,我个人也没有,但我看到生成领域中市场和生态系统的诱人可能性。
主持人Hannah Fry:从观众的角度来看,降低创作门槛确实可能导致内容泛滥。要避免观众被垃圾内容淹没,可以考虑以下几个方面:建立有效的内容筛选和推荐机制,提升算法的质量和精准度;鼓励用户评价和反馈,帮助过滤和提升优质内容;以及引入人工审查和质量控制措施,以确保内容的质量。
Douglas Eck:你提到,如果可以生成第13张甲壳虫乐队的专辑,那么也可以生成第百万张。我们可能会开始依赖特定的策展人,就像我们信任某些DJ一样,尽管他们不仅仅是策展人。这个过程的关键在于如何控制和过滤海量的内容,SynthID可以帮助我们识别这些内容,但这仍然是一个挑战。我们正处于一个媒体泛滥的时代。
主持人Hannah Fry:确实,如果未来生成的小说质量达到可以与人工创作相媲美的水平,书籍出版商可能会面临被大量生成内容淹没的挑战。在这种情况下,出版商可能需要借助自己的AI系统来帮助进行内容筛选和策展。这样的AI可以辅助评估和筛选内容,从而提高效率,并帮助出版商识别出高质量的作品。在技术不断进步的未来,这种智能化的筛选工具将变得越来越重要。
Douglas Eck:确实,这些问题非常重要。对媒体的信任涉及两个方面:内容是否由AI生成,以及内容的真实性。我们面临的挑战是如何确保信息的可靠性和真实性。像Gemini这样的系统,通过限制政治查询的数量,可以在选举周期内帮助缓解这些问题,减少虚假信息的传播,虽然这只是其中的一种解决方案。
主持人Hannah Fry:如何阻止AI生成文章呢?
Douglas Eck:这只是一个缓解措施,你需要将它与其他缓解措施结合使用,从而尝试取得最终效果。
主持人Hannah Fry:只是一个缓解措施。是的,考虑到未来,你认为生成式 AI 在接下来的五年里会发生什么?
Douglas Eck:我看到的是向多模态发展的趋势。确切地说,我认为我们现在正在解决单一模态问题,就像我向你展示了一些很酷的图像和视频。但当你开始加入音频时,你会发现,如果我们能够真正将视觉和音频以生成的方式融合,使人们可以以不同的方式讲述他们脑中的故事,我们确实会改变很多东西。我认为这就是未来五年会发生的事情,虽然我们不会在五年内解决所有问题,但我们会开始创造性地将这些核心技术块结合在一起。这也是Gemini的梦想,Gemini的使命明确而公开地是多模态的,我们将开始看到文本和图像的不同组合,这将开辟一系列新的创造性和表现力。
主持人Hannah Fry:我也在想,如果你回到之前提到的这些东西现在理解物理学的问题,我们讨论的创造力大多集中在艺术领域,但如果理解了物理学,是否会有一种不同类型的创造力潜力?例如,如果你理解了空气动力学,未来是否可以说“设计一架飞机”呢?
Douglas Eck:是的,我认为如果将时间范围延长到十年,科学发现和物理引擎将使我们能够做出更好的飞机设计也是可能的。我不喜欢做这些预测,但我觉得在十年内可能会有这样的进展。虽然这似乎有点短,但考虑到机器人技术的迅猛发展,特别是语言模型和扩散技术的应用,我们已经看到机器人在动态环境中表现出的能力。随着物理学分辨率的提升,物理相关的创新大门也有望开启。
图片
图片来源:Google DeepMind
AI在艺术创作中的作用
主持人Hannah Fry:最后回到艺术的话题,因为这是我们讨论的重点,你认为未来会有AI获得奥斯卡奖、普利策奖或某个重要摄影比赛的奖项吗?
Douglas Eck:我不会完全排除这种可能性。你知道,我们现在谈论的是“Agent”这一概念,即拥有独立身份的AI。我觉得归属问题非常有趣,对吧?有些人非常有创意,他们在编写代码;还有人试图确定模型的目标等。如果我们讨论的是赢得奥斯卡奖的情况,那么思考实验就是,假设完全没有人类参与。我输入指令,比如“Agent,去赢得一个奥斯卡奖”,然后我得到了一杯咖啡。是的,我认为这就是你所说的。确实,我认为我们离这个目标还非常非常遥远,而且如果我们能解决这个问题,可能意味着我们已经解决了AGI的问题。说实话,这可能是AGI的一个艰巨挑战。“请帮我赢得一个奥斯卡奖。” 没错,我认为这在社会上感觉是非常非常困难的,你需要是一个非常出色的Agent才能实现这一目标。
主持人Hannah Fry:我认为这也让我们回到了谈话的开头,那就是我们之所以消费艺术,其中最大的原因之一或许就是因为它是一种与其他人类的联系,是一种人类经验的交流。所以这是一部只由AI生成的奥斯卡电影所明显缺乏的。
Douglas Eck:我想反其道而行之。人们担心AI会让他们从参与的过程中被排除出去。我希望能让更多的人参与进来。所以我想回到录音音乐之前的时代,那时我们都围绕钢琴唱歌。也许现在的钢琴不完全一样,但它可能是一个由AI帮助我们完成的钢琴,让我们所有人都能参与其中。我认为这是一个美好的目标——让更多的人参与到艺术创作和创造力中去。
主持人Hannah Fry:利用技术加强人与人之间的联系。就是这样。我很喜欢这样说,我真的很喜欢。嗯,我觉得这是最完美的结束语。Douglas Eck,非常感谢你参加Google DeepMind的播客节目。你很聪明。
Douglas Eck:很高兴能来到这里。
主持人Hannah Fry:我知道在谈论创造力及其在AI时代的意义时,话题很快会变得非常哲学化。从与Douglas的对话中,我觉得我们现在所处的环境与相机或钢琴的发明时代不同,那些发明只是为人类提供了不同的表达媒介。而这里的区别,我认为在于数量。正如Douglas所说,百万张甲壳虫乐队的专辑会有什么价值?虽然AI可以出色地进行策展,但我认为在未来几年中,许多创意行业从业者将面临显著的干扰。但与此同时,Douglas对创造力的定义有一些有趣的地方,需要保留的东西。AI无法真正独立地进行创造,因为缺少人类的成分。我认为,这实际上是很有希望的,即使是设计这些工具的人,也将艺术、文学和音乐视为深深植根于人类的事业,这一点不会改变。
原视频:AI: Your New Creative Muse? with Douglas Eck
https://www.youtube.com/watch?v=IbDfTLOYZM0
编译:Huiru Jiao