深度 | Luma AI华人首席科学家Jiaming:AI时代的视觉革命

图片

图片来源:AI + a16z
Z Highlights:
  • 技术与创意的结合:Jiaming Song详细介绍了Diffusion模型在视觉生成领域的前沿研究,强调其在提升生成视觉模型质量中的关键作用。他分享了自己从斯坦福大学的博士研究到加入NVIDIA和Luma AI的历程,展示了如何将贝叶斯非参数模型的知识应用到生成式AI中,推动了视觉模型在生成质量和速度上的显著提升。
  • 商业模式的创新:Jiaming Song和Anjney Midha讨论了Luma Dream Machine的开发过程及其商业潜力。Jiaming描述了Luma如何通过利用先进的AI技术实现从2D到3D的生成,并将其应用于商业产品中。他们探讨了Dream Machine如何通过视频生成和3D重建技术,为市场带来创新的解决方案,展示了AI在商业化应用中的广阔前景。
  • 技术突破与挑战:Jiaming详细阐述了Diffusion模型与自回归模型之间的区别,解释了Diffusion模型在生成速度和质量上的优势。他强调了大规模计算资源和数据在推动AI技术进步中的重要性,并介绍了Luma在开发过程中遇到的技术挑战和解决方法,包括如何通过视频学习3D知识,实现高质量的3D重建。
  • 从2D到3D及多视角视频模型的突破:通过从2D Diffusion模型微调到3D建模,研究者们实现了重大的突破。视频数据的引入使得模型能够更好地理解和推理3D世界。这些模型不仅能够生成高质量的3D图像,还能模拟物体和相机的动态变化,展示了超越传统摄影技术的能力。Dream Machine通过简单的工作流实现了这一目标,表明大规模计算和数据是实现这些突破的关键。
  • 多模态AI的未来与应用:展望未来,多模态AI的潜力巨大。通过结合文本、视频、音频等多种模态,AI可以更全面地理解和互动世界。实时高质量视频生成将推动具身AI的发展,使机器人能够更智能地推理和互动。同时,个性化AI模型的发展将使AI成为创意过程中的重要伙伴,增强人类的创造力和效率。研究人员正在努力解决技术障碍,期待在不久的将来实现这些愿景。
图片
图片来源:AI + a16z
Anjney Midha: 嘿,Jiaming,谢谢你加入我们。
Jiaming Song: 嘿,谢谢Anjney的邀请。
Anjney Midha: 哦,我一直对这次对话充满期待。在来的路上我在想如何介绍你。一个故事浮现在我脑海中,那是去年我和我们共同的朋友Jim Fan在Nvidia共进晚餐的时候。我们开始谈论当时在视觉模型领域最有趣的研究,当然提到了你的名字。
Jiaming Song: 是的。
Anjney Midha: 我记得不管是他说的还是我说的,但我记得那句话是:今天每一个生成的像素背后都有一点点Jiaming的影子。你对Diffusion模型和视觉模型的前沿研究有着如此巨大的影响。我认为大多数人并没有意识到,在过去几年中使视觉生成模型质量大幅提升的许多技术,都有你的指纹印记。那么,我们为什么不先给大家一个简短的背景介绍一下你是谁,以及我们是如何走到今天这一步的呢?今天,你是Luma的首席科学家,但我们是怎么走到这一步的呢?
Diffusion模型的技术突破
Jiaming Song: 谢谢Anjney的精彩介绍。大家好,我是Jiaming。我目前是Luma AI的首席科学家。在加入Luma之前,我是斯坦福大学的博士生,师从Stefano Erma研究机器学习。大约2021年我博士毕业后,继续在Stefano的团队做了一年博士后研究,然后去NVIDIA从事类似的生成式AI研究。
一年后,我觉得时机成熟,加入了Luma,开始从事一些令人兴奋的工作。关于我是如何进入生成式建模或生成式AI领域的,我在本科期间就开始从事类似的工作,但那时机器学习还不是一个大热的话题。
大约是2014年,AlexNet刚刚问世,当时对深度学习的抵触情绪还很强,因为它在当时显得非常激进。我的第一个项目其实与深度学习完全无关,是关于贝叶斯非参数模型的研究,可能对新入行的人来说并不熟悉。
那时深度学习框架也很不成熟。我清楚地记得,当时不得不使用C++和MATLAB手动编写所有梯度计算。然而,进入博士阶段后情况变得好多了。第一年我们有了TensorFlow,第二年有了PyTorch,从那时起我们的生产力大大提高。
我最初是从贝叶斯非参数模型开始的,因为贝叶斯推断中的生成学习理念一直存在。于是我逐渐进入了与生成式AI相关的领域。Diffusion模型是多年积累的结果。
在博士期间,我们也开始了更多关于无监督学习的研究。最初几年,我们研究了生成对抗网络(GAN)、变分自编码器(VAE)和强化学习等。但现有的视觉生成模型总是存在问题:GANs难以训练,而VAE或流模型的视觉质量很差。
当Diffusion模型开始出现时,我非常兴奋。尽管当时有很多局限性,比如采样速度极慢,但看到一种非生成对抗网络的方法在一些基准测试中表现良好,仍然让人感到激动。因此,我开始思考如何改进它并加快生成速度。我们也有其他类似的想法,涉及到自回归模型等。最终,Diffusion模型成为了一个大热的概念,并且至今被广泛使用。
图片
图片来源:unsplash
Anjney Midha: 当时,Diffusion模型是一种相当广泛的研究构架,对吗?是什么直觉让你想到将Diffusion模型具体应用于图像生成?
Jiaming Song: 我们探索了各种不同的想法,发现其中一些想法具有潜力。当时,我在Stefano的团队中,也与Yasuo紧密合作他的评分匹配工作。所以从一开始,我对这些方向有些了解。当然,具体的方法在当时有很大的不同。Diffusion概率模型的论文是第一个显示这些方向可以统一起来的标志。但我的教育背景略有不同。
如我所说,我的教育背景更多是贝叶斯推断和贝叶斯非参数模型。因此,我对变分推断作为工具的概念更为熟悉。我认为最初的Diffusion模型论文就是从这个方向派生出来的。因此,在我的研究中,我尝试更深入地了解可以打破哪些基本假设,以便加快生成过程。
原始论文描述了两个协同工作的过程:一个是我们都使用的生成过程,还有一个是正向推断过程。Diffusion模型论文的有趣之处在于,你可以定义这个固定的正向过程,然后试图求解其逆向生成过程。你可以定义不同类型的正向过程,这些过程不一定是严格意义上的马尔可夫扩散,而是稍微复杂一点,不完全是马尔可夫的。
但你可以在这些不同的假设下运行相同的数学运算,基本上获得相同的目标函数。这意味着我们为原始Diffusion模型训练的网络可以用于不同的目标函数,这也意味着你可以以不同的方式进行采样过程。
Anjney Midha: 为了让大家更好地理解这一突破的重要性,能否解释一下自回归技术和扩散技术之间的主要区别?以便那些没有相关背景的人也能明白。
Jiaming Song: 当然。自回归技术在图像生成中已经存在了一段时间,其关键理念与语言建模非常相似。在语言建模中,你试图根据前面的词预测下一个词。同样,在图像生成的自回归建模中,你将整个图像展平成一个序列。例如,你可以从第一个像素开始,给定第一个像素预测第二个像素,然后采样第三个像素,依此类推。
这种方法类似于语言模型的工作方式,但有两个缺点。首先,图像中的像素比句子中的词要多得多。如果我们谈论的是由单反相机拍摄的图像,那么很容易就是数百万个像素,这种每像素生成的方法效率很低。事实上,一些方向是由研究实验室如DeepMind和OpenAI开创的,但当时与变分自编码器(VAE)或GANs平行,并且绝对不如GANs受欢迎。
另一方面,Diffusion技术本质上也是迭代的,但它不是逐像素迭代,而是对所有像素进行迭代。因此,相比于自回归模型中的逐像素细化,Diffusion更像是一种并行细化。
Anjney Midha: 当时是什么让你对这一类问题产生兴趣?
Jiaming Song: 在博士的第五年,我们开始研究Diffusion模型、DDIMs等想法。由于计算资源有限,我们只能处理那些需要最少训练的项目。令人振奋的是,Diffusion模型在生成结果方面非常有说服力,不需要处理训练对抗网络时的复杂性和不稳定性。
那时,Diffusion模型的有趣之处在于它本质上是一种变分编码器。我们在变分编码器方面做了很多工作,但效果并不理想。所以,尽管在数学上它们都在变分推断的框架内,但Diffusion模型显然有一些根本性的不同。
我们主要在研究这是一个非常有趣的模型,如何用这些Diffusion模型做出更酷的应用。因此,我们开发了一个叫做SD edit的东西,它进一步坚定了我们使用Diffusion模型而不是生成对抗网络的想法,因为这些Diffusion模型可以将草图变成逼真的图像,而不需要进行额外的训练。
另一个非常有趣的特性是,由于其目标函数的构建方式,如果你在相同的数据集上训练不同的模型或使用不同的初始化,并且训练足够长时间,这些模型实际上表现相似。这也让我们在心态上更加舒适,相比之下,生成对抗网络的表现相对随机,噪声和图像之间的映射很难描述。这些都是我们喜欢的Diffusion模型的数学美感。
之后,有很多新兴的工作尝试将这些模型与更传统的数学概念联系起来,比如常微分方程、随机微分方程、最优传输等领域。
Anjney Midha: 那时候已经逐渐清晰,GANs将会被Diffusion模型取代。我记得有很多顶尖研究人员在努力提升GAN性能,并纷纷涌向NVIDIA。为什么NVIDIA会成为这类研究的中心?
Jiaming Song: 我认为这很大程度上归功于NVIDIA的一些出色工作,特别是StyleGAN和StyleGAN2。这些工作主要由Taro Karas领导。在NVIDIA期间,我曾短暂与Taro合作,我非常敬佩他作为研究人员的能力。StyleGAN把图像生成从小尺寸(比如64像素或128像素)提升到了非常接近真实的水平,尤其在某些特定领域。同时,它还解锁了许多有趣的GAN应用,因为人们发现GAN的潜在空间具有语义意义,可以用来控制图像的属性。我想,人们被吸引到NVIDIA,部分原因是这里诞生了许多出色的GAN论文。
Anjney Midha: GANs最初出现时,展示了AI图像生成的潜力,对吧?但要达到商用标准的生成质量花了一段时间。
Jiaming Song: 是的。
Anjney Midha: 在你看来,什么时候开始从有趣的研究转变为在现实世界中可行的应用?
Jiaming Song: 我认为这很大程度上取决于我们所谈论的应用类型。即使在GAN领域,也有许多非常引人注目的应用和功能被使用。例如,在Photoshop中,有一些功能可以编辑面部的高级属性,比如让你看起来更老或更年轻,或者在语义层面改变一些属性。因此,GANs作为生成模型,即使在StyleGAN和StyleGAN2时期,也有一些非常有趣的应用。
但我认为那个领域的应用局限主要在于数据集当时还很小,并且主要在相对垂直的领域(如面部)表现良好。当时还没有足够大的努力推动更通用的生成模型发展。我认为可能有两个原因。第一,当时的数据集还不够成熟,没有统一的工作使其成为现实。第二,当时的GANs在训练大量数据时并没有显示出足够的潜力,容易出现崩溃或其他问题。
Anjney Midha: 那么如果我们快进到去年某个时候,我们确实讨论了GANs的研究树及其如何让位于潜在Diffusion模型。在某个时候你开始感觉到3D将会变得重要。那么这是何时发生的,为什么?
Luma Dream Machine的崛起
Jiaming Song: 大约是在2023年初。当时我在NVIDIA,我们正在进行大规模文本生成图像模型的训练。同一团队内还有一些非常有趣的3D工作,比如Magic 3D。但我也对其他领域感兴趣,比如3D,这与文本生成图像应用相比,提出了一组不同的挑战问题。3D的一个问题是,现实生活中缺乏高质量的数据。这是因为获取这种数据非常困难。许多数据都是由艺术家创造的,与图像相比,数量少得多。另一个吸引我的是神经辐射视图和神经网络渲染的范式。
Anjney Midha: 这把我们带到了你决定离开NVIDIA的时候,也就是你加入Luma的时刻,对吧?上周你们发布了Dream Machine。这是什么?
Jiaming Song: Dream Machine是一个基础的视频生成模型。在发布时,我们有两个关键特性,一个是文本生成视频,你可以输入文本提示生成视频;另一个是图像生成视频,你可以用图像加上文本生成视频。它的影响力远超那些最初关注AI的人。当然,这也让我们的推理负载大大增加。为了满足所有的需求,我们不得不将推理计算能力提高一个数量级。
Anjney Midha: 为什么不从3D捕捉的故事开始呢?这是第一个研究和产品里程碑,最终导致了Dream Machine的开发。带我们走进那个阶段吧。
Jiaming Song: 对于关注这个领域的人来说,Luma主要在做3D重建和3D捕捉。我们展示的视频中,你可以使用无人机围绕某个地标飞行捕捉视频,然后Luma应用程序会将该视频转换为你可以互动的3D场景。当然,你也可以使用手机捕捉离你较近的物体,但我们的初始产品本质上是让事物在3D中可表示并可以互动。
在此基础上,我们在思考如何不仅仅做重建,还可以做生成。因此,我们发布了一款名为Genie的应用程序,允许你从文本提示生成3D资产。
随着我们越来越多地研究3D,我们意识到3D数据存在可扩展性问题。与图像相比,有大量现成的图像数据,这归因于图像捕捉非常容易。每个人都可以用手机拍照或录像,而进行3D捕捉则非常困难。你要么需要专业知识来使用这些工具,要么需要使用多视角捕捉技术,而这些技术对日常用户来说仍然不太容易获取。所以图像视频数据和3D数据之间存在巨大差距。
Anjney Midha: 相对于高质量图像数据,互联网上高质量3D数据非常稀缺。为什么这很重要?高质量3D数据为何会成为瓶颈?3D数据有什么用?我们需要它做什么?
Jiaming Song: 3D数据的好处在于它不仅提供了世界的前视图,还展示了周围的情况。在人类视觉系统中,我们实际上是连续地观察事物的。当我们四处移动时,会看到同一事物的不同视角。从这个意义上讲,这可能是我们大脑中形成的3D先验知识。但由相机捕捉的图像缺乏这种关联性,我们假设这些数据相对独立出现。不幸的是,这意味着仅有的图像数据不足以让模型理解3D世界。
一个例子是一些3D技术试图通过2D图像Diffusion模型来提炼3D模型。这些技术从DreamFusion类型的方法开始,逐渐发展为更多研究论文,如我之前提到的Magic 3D。这类技术的一个常见问题是所谓的Janus或多面问题。
这种技术的基本理念是生成一个3D对象,使其在不同视角下都符合prompt中的描述。然而,问题在于图像模型对前视图的偏好远大于对后视图的偏好。例如,如果你拍一张柯基犬的照片,自然会拍它的前视图,而不是后视图。因此,当时生成的3D资产存在问题,即对象的各个侧面看起来都合理,但实际对象可能有三个头,看起来更像三头柯基,而不是所需的单头柯基。在这种情况下,拥有3D数据非常重要,因为它能提供对象的整体视图。
Anjney Midha: 如今,使模型能够理解世界的常见方法是通过语言,对吧?这是一种语言优先的方法。如果我们回到2017年,Transformer技术出现,然后在2020年,少量学习者的语言模型表明它们实际上非常好。语言模型在理解世界方面相当出色,我们也得到了神经语言模型的扩展定律。你认为语言建模在理解世界,特别是3D或具身空间方面有什么不足之处?
Jiaming Song: 关于这个问题,我想介绍一个已经存在一段时间的概念,叫做“痛苦的教训”。这是一个通常也用于语言建模的教训。所谓“痛苦”本质上意味着,对于许多与人工智能相关的问题,从长远来看,使用更简单但计算量更大的方法往往比开发先验知识并利用先验知识来减少计算量更为有效。
最早在语言领域出现这种情况,人们最初在研究语言理解时,尝试使用语法或语义解析等技术,但最终这些任务被大型语言模型取代。类似的情况也发生在视觉领域,最初人们使用手工设计的特征如SIFT和HOG,而现在几乎所有任务都在使用深度学习特征。这清楚地表明,使用更多计算和较少先验知识是有好处的。
但语言本身也是一种人类构造,虽然它是非常好且高度压缩的知识,但与人类日常从现实世界中获取的数据相比,语言数据要少得多。我们还观察到,不同群体的人会发展出不同的语言,但他们都非常聪明。所以,仅从语言中学习也可能是相当有限的。
语言的另一个限制在于其生成方式,它的数据集大小远小于视觉信号。我们目前几乎已经耗尽了世界上合理质量甚至高质量的语言资源。人类产生语言的速度肯定无法跟上扩展定律的需求。所以即使我们有一个可以扩展计算和计算基础设施的世界,我们也没有扩展数据努力的基础设施。因为编写高质量的文章需要很长时间。
我认为这也是为什么语言建模首先在扩展定律和广泛的能力方面取得突破的原因。仅仅因为语言本身就是一种非常高效和紧凑的表示方式。尽管人们会争辩说大型语言模型的出现已经证明了扩展定律反对基于规则的方法在语言理解中的有效性,但我们认为语言本身在面对现实世界中丰富的数据信号时也是一种先验知识。
Anjney Midha: 从能力的角度来看,我们已经有大约36个月的时间在语言模型上不断扩展。这导致了ChatGPT、Clot等这些通用的、非常具有变革性的语言助手的出现。
Jiaming Song: 是的。
Anjney Midha: 但是,肯定有一些限制大到足以让Luma和你们团队采取以视觉为先的方法来进行推理。最大的限制是什么?我完全理解这违反了“痛苦的教训”,但你认为语言在基本能力上有哪些无法提供的东西?
Jiaming Song: 是的,我认为当前的扩展定律,即使是真的,也没有考虑到两个因素。一个当然是我们之前提到的数据因素。我们正在达到数据量的极限。当然,会有努力去创造合成数据,但合成数据的质量远不如原始或真实数据。另一个限制是成本问题。随着模型规模的扩大,不仅训练成本会大幅增加,推理成本也会显著增加。在某个时候,我们必须权衡这些消耗大量电力和资源的语言模型的好处,是否足以证明它们的优势是值得的。
有很多工作并不需要博士水平的智能,只需要高中生水平的智能即可。作为一个整体社会,我们需要意识到扩展定律带来的外部限制,因为这涉及到环境和能源效率的限制。
Anjney Midha: 明白了。这让我们回到你早期的基本论点,即3D数据非常稀缺。你们是如何解决这个问题的?
3D数据的挑战与解决方案
Jiaming Song: 是的。我们意识到,去年有很多研究尝试从不同角度解决3D问题。他们不是只使用3D数据,而是将3D作为2D基础模型(如图像模型)的应用。在这种情况下,你首先训练一个2D Diffusion基础模型,并利用大量的数据,然后尝试在多视角图像上微调这个模型。就像我们之前提到的问题,模型无法推理物体的不同侧面,实际上,能够在其基础上进行微调可以利用两者的优势。
这不仅使模型获得关于世界上物体应该是什么样子的语义知识,还利用了3D数据了解这些物体在多个侧面是什么样子。因此,如今一个常见的解决方案是使用多视角2D生成模型,这些模型从非多视角版本中微调而来,然后尝试将表示转换为3D对象。
Anjney Midha: 为什么将3D建模作为基础模型的微调想法如此新颖?
Jiaming Song: 这很新颖,因为在这种方法出现之前,人们并没有意识到这些2D基础模型的强大之处。要从能够生成单一视角的模型跨越到能够生成多视角的模型,仍然是一个巨大的飞跃。因此,当时尝试这个想法需要一些勇气。但一旦这个想法被验证,人们意识到微调这些模型到这个领域是多么容易。然后,许多技术开始涌现。人们在高美学图像上有类似的观察结果,你可以在各种美学数据集上训练你的图像模型,然后在少至2000张图像的情况下微调,就像menace emu论文中提到的那样。结果,生成的图像会变得更好看。因此,我认为这种微调能力也是这些大规模基础模型的一个非常有趣的特性,从语言模型开始,现在也扩展到各种不同的领域。
Anjney Midha: 一旦明确将3D作为2D基础模型的微调进行推理是可行的路径,接下来发生了什么?
Jiaming Song: 对我们来说,下一步是很自然的。图像的限制在于它不能理解相机在世界中的工作原理,因为它只有不同物体的相对独立的镜头。所以对我们来说,下一步是看我们能否通过从视频中学习来获取3D知识。因为视频自然包含了很多这些内在观察。例如,相机的移动、物体的移动。我们希望视频模型可以利用这些内容,并试图学习一些关于世界的3D知识。事实证明,通过这些视频,我们能够展示视频模型能够很好地推理3D,这在某种程度上是出乎意料的。
Anjney Midha: 这方面最让人惊讶的是什么?
Jiaming Song: 我认为最惊讶的是,大规模计算几乎是捕捉许多图形和物理模拟社区花费多年开发的复杂效果所需要的全部。我稍后会展示一些详细的例子。
视频模型的潜力
Anjney Midha: 我们现在看到的是一些Luma Dream Machine生成的样本,它们能够重建3D场景。
Jiaming Song: 是的。例如,在这个案例中,我们从上一个幻灯片中截取了一个视频,将其放入3D重建工作流中。结果表明,它能够相当合理地重建该方向的3D场景。这个工作流非常简单。我们获取一些图像,然后将其转换为视频,再将视频放入3D重建系统。结果证明,它在3D方面非常一致。
Anjney Midha: 这真是令人震惊。我们应该花点时间来谈谈这个。你刚刚说,工作流是从任意图像开始的。然后,这张图像成为Dream Machine视频模型的提示,输出一个视频,再通过重建工作流生成一个结构一致的3D场景。这告诉你Dream Machine在做什么?
Jiaming Song: 它在3D推理方面的表现远胜于我们之前使用的任何模型。这与通过数据微调获得的模型非常不同,因为有更多的视频数据,能够捕捉到比多视角图像模型可能达到的分辨率更高的细节。此外,这个工作流的简单性也非常吸引人。不需要非常复杂的捕捉来进行3D重建一直是我们试图解决的问题。我们考虑了多种方法来解决这个问题,因为我们认识到,尽管Nerf和Gaussian Splats在研究文献中非常流行,但当你尝试在实际中部署这些技术时,会有很多问题随之而来。例如,人们在尝试捕捉物体时,往往不会完全360度地捕捉物体;相机可能会有运动模糊;物体可能在移动,所以最好让它们完全静止。这些都是我们在开发Dream Machine之前试图解决的限制。因此,这对我们来说也非常令人兴奋,因为它表明有一个非常有趣的替代路径可以解决3D重建问题。
Anjney Midha: 当团队内部展示了第一次的实验结果时,你的反应是什么?
Jiaming Song: 我认为团队中很多成员的反应是:“我们解决了3D问题。”当然,这还不是一个完全端到端的3D工作流,但令人感兴趣的是,这表明3D重建可以通过这种方式解决。我们中很多在3D生成和3D重建方面付出大量努力的人,对这些生成结果的一致性感到震惊。更重要的是,场景中的移动物体也能一致地移动。在3D领域,我们总是认为物体相对静止,主要是相机在移动。但在Dream Machine中,你可以看到物体也在移动。在这种情况下,相机和物体都在移动。
从某种意义上说,你间接地解决了需要非常复杂的工作流来解决的问题。传统方法首先需要有3D资产,然后进行动画处理。而我们发现,所有这些都可以通过一个好的模型来解决。
Anjney Midha: 这对我来说也是个震撼,因为正如我们之前谈过的,我上一家公司是一家计算机视觉重建公司。我们花了很长时间建立重建工作流。虽然我们使用的是无监督学习,主要应用是定位,但基本的理念是你可以通过观看世界的视频来学习和导航物理世界,而不是直接理解或建模其结构,这是相当违反直觉的。这是怎么回事?为什么会有一个如此好的世界模型,它能够取代以前的方法?
Jiaming Song: 关键在于大量的数据和大量的计算。我认为这实际上与人类如何感知世界相当相似。因为作为人类,你的大脑中并没有预设3D表示,但人类通过观察周围的世界,从几乎无限的视频流中开始对周围的世界产生理解。从某种意义上说,这与Transformers在这种情况下的工作方式非常相似。当然,这种现象的确切物理或数学机制仍然是一个开放的研究问题。但我认为,这足以证明这些学习算法正在做一些非凡的事情。
Anjney Midha: 我猜这应该是你们第一次发现视频模型不仅仅是在生成有趣的帧,而是可能对世界有一种内在的理解。
Jiaming Song: 是的。
Anjney Midha: 而3D一致性是第一个线索。还有其他什么线索吗?
Jiaming Song: 是的,我们可以深入探讨一下这些视频,这是我们在一些NERF数据集上尝试的。因为我们团队中很多人都在研究NERF、Gaussian Splatting和重建。背景是我们将图像的第一帧输入Dream Machine,然后Dream Machine会生成一个视频。正如你所看到的,生成的视频在3D一致性方面看起来非常惊人。这里有更多的例子,全部来自非常流行的NERF数据集。如果你在这个领域工作,你肯定知道这些数据集的来源。
Anjney Midha: 什么是NERF,什么是Gaussian Splats?
Jiaming Song: NERF的全称是Neural Radiance Field(神经辐射场)。其理念是假设世界是通过体积渲染技术模拟的。基于这一假设(显然这是不完美的),我们尝试解决在这个3D场中的某个点的颜色和不透明度。渲染通过沿光线积分来实现,通常在某些位置东西是半透明的,这就是我们得到渲染结果的方式。当然,仅有一个视角是不足以解决这个问题的。
在NERF的情况下,通常需要非常详细的多视角输入,比如图像或视频,这样这些问题才能得到解决。一个相当有趣的突破是,与旧的基于摄影测量的方法相比,这些重建可以多么逼真。这些方法在反映光照变化和复杂物理效果方面要比现有的摄影测量技术好得多。但这是从2020年开始的,自那以后很多技术得到了改进。
其中一个例子是Gaussian Splatting。你可以将其视为另一种基于体积渲染的表示方式,在渲染工作原理上比现有的NERF技术更高效。它使与这些对象的交互成为可能,因为你可以比以前以更高的FPS(每秒帧数)渲染内容。
Anjney Midha: 明白了。我们现在在看什么?
Jiaming Song: 我们正在看由Dream Machine生成的视频,输入是一帧图像。这是3D重建数据集中常见的例子。在NERF的情况下,会有很多环绕该物体的图像,目标是重建3D物体并重新渲染它们。这是一个非常有趣的设置,因为你可以看到桌子不是完全反光的,但随着视角的变化,你可以看到光线在桌子侧面的反射。这对于NERF来说是相当革命性的,因为摄影技术还无法推理这种物理效果。
但Dream Machine的惊人之处在于,我们几乎没有对这些NERF数据集进行任何处理,也没有将任何3D先验知识融入模型中。仅通过从图像生成视频,模型就学会了揭示这些有趣的物理特性。第二个例子来自一篇名为ZipNerf的论文。在这里,我们也只提供了一张图像的第一帧,并尝试生成大约五秒的视频。一个非常有趣的点是你可以检查电视中的背景反射。随着相机移动,电视的反射似乎也与物理世界中的情况一致,比如窗户的光线照在电视上。这是另一个出现在传统NERF主题中的有趣物理特性。
再强调一下,这只是一个图像,而在传统的NERF方法中,你需要拍摄几乎完美的数百张图像。
Anjney Midha: 为了给大家提供背景信息,我们有大约50年的计算机科学工作,包括图形学、渲染、游戏引擎和模拟。所有这些工作都认为必须在3D中多边形建模世界及其拓扑结构。而Dream Machine基本上用视频作为中介替代了所有这些。是的,视频变成了游戏引擎。
Anjney Midha: 如果我理解正确的话,视频变成了你想要模拟的世界的推理引擎。你不需要网格、不需要拓扑、不需要多边形。你只需要一个足够好的视频模拟器来代理世界中应该发生的事情。为什么我们花了这么长时间才到达这里?
Jiaming Song: 对于研究来说,最困难的部分是意识到什么是可能的。Dream Machine是一个非常大的团队努力的结果。所以即便只是尝试朝这个方向努力,也需要巨大的努力。我认为传统上我们没有这么多计算资源。十年前,当我在做机器学习时,我使用的是MATLAB和非常旧的计算机,所以计算能力还远远不够。之所以现在发生而不是以前,是因为现在有很多因素汇聚在一起,使得这个模型成为现实。十年前几乎不可能实现这一点,因为我们缺乏足够的计算能力。
目前,人们已经逐步意识到这些模型在语言和图像上是有效的。随着更多计算资源和数据的增加,研究社区对这些方法的信心也逐渐增强。
Anjney Midha: 说得好。我们现在有一个视频模型,可以处理传统上需要显式图形工作流的许多功能,不需要游戏引擎,不需要体积重建。它可以处理3D结构、深度、光线传输和动态。但如果我对这些视频模型是否真正理解现实世界的运作持超严格的态度呢?
Jiaming Song: 是的。
Anjney Midha: 最终的目标是因果关系,对吗?我希望了解并看到Dream Machine是否不仅仅是在生成酷炫的帧,它应该能够开始预测世界中必须发生的变化。是的。当给定一些输入时,应该有一些迹象表明它理解牛顿物理或世界状态,并能够推理在你扔球或我的笔掉下时应该发生的事情。你有没有任何证据表明这些模型在做的不仅仅是纯粹的帧对帧预测?
Jiaming Song: 绝对有。我将展示的是当涉及到切换时会发生什么。在人们访问的以前的视频模型中,通常更像是图像动画器。图像占据了场景的大部分,然后主要是无切换地移动。然而,如我们在电影中所知,很常见的是场景切换到不同的镜头,比如从不同角度拍摄同一主题的视频。例如,在这个案例中,任务是从图像生成视频。第一帧可能看起来有点令人不安,但这是我们想要给Dream Machine的输入。
在这个例子中,我们展示了一只看起来非常不自然的眼睛,盯着站在它前面的女孩。第一帧输入到Dream Machine的图像不包含女孩的正脸。有两个有趣的点。首先,Dream Machine生成了第二个镜头,即女孩的特写镜头。其次,这个女孩看起来非常害怕,这可能是由于这只眼睛看起来非常不自然造成的。这是一种因果关系,即使在物理学上严格推理也很难,而更多是深入到人类心理学的工作原理。
我认为因果关系比物理学更深,并涉及到我们人类无法很好解释的其他方面。关于这个害怕的女孩特写镜头的另一个有趣的事实是,如果你看第一帧,女孩穿着蓝色连衣裙,留着短发。而第二个镜头基本上展示了相同的情况,也表明这两个镜头基本上是同一事物的不同视角。
我认为这也是Dream Machine能够推理将要发生的事情或在不同角度上进行推理的另一个证据,这是使用传统方法很难再现的。
图片
图片来源:unsplash
Anjney Midha: 这非常了不起,对吧?基本上,Luma Dream Machine模型展示了一种现实的表示,它能够保持关于世界上应该发生什么的语义一致性。
Anjney Midha: 你们完全没有进行显式设计就达到了这种效果。那么,因果关系本质上只是选择正确数据的一个自然属性吗?
Jiaming Song: 是的。所有的证据都指向这一点。
Anjney Midha: 这相当疯狂,因为Dream Machine能够仅通过观察镜头切换来模拟现实的因果关系。
Jiaming Song: 是的。
Anjney Midha: 仅通过观察相机角度和视频的变化。
Jiaming Song: 是的。
Anjney Midha: 以及角色在这些切换中的一致性。那么底层发生了什么?你们做了什么让因果关系显现出来?
Jiaming Song: 其实并没有太多。我认为最大的因素是数据规模和计算规模。我也收到很多关于是否有更多显式先验知识嵌入模型中的问题。但答案是否定的。实际上,模型中并没有嵌入很多先验知识。这大致符合“痛苦的教训”的规律。
Anjney Midha: 明白。还有其他能力吗?
Jiaming Song: 是的,我认为另一个有趣的方面是Dream Machine能够推理非物理世界。即使在完全艺术化的场景中,它也能够进行镜头变化,并通过使用模型引入新概念。如果我们通过传统物理技术来推理世界,完全虚构的世界是很难推理的。所以我认为这更多发生在我们的梦境中,而不是物理世界中。这非常接近人类的想象,因此也表明可能过于强调物理学无法解决这些问题。
Anjney Midha: 对我来说最令人惊讶的事情之一是,这只是一个研究预览,这是你们的小模型。既然我们距离你们预览Dream Machine的第一个版本已经有一周时间了,我们从这里走向何方?接下来会是什么?你对看到这些现实世界的涌现属性有什么结论?
Jiaming Song: 显然,下一步是全方面改进模型,包括分辨率、效率、提示跟随能力,以及能够更精确地控制等等。团队实际上正在努力实现这一目标。但我想更进一步谈谈我们的想法。这里我们展示的一个例子是我们之前提到的,你可以从2D获取3D。所以说我们可以从视频中获取4D也不算过分。这意味着你可能能够同时模拟多个角度。
我认为朝着这个目标前进将是非常有趣的。另一个非常有趣的方面是通过拥有更智能的多模态代理来解锁更多潜力。在这个案例中,我们只展示了文本、视频和图像模态之间的互动,但人类以多种方式感知世界。例如,人类还听到世界,并以不同方式与世界互动。所以,我认为探索通过进入多模态AI路径来进一步解锁潜力也会非常有趣,结合我们能获得的所有信号,并尝试开发能够从这些信号中共同学习的AI。我们目前只是在从文本和图像生成视频的非常基础的阶段。
Anjney Midha: 如果你能够快进到一个已经在多个模态上充分扩展的Dream Machine版本,你期望它能处理哪些目前无法处理的推理问题?
Jiaming Song: 是的,我认为一个非常明显的方面是我们将能够处理更复杂的输入类型。人们常问的一件事是,我们能否对场景中相机的移动提供更复杂的控制?或者我可以给你这段视频中发生事情的草图,然后将其转换成看起来像电影场景的东西?人类有许多不同的想象和表达自己想法的方式。而当前范式的局限在于它缺乏处理这些不同类型输入的能力。
我认为,一个足够智能的AI应该能够处理所有这些不同的需求,并且足够灵活,成为我们创意过程中的伙伴。因此,这是我们在Dream Machine方面非常努力的目标。我们也希望创造一个能够与我们的创意过程合作的AI。区别于非常冷血的AI和人类的是,人类有互动,有记忆。他们能够从历史中学习,并使用这些历史来个性化。
我认为下一个重大突破也将来自于能够为不同的用例个性化这些AI模型。这些模型可以从你与AI的互动中学习,并利用这些经验来帮助你,使你的创意过程更加轻松。
Anjney Midha: 我们谈了很多关于Dream Machine的新功能,但没有谈到它是如何制作的。Dream Machine是用多少个Tokens训练的?
Jiaming Song: 准确计算Tokens的数量非常困难,因为技术上,Tokens的数量取决于我们压缩视频的效率。但硬盘上的原始视频数据量大约是PB级的。这大约是目前最大的语言数据集的1000倍。我可以保证这个数据集仍在增长。如果我们将其转换为原始Tokens,我估计大约是数百兆个Tokens,远超过当前语言模型的训练量。
Anjney Midha: 你说的是数百兆个Tokens吗?
Jiaming Song: 是的
Anjney Midha: 让我们明确一下。世界上最大的开源模型Lama 3是用15兆个Tokens训练的。而你的最小模型Dream Machine B0是用数百兆个Tokens训练的。
Jiaming Song: 是的。我想我们需要解释一下为什么会这样。首先,我们在架构设计上做了改进,使得训练更长的序列长度变得容易得多。因此,相比于纯语言模型,我们的模型训练速度会更快。其次,这在很大程度上取决于视频的压缩率以及我们进行了多少压缩。我认为我们的一个目标是将来的压缩率比现在更高。但即使这意味着Tokens数量减少,但不代表能力下降,因为目前在如何对视频进行Token化方面仍然有非常活跃的研究。而在语言建模中,Token化的方法相对成熟。因此,我们可能不想严格用Token数量来衡量训练数据,而是看硬盘上的数据大小。但我可以自信地说,它几乎大了三个数量级。
Anjney Midha: 如果这是最小的模型,那么你能否说明一下对这些模型进行有用的精确微调所需的数据量?如果预训练语料库如此之大?
Jiaming Song: 微调数据集肯定可以小得多。原因是已经有很多研究表明,微调所需的数据远少于预训练所需的数据。所以它们的作用是不同的。当然,我们可以用较少但质量更高的数据来实现很多目标。我认为这也是语言建模社区逐渐认识到的,拥有高质量数据的重要性有时超过了拥有更大模型的能力。比如,Luma 3的8亿参数版本可以与Luma 2的700亿参数版本媲美甚至更好,这主要归功于更好的数据集。因此,拥有一个好的数据集对于成功是非常关键的。
图片
图片来源:unsplash
Anjney Midha: 数据总是胜过规模,对吗?
Jiaming Song: 是的,而且我认为在推理成本方面,Diffusion模型和自回归模型的算法工作方式大不相同。这对系统的影响也有很大的不同。目前,在推理速度方面我们还有很多改进空间。我认为我们可以在模型设计和推理工作流中进行很多优化,以进一步大幅提升当前的推理速度。我们的目标是,至少要能以你打字的速度生成视频。
Anjney Midha: 以你打字的速度?
Jiaming Song: 是的。具体来说,也许是五秒钟内生成五秒钟的视频。因此,大约比我们目前的速度快24倍。
Anjney Midha: 那时它就只是一个实时生成引擎了,不是吗?
Jiaming Song: 是的,这就是其含义。
Anjney Midha: 假设你引入了一秒的初始延迟。
Jiaming Song: 是的。
Anjney Midha: 每次后续用户交互,你只是在缓冲后续的生成。对我来说,作为用户,我是否在与游戏引擎互动还是与视频模型互动应该是不可区分的,对吗?
Jiaming Song: 是的。我认为我们仍然需要克服一些技术障碍,但这个说法离现实并不遥远。
Anjney Midha: 从时间上来说,我们在谈论几周、几个月、几年还是几个季度?
Jiaming Song: 在一年之内。
实现多模态AI的愿景
Anjney Midha: 实时、高质量视频生成的二阶和三阶效应是什么?
Jiaming Song: 这种技术的一个更直接的效果是将这些推理能力应用于具身AI。我有很多从事机器人研究的朋友问我,是否可以在机器人中使用你的视频模型。我说,现在还不行,但不久之后你就可以在机器人中使用它进行推理过程。
如果我们能够实时推理下一帧会发生什么,那么机器人利用这些知识推理世界的现实也不会太遥远。从实际角度来看,使这些技术对机器人有用的另一个方面是,大多数日常任务中机器人可能不需要那么高的表示保真度。目前,许多机器人可以用3D点云完成任务。如果我们给它们一个合理的视频模型,即使不是最高分辨率,但延迟更低,我认为这对它们来说也是非常有吸引力的。当然,在这些情况下,更准确地遵循物理规律更为重要,但我仍然希望这能在具身数据中带来至少二阶的突破。
未来的探索与突破
Anjney Midha: 你最疯狂的研究想法是什么?
Jiaming Song: 我最疯狂的研究想法是将这变成一个创意伙伴。考虑到我们当前的模型能力,主要由语言嵌入和图像或视频Tokens之间的浅层交叉注意力组成,这并不能真正实现我们的目标。我们需要真正思考这些不同模态之间如何互动。我真的希望创造一个不仅能生成漂亮像素的模型,还能与我们对话,同时展示不同模态内容的模型。从技术角度来看,这可能需要比目前尝试的上下文更大得多。我最疯狂的想法之一是看看我们能否达到一百万的上下文长度。如果我们能达到一万亿的上下文长度,我觉得我们就离模拟人类与世界的互动不远了。
Anjney Midha: 为了让一个拥有扩散主干的大规模多模态模型以你期望的智能伙伴方式推理世界,我们是否基本上需要人类在生活中所用的每一种模态的输入?
Jiaming Song: 是的。
Anjney Midha: 你需要音频,因为这是我们听到的方式。你需要视觉,因为这是我们感知世界的方式。你需要语音,因为这是我们交流的方式。我们需要深度吗?你定义的多模态范围是什么?
Jiaming Song: 我认为多模态的完整范围不仅限于人类能够感知的。即使在视觉领域,也有一些模态是人类无法感知的,因为我们知道人类只能看到某些波长的光,只能听到某些频率的声音。当然,我们从外部来源观察到,科学家已经知道存在这些超出人类感知范围的模态,比如光和声音。因为我们有这些能够接收更大范围输入的机器和传感器,AI不应该局限于人类所能听到或感知的范围。因此,我认为多模态的定义可以是我们用传感器捕捉到的任何东西。当然,随着我们为这些传感器开发更好的硬件,我们有了更好的方式来捕捉世界。结果是,智能也会随之变得越来越强。
Anjney Midha: 你认为我们距离将我们的梦想重建为模拟世界,并允许多人互动有多远?
Jiaming Song: 还有一些步骤要走。一个已知的步骤是能够进行实时生成,正如我们提到的。另一个步骤是让这个AI或环境不仅能够推理当前视角,还能够同时推理多个视角。这需要我们在4D领域进行某种推理。此外,我们还希望支持多人的互动。因此,达到这个目标还有一些技术障碍需要克服。但我对这些问题在不远的未来得到解决持乐观态度。
Anjney Midha: 太棒了。非常感谢你。
Jiaming Song: 好的,非常感谢你。
原文:Beyond Language: Inside a Hundred-Trillion-Token Video Model
https://a16z.com/podcast/beyond-language-inside-a-hundred-trillion-Token-video-model/
编译:姜博文