(来源:MIT News)
制作 VR、电影和工程设计等所需的逼真 3D 模型通常是一个繁琐的过程,需要大量的手动尝试与调整。
尽管生成式 AI 图像模型可以通过文本提示生成逼真的 2D 图像,从而简化艺术创作过程,但这些模型并不适用于生成 3D 形状。为了解决这一问题,研究人员最近开发出名为“Score Distillation”的技术,利用 2D 图像生成模型来创建 3D 形状,但生成的结果往往模糊或带有过度的卡通风格。
MIT 的研究人员深入探索了生成 2D 图像与 3D 形状的算法之间的关系与差异,找出了 3D 模型质量较低的根本原因。基于此,他们对 Score Distillation 进行了简单的改进,使其能够生成更加清晰、高质量的 3D 形状,这些形状的质量更接近于目前最佳的模型生成 2D 图像水平。
(来源:MIT News)
如上图,这些示例展示了两个不同的 3D 旋转物体:一个机器蜜蜂和一颗草莓。研究人员通过基于文本的生成式人工智能和他们的新技术生成了这些 3D 物体。
一些其他方法试图通过重新训练或微调生成式人工智能模型来解决这个问题,但这些方法通常代价高昂且耗时。
相比之下,MIT 开发的技术无需额外训练或复杂的后处理,就能生成质量相当或优于这些方法的 3D 模型。
此外,通过找到问题的根本原因,研究人员提升了对 Score Distillation 及相关技术的数学理解,为未来进一步提升性能打下了基础。
“现在我们知道了努力的方向,这使我们能够找到更高效、更快速且质量更高的解决方案。”该技术相关论文的第一作者、电子工程与计算机科学研究生 Artem Lukoianov 说道,“从长远来看,我们的研究可以帮助将这一过程转变为设计师的辅助工具,让创建更加真实的 3D 形状变得更简单。”
Lukoianov 的合作者包括牛津大学研究生 Haitz Sáez de Ocáriz Borde、MIT-IBM Watson AI Lab 研究科学家 Kristjan Greenewald、丰田研究院科学家 Vitor Campagnolo Guizilini、Meta 研究科学家 Timur Bagautdinov,以及两位资深作者:MIT 电子工程与计算机科学助理教授、计算机科学与人工智能实验室(CSAIL)场景表示小组负责人 Vincent Sitzmann,以及 CSAIL 几何数据处理小组负责人、电子工程与计算机科学副教授 Justin Solomon。该研究将在 NeurIPS 上发表。
从 2D 图像到 3D 形状
扩散模型(如 DALL-E)是一种生成式 AI 模型,可以从随机噪声中生成逼真的图像。为了训练这些模型,研究人员向图像中添加噪声,然后教模型逆向处理以去除噪声。模型利用这一学习到的“去噪”过程,根据用户的文本提示生成图像。
然而,扩散模型在直接生成真实的 3D 形状时表现不佳,因为可用于训练的 3D 数据不足。为了解决这一问题,研究人员在 2022 年开发了一种名为 Score Distillation Sampling (SDS) 的技术,利用预训练的扩散模型将多个 2D 图像结合成 3D 表示。
该技术从一个随机的 3D 表示开始,先从随机相机角度渲染出所需物体的 2D 视图,再向该图像添加噪声,然后使用扩散模型去噪,并优化初始的 3D 表示,使其更接近去噪后的图像。研究人员重复这一过程,直到生成目标 3D 物体。
然而,通过这种方式生成的 3D 形状往往显得模糊或颜色过饱和。
“这一瓶颈问题已经存在了一段时间。我们知道底层模型本身能够表现得更好,但人们一直不明白为什么在处理 3D 形状时会出现这种问题。”MIT 研究生 Artem Lukoianov 解释道。
MIT 研究人员深入研究了 SDS 的每一步骤,并发现了一个关键公式与 2D 扩散模型的对应部分存在不匹配。这个公式决定了模型如何通过一步步添加和去除噪声,更新随机表示,使其更接近目标图像。
由于公式的一部分涉及一个复杂的方程,难以高效求解,SDS 用每一步随机采样的噪声代替了该方程。但 MIT 研究人员发现,正是这种随机噪声导致了模糊或卡通化的 3D 形状。
巧妙的近似解法
研究人员没有尝试精确求解这一复杂公式,而是测试了多种近似技术,最终找到了最佳方案。他们的方法并非随机采样噪声项,而是通过当前 3D 形状的渲染结果推断出缺失的噪声项。
“通过这样做,正如论文中的分析所预测的那样,我们能够生成清晰、逼真的 3D 形状。”Lukoianov 解释道。
此外,研究人员还提高了图像渲染的分辨率,并调整了一些模型参数,进一步提升了 3D 形状的质量。
最终,他们利用现成的预训练图像扩散模型,无需昂贵的重新训练,就能创建平滑且逼真的 3D 形状。生成的 3D 物体在清晰度上与依赖特定解决方案的其他方法相当。
“如果只是盲目地调整不同参数,有时有效,有时无效,但你不知道原因所在。而现在,我们明确了需要解决的方程,这让我们可以思考更高效的求解方式。”Lukoianov 说道。
由于他们的方法依赖于预训练的扩散模型,这一模型的偏差和不足也被继承了下来,因此可能会出现幻觉现象或其他错误。改进底层扩散模型将进一步提升这一过程的效果。
除了研究如何更高效地解决这一公式,研究人员还希望探索这些见解如何改进图像编辑技术。
Artem Lukoianov 的研究得到了丰田–CSAIL 联合研究中心的资助。Vincent Sitzmann 的研究获得了美国国家科学基金会、新加坡国防科学与技术局、美国内政部以及 IBM 的支持。Justin Solomon 的研究部分由美国陆军研究办公室、国家科学基金会、CSAIL 未来数据项目、MIT–IBM Watson AI 实验室、纬创集团以及丰田–CSAIL 联合研究中心资助。
原文链接:
https://news.mit.edu/2024/creating-realistic-3d-shapes-using-generative-ai-1204