把DragGan引入三维图像，南洋理工大学团队开发3D编辑技术MVDrag3D ，只需拖拽就能实现精准P图

DeepTech深科技

2024-10-24 18:29发布于北京DeepTech深科技官方账号

全文1978字，阅读约需6分钟，帮我划重点

划重点

01南洋理工大学团队开发了名为MVDrag3D的3D编辑技术，通过多视角生成与重建方法实现精准拖拽式编辑。

02该技术将3D对象渲染为四个正交视角，利用多视角扩散模型进行一致的拖拽式编辑，保持3D形态的完整性。

03为此，MVDrag3D采用轻量级的变形网络预测并调整高斯点位置，以纠正3D对齐问题并提升几何一致性。

04同时，研究团队引入基于图像条件的多视角评分函数，增强重建后3D对象的视觉一致性和细节表现。

05实验结果显示，MVDrag3D在精度、生成能力以及支持多种3D表示类型的灵活性方面均具有优势。

以上内容由腾讯混元大模型生成，仅供参考

3D 编辑一直是图形学中一个具有挑战性的领域。传统的基于拖拽的 3D 编辑主要依赖于网格变形和优化函数，利用用户放置的控制点来保持几何特征。但这些方法往往受限于网格的固定拓扑结构，使得复杂的结构编辑（如明显的拓扑变化或新纹理的生成）非常繁琐而难以实现。

近年来，一部分学者利用基于 3D 高斯模型的方法提高了 3D 编辑的灵活性，但仍面临着优化时间长或过度饱和的问题，并且在实现大规模结构变化方面存在不足。

相比之下，得益于图像生成模型（如 GAN 和扩散模型）的能力，拖拽式编辑在 2D 领域中得到了快速发展，例如此前大火的 DragGan 等方法，就在二维图像中实现了精确的交互式操控。于是，Drag3D 等图像编辑方法就试图将类似的创新带入 3D 领域。只是这些方法仍受限于当前 3D 生成模型的能力和泛化性。

图丨 DragGan 演示图（来源：GitHub)

那么，有没有方法能弥补这一不足，从而在二维领域的方法的基础上实现更强的 3D 图像编辑呢？

回顾过往研究，大多数 3D 表示可以渲染为多个视图，并且可以从多个视图准确地重建 3D 对象。而 MVDream 等现有多视图扩散模型又为生成一致的多视角图像提供了有效的先验。

受此启发，DragGan 的作者、南洋理工大学助理教授潘新刚所在团队开发了一种新的多视角拖拽式 3D 编辑技术 MVDrag3D，其核心思想就是通过多视角生成与重建的方法，确保对 3D 对象的各个视角进行一致且高质量的编辑。

日前，这项研究成果已经以“MVDrag3D: Drag-based Creative 3D Editing via Multi-view Generation-Reconstruction Priors”（MVDrag3D：通过多视图生成重建先验实现基于拖动的创意 3D 编辑）为题发表在预印本网站 arXiv 上 [1]。

南洋理工大学计算机科学与工程学院研究员 Honghua Chen 是第一作者。

图丨相关论文（来源：arXiv）

这种方法首先将 3D 对象渲染为四个正交视角，以全面捕捉对象的几何形状和外观信息。然后使用多视角扩散模型在不同视角间进行一致的拖拽式编辑，由此确保在一个视角上所做的修改能够在其他视角上得到一致的反映，从而保持 3D 形态的完整性。具体而言，这种一致性是通过多视角引导能量函数来实现的，利用扩散模型在所有视角上生成一致的特征。

编辑后的视角随后融合为一个 3D 高斯表示。但要注意的是，初始的 3D 重建通常会导致不同视角之间对齐不当，或者缺少细节，从而影响最终的视觉效果。为了解决这些问题，MVDrag3D 采用了一个轻量级的变形网络，该网络可以预测并调整高斯点的位置，以纠正 3D 对齐问题并提升几何一致性。

图丨 MVDrag3D 的整体架构（来源：GitHub）

最后，研究团队引入了一个基于图像条件的多视角评分函数，从所有视角提取生成先验，从而增强重建后的 3D 对象的视觉一致性和细节表现。这种评分函数基于图像的特征信息，确保在多视角融合后，3D 对象的各个部分都保持一致的细节和视觉质量。

为了检验 MVDrag3D 的能力，研究团队从视觉比较和定量比较两种角度对其进行评估。

单从视觉层面来看，就可以发现相比 APAP、DiffEditor、PhysGaussian 等现有的方法，MVDrag3D 展示出更高的精度和生成能力，能够精确地拖拽 3D 对象的特定部分，并生成新的结构和纹理。

特别是在复杂的形状和大规模的结构变更方面，MVDrag3D 的表现令人满意。例如，对于一些需要显著拓扑改变的场景（如让鸟类张开翅膀），MVDrag3D 能够生成新的形状和纹理，尽量减少视觉失真。

图丨 MVDrag3D 与其他最先进的方法的比较（来源：arXiv）

至于定量比较，团队选取了拖拽精度指数（Dragging Accuracy Index, DAI）和整体编辑质量（GPTEval3D）两个指标加以评估。

在 DAI 测试中，MVDrag3D 在多个拖拽半径下的表现均优于其他方法。而在 GPTEval3D 评估中，MVDrag3D 在纹理细节、几何细节和 3D 一致性方等面也获得了最高的评分。

图丨 GPTEval3D 的评测结果（来源：arXiv）

总而言之，与之前的方法相比，MVDrag3D 在精度、生成能力以及支持多种 3D 表示类型的灵活性方面均具有优势。

其原因在于，PhysGaussian 等方法虽然能够通过物理模拟实现某些运动，但由于需要预先定义物理属性，限制了其适用性，且难以应对大规模的结构变化。而基于多视角扩散模型的 MVDrag3D 则通过学习生成先验，克服了这些局限，使得编辑过程更加直观和灵活。

此外，利用多视角生成先验，MVDrag3D 还能够减少传统方法中对齐不当和细节丢失的问题。通过多视角的融合与优化，MVDrag3D 可以确保最终生成的 3D 对象在各个视角上都保持较高的一致性和细节保真度。

展望其前景，这种方法或将为用户友好、高效的 3D 编辑应用铺平道路，从而简化创作过程并提高效率。

参考资料：

1.https://arxiv.org/abs/2410.16272

2.https://github.com/XingangPan/DragGAN

3.https://chenhonghua.github.io/MyProjects/MvDrag3D/

运营/排版：何晨龙