PICO等中美团队提出4K4DGen框架,实现高质量全景4D内容生成

随着虚拟现实(VR)和增强现实(AR)技术的快速发展,创造高质量、沉浸式和动态环境的需求日益增长。然而,现有的生成技术往往局限于动态对象的生成或单一视角的图像绘制,无法满足 VR/AR 应用对自由视点、360 度虚拟视角的严格要求。

为了解决这一挑战,PICO、得克萨斯大学奥斯汀分校、加利福尼亚大学洛杉矶分校和得克萨斯农工大学的研究人员携手合作,成功地将单个全景提升至身临其境的 4D 体验,并展示了以 4K(4096×2048)分辨率生成 360 度全景动态场景的能力。

图片

这项研究的核心在于团队提出的创新管道,该管道不仅促进了自然场景的动画化,还通过高效的飞溅技术优化了一组动态高斯函数,用于实时探索。为了克服缺乏高质量 4D 数据和模型的难题,尤其是全景格式的数据,研究人员开发了一种全新的 Panoramic Denoiser。这种去噪器能够适应一般的 2D 扩散先验,在 360 度的图像中保持动画化,将它们转换成在目标区域有动态场景的全景视频。

随后,Dynamic Panoramic Lifting 技术将全景视频提升为 4D 沉浸式环境,同时保持了空间和时间的一致性。通过将二维模型的先验从透视域转移到全景域,并进行具有空间外观和几何正则化的四维提升,团队实现了 4K 分辨率的高质量全景到四维内容的生成。

图片

这一突破性的技术框架被命名为 4K4DGen,旨在创建分辨率高达 4K 的全景 4D 环境。4K4DGen 解决了在全景视频中保持整个 360 度视场一致的对象动态的关键挑战,同时保留了视频过渡到完全交互式 4D 环境时的空间和时间一致性。

具体来说,Panoramic Denoiser 通过去噪对应于用户交互区域的球形 latent 代码来动画 360 度视场全景图像。这一步骤利用了最初为窄视场视角图像设计的训练扩散模型,但经过优化后能够生成 360 度动态全景,同时确保整个全景的全局一致性和连续性。

为了将全向全景视频转换为 4D 环境,Dynamic Panoramic Lifting 技术使用了富含视角先验知识的深度估计器来纠正尺度差异,从而生成全景深度图。此外,还采用了时空几何对齐优化的时变三维高斯函数,以确保动态场景表示和渲染的跨帧一致性。

图片

通过将透视域的二维通用统计模式应用于全景格式,并利用几何原理有效地正则化高斯优化,团队成功实现了高质量的 4K 全景到 4D 内容的生成。这一技术不仅具有逼真的新景合成能力,还允许用户使用文本提示创建高质量的 4K 全景 4D 内容,从而提供身临其境的虚拟游览体验。

尽管取得了显著的进展,但研究团队也指出了当前的局限性。例如,生成的 4D 环境中时间动画的质量主要依赖于预训练的 I2V 模型的能力;目前无法合成环境的重大变化,如天气条件的变化;以及生成的 4D 环境需要大量的存储容量。然而,这些局限性也为未来的研究提供了方向,包括集成更先进的 2D 动画器、开发能够处理环境变化的算法以及优化存储技术等。