以4K (4096 × 2048)分辨率生成360度全景动态场景
(映维网Nweon 2024年12月24日)虚拟现实和增强现实技术的蓬勃发展推动了对创造高质量、沉浸式和动态环境的不断增长的需求。然而,现有的生成技术要么只关注动态对象,要么只从单一视角绘制图像,无法满足VR/AR应用对自由视点、360度虚拟视角的要求。
在一项研究中,PICO、得克萨斯大学奥斯汀分校、加利福尼亚大学洛杉矶分校和得克萨斯农工大学的研究人员解决了将单个全景提升到身临其境4D体验的挑战性任务,并展示了以4K (4096 × 2048)分辨率生成360度全景动态场景的能力。
团队提出的管道促进了自然场景动画化,并使用高效的飞溅技术优化了一组动态高斯函数以用于实时探索。为了克服缺乏场景尺度的带注释的4D数据和模型,尤其是全景格式,他们提出了一种全新的Panoramic Denoiser,它能适应一般的2D扩散先验,在360度的图像中保持动画化,将它们转换成在目标区域有动态场景的全景视频。
随后,Dynamic Panoramic Lifting将全景视频提升为4D沉浸式环境,同时保持空间和时间的一致性。通过将二维模型的先验从透视域转移到全景域,并进行具有空间外观和几何正则化的四维提升,团队实现了4K分辨率的高质量全景到四维生成。
随着生成技术的日益增长,创造高质量资产的能力有可能彻底改变内容创作。与智能手机或平板电脑等2D显示器不同,理想的VR/AR内容必须提供身临其境的无缝体验,支持六自由度虚拟之旅,并支持具有全方位360度的高分辨率4D环境。
尽管图像、视频和3D模型的生成方面取得了重大进展,但全景4D内容的发展滞后,主要原因是缺乏高质量的4D训练数据。即便在最相关的4D生成领域,现有的研究都主要集中在生成或合成对象级内容,而相关图像通常是低分辨率的(低于1080p),无法满足合格沉浸式体验的需求。
团队认为用于创建沉浸式环境的理想生成工具应具有以下属性:
生成的内容应具有高感知质量,具有动态元素(4D)达到高分辨率(4K)输出。
4D表示必须能够实时呈现连贯,连续和无缝的360度全景视图,支持高效的六自由度虚拟游览。
然而,创建多样化、高质量的4D全景资产提出了两个重大挑战:
大规模、带注释的4D数据的稀缺性,特别是在全景格式中,限制了专门模型的训练。
现有的二维扩散模型难以在4D和4K全景视图中同时实现细粒度的局部细节和全局相干性。相关模型通常是在窄视场的透视图像训练,难以适应大范围全景图像。
另一方面,使用网络规模多模态数据训练的视频扩散模型已经显示出作为基于区域的动态先验的多功能,高斯飞溅在建模4D环境中显示出高效的能力。所以,研究人员通过利用扩散模型的生成能力来动画静态全景图像,将其转化为逼真的动态场景,以支持身临其境的360度体验,从而解决了大规模,全方位动态场景生成问题。
为了实现这一目标,团队建议使用一组动态高斯函数将动态全景视频提升到4D环境资产,而动态高斯函数可以无缝集成到VR/AR平台中进行实时渲染和交互。
他们介绍的新颖框架4K4DGen旨在创建分辨率高达4K的全景4D环境。4K4DGen解决了在全景视频中保持整个360度视场一致的对象动态的关键挑战,同时保留了视频过渡到完全交互式4D环境时的空间和时间一致性。
具体来说,Panoramic Denoiser通过去噪对应于用户交互区域的球形latent代码来动画360度视场全景图像。全景去噪器利用了一个最初是为窄视场视角图像设计的训练扩散模型,它能够生成360度动态全景,同时确保整个全景的全局一致性和连续性。
为了将全向全景视频转换为4D环境,他们又提出了Dynamic Panoramic Lifting。它使用富含视角先验知识的深度估计器来纠正尺度差异,从而生成全景深度图。另外,采用了时空几何对齐优化的时变三维高斯函数,以确保动态场景表示和渲染的跨帧一致性。
通过将透视域的二维通用统计模式应用于全景格式,并利用几何原理有效地正则化高斯优化,团队实现了高质量的4K全景到4D内容生成,并具有逼真的新景合成能力。
总的来说,团队提出的新颖框架4K4DGen允许用户使用文本提示创建高质量的4K全景4D内容,从而提供身临其境的虚拟游览体验。为了在没有高质量四维训练数据的情况下实现全景到四维的转换,他们将一般的二维先验模型整合到全景域中。
相关方法包括两个阶段的管道:首先使用Panoramic Denoiser生成全景视频,然后通过时空几何对齐机制进行4D高程,以确保空间一致性和时间连续性。
当然,团队指出了当前的局限性。首先,在生成的4D环境中,时间动画的质量主要依赖于预训练的I2V模型的能力。未来的改进可能包括集成更先进的2D动画器。其次,由于所述方法保证了4D高程阶段的空间和时间连续性,所以目前无法合成环境的重大变化,例如发光萤火虫的出现或天气条件的变化。第三,生成的4D环境的高分辨率和时间依赖性表示需要大量的存储容量,蛋这可以在未来的研究中使用一系列的技术进行优化。