1.中佛罗里达大学和United Imaging Intelligence团队提出3D视觉语言高斯飞溅新框架,以在视觉和语言模态之间取得平衡。
2.该框架采用新的跨模态光栅化器,结合模态融合和平滑的语义指示器,增强语义光栅化效果。
3.为此,团队还提出了摄像头视图混合技术,提高现有视图和合成视图之间的语义一致性,减轻过度拟合。
4.实验结果显示,所提出方法在开放词汇语义分割中达到了最先进的性能,超过现有方法。
5.未来研究将探索丰富场景表示的模式,并扩展到动态场景。
以上内容由腾讯混元大模型生成,仅供参考
在视觉和语言模态之间取得平衡
(映维网Nweon 2025年03月13日)3D重建方法和视觉语言模型的进步推动了多模态3D场景理解的发展,而这在虚拟现实/增强现实等领域具有重要应用。然而,目前的多模态场景理解方法将语义表示直接嵌入到三维重建方法中,没有在视觉和语言模态之间取得平衡,导致半透明或反射物体的语义光栅化效果不理想,以及颜色模态的过度拟合。
为了缓解所述限制,中佛罗里达大学和United Imaging Intelligence团队提出了一个充分处理不同视觉和语义模式的解决方案,即用于场景理解的3D视觉语言高斯飞溅模型,以强调语言模态的表示学习。
团队提出了一种新的跨模态光栅化器,使用模态融合和平滑的语义指示器来增强语义光栅化。他们同时采用了摄像头视图混合技术来提高现有视图和合成视图之间的语义一致性,从而有效地减轻了过度拟合。大量的实验表明,所提出方法在开放词汇语义分割中达到了最先进的性能,大大超过了现有的方法。
神经辐射场(NeRF) 和3D高斯飞溅(3DGS) 等3D重建方法的进步已经能够有效地获取3D颜色表示,促进从新视点进行高保真和实时渲染。另外,CLIP和LSeg等视觉语言模型已经弥合了2D空间中彩色图像和语义特征之间的差距。给定输入图像,模型可以生成密集的2D语言地图,即为每个像素分配语义丰富的语言嵌入。
在所述发展的基础之上,旨在从多视图图像及其相应的camera姿态中学习有效3D语义表示的多模态3D场景理解近年来取得了重大进展。这一研究领域在各种实际领域具有广泛的应用,包括虚拟现实/增强现实等领域。
过去的研究人员在多模态3D场景理解中采用了将语义表示嵌入到3D表示中进行联合重建训练的范式,并利用从现成的视觉语言模型中提取的语义知识来指导训练过程。相关解决方案依赖于2D监督来学习多模态(颜色和语义)3D场景表示,即将学习到的3D表示投影回2D视图,以便与输入观察进行比较。
然而,中佛罗里达大学和United Imaging Intelligence团队认为所述方法直接将语义表示嵌入到3D重建方法中,未能在视觉和语言模式之间取得平衡。例如,他们直接将颜色光栅化函数应用于新的语言模式,而忽略了函数依赖于不转换为语义信息的颜色不透明度属性。
现有技术同时倾向于忽略颜色和语义模态的不均匀复杂性和分布,以及过度拟合颜色信息损害3D语义表示的风险。尽管相同的物体从不同的角度可能呈现不同的颜色,但它们的语义信息保持不变。相反,不同的对象可以共享相似的颜色,但不希望它们的语义表示看起来相同。因此,颜色表征的训练可能会对3D语义表征的训练产生负面影响。
考虑到所述限制,团队的直觉是在视觉和语言模式之间取得平衡,而不是简单地将语言特征嵌入到基于RGB的3D重建中。
所以,他们提出了一种名为3D视觉语言高斯飞溅的新框架,如图1所示。一方面,研究人员提出了一种新的跨模态光栅化器,它优先呈现语言特征。在栅格化之前,通过模态融合将语义特征与来自颜色域的有意义信息整合在一起,以促进语义信息的鲁棒学习。
另外,团队引入了一个特定于语言的参数,使不同高斯的语言特征能够有意义地混合。这种方法产生更准确的语义信息表示,特别是对于半透明或反射物体,如玻璃和不锈钢。
同时,他们提出了一种针对语义模态的摄像头视图混合增强方案,即跨视图混合信息来合成新的训练样本。过程通过增强现有视图和新视图之间的语义一致性来规范语言形态,从而产生更稳健的3D语义表示。
相关论文:3D Vision-Language Gaussian Splatting
https://paper.nweon.com/16233
总的来说,团队提出了用于语义场景理解的3D视觉语言高斯飞溅,并解决了当前3DGS方法中忽略语言信息的问题。相关的新跨模态光栅化器执行模态融合,然后进行特定语言的光栅化,利用平滑的语义指示器来禁用不相关的高斯,例如,对于具有复杂光传输(反射,半透明等)的场景。
另外,摄像头视图混合技术有效地减轻了过度拟合,确保了现有和合成视点之间的语义一致性。综合实验验证了框架的有效性,证明了与现有技术相比的显著改进。
团队表示,未来的研究将进一步探索可以丰富场景表示的模式,并将其扩展到动态场景。