“希望这一方法能够成为将NeRF应用于视觉定位任务的新基准。”
(映维网Nweon 2024年10月25日)视觉再定位是虚拟现实/增强现实等领域的关键技术。经过几十年的探索,APR、SCR和HMs已经成为最流行的框架。然而,尽管APR和SCR的效率很高,但它们的精度有限,特别是在大型户外场景中。HMs是准确的,但需要存储大量的二维描述符进行匹配,导致效率较低。
针对这个问题,剑桥大学提出了一种高效、准确的基于稀疏神经辐射场的视觉再定位框架VRS-NeRF。
具体来说,团队引入了用于3D地图表示的显式几何地图EGP和用于稀疏patch绘制的隐式学习地图ILM。在定位过程中,EGP提供空闲2D点的先验信息,ILM利用稀疏点绘制具有稀疏NeRF的patch进行匹配。这允许丢弃大量的2D描述符,从而减小地图大小。
另外,仅对有用的点而不是整个图像中的所有像素渲染patch,这可以大大减少了渲染时间。团队表示,框架既继承了HMs的准确性,又克服了其低效率的缺点。在7Scenes,CambridgeLandmarks和Aachen数据集的实验表明,所述方法比APR和SCR提供了更好的准确性,并且性能接近HMs,但效率更高。
视觉定位的目的是估计已知环境中给定图像的旋转和位置。视觉定位作为一项基本的计算机视觉任务,是虚拟现实/增强现实等各种应用的关键技术。经过几十年的探索,业界已经提出了许多优秀的方法,大致可分为APR、SCR和HMs。APR将地图嵌入到高级姿态特征中,并使用多层感知MLP预测六自由度姿态。它们的速度很快,特别是在大规模场景中,但由于隐含的3D信息表示,它们的准确性有限。
与APR不同的是,SCR直接回归像素的三维坐标,建立2D-3D匹配,并使用PnP和RANSAC估计姿态。尽管SRC在室内环境中具有很高的精度,但它不能扩展到室外大场景。
HMs不使用端到端2D-3D匹配预测,而是采用全局特征在数据库中搜索参考图像,然后在提取的查询关键点与参考图像之间建立对应关系。2D-2D匹配提升为2D-3D匹配,并使用PnP和RANSAC作为SRC进行绝对姿态估计。
由于测量精度高、操作灵活,近年来HMs得到了广泛的应用。然而,2D关键点存储的巨大内存成本影响了其在实际应用中的效率。
针对上述问题,研究人员希望为大规模视觉定位任务寻找一种高效、准确的解决方案。为了实现这一点,他们寻求神经辐射场NeRF的帮助。
NeRF首先提出用于视图合成。由于其强大的场景和对象表示能力,NeRF广泛用于许多其他任务,包括视觉定位。尽管LENS和NeRFloc分别将NeRF应用于APR和SCR,但它们在室外场景下的性能依然有限。
另外,直接使用NeRF进行定位是低效的,因为渲染图像的所有像素很慢。相反,研究人员采用混合映射,通过只渲染有用的稀疏像素来使用NeRF进行有效的定位。混合映射由显式几何映射EGM和隐式学习映射ILM两部分组成。
EGM包含稀疏的三维点及其在参考图像上的二维观测值。ILM是由NeRF表示的隐式映射。在测试时,参考图像的2D观测提供了先验稀疏像素位置和camera姿势作为NeRF的输入。NeRF返回每个稀疏像素的RGB值。
为了提高精度,团队为每个像素渲染一个固定大小的patch。渲染的patch进一步用于构建2D-3D匹配,并使用PnP和RANSAC进行绝对姿态估计。
使用EGM和ILM,所述方法能够在线渲染有用的像素,而不是依赖离线的2D描述符进行匹配,从而令定位系统更加高效。为了允许当前的NeRF在大规模场景中工作,研究人员采用基于聚类的策略自适应地自动将场景划分为更小的场景。
在热门的室内7Scenes,以及室外CambridgeLandmarks和Aachen数据集的实验表明,所述方法在保持准确性的同时需要更少的内存成本。团队表示:“希望这一方法能够成为将NeRF应用于视觉定位任务的新基准。”
总的来说,团队提出了一种将NeRF应用于视觉定位任务的新方法。他们引入显式几何映射EGM和隐式学习映射ILM来提供稀疏关键点和渲染patch,在查询和渲染图像之间建立稀疏匹配。所述方法采用EGM提供的稀疏点进行稀疏渲染,避免了耗时的全图渲染。对于由NeRF表示的ILM,方法丢弃了消耗内存的2D描述符。因此,系统更有效率。
然而,与目前的方法相比,在大规模Aachen数据集上的精度依然有限。团队表示,希望这项研究可以成为一个基础,并帮助更多的研究人员可以在未来做得更好。