1.北大&极佳发布了WonerTurbo框架,将3D场景生成时间压缩到0.72秒,实现实时交互。
2.WonderTurbo在几何建模和外观建模方面进行了创新,分别提出了StepSplat和FastPaint算法。
3.与传统方法相比,WonderTurbo在保持空间外观一致性的同时,实现了15倍的加速。
4.实验结果显示,WonderTurbo在CLIP分数、一致性、CLIP-IQA+和美学分数上均有提升。
5.未来,中尾部企业可以通过训练世界模型并结合真实环境数据来提升智驾能力。
以上内容由腾讯混元大模型生成,仅供参考
世界模型有了突破性进展。
过去世界模型的一大挑战是实时交互性不足,目前市面上普遍的3D生成技术(如WonderWorld)更新单视角需要将近10秒,更新慢,交互慢。建模主要涉及到的几何建模和外观建模,前者3DGS依赖迭代训练更新几何表示,耗时长;后者基于扩散模型修复图像,推理步骤长,计算消耗大,从“旧技术地图”找不到“新世界”。此外,因旧技术生成慢,范围窄,现在的单图像新视角生成只能支持小幅的视角变化,很难适应动态交互需求。
北大&极佳发布的WonerTurbo框架改变了这一现状,其把3D场景生成的时间压缩到了0.72秒,能实时交互,且创建多样化且连贯链接的场景。
技术细节上,WonderTurbo做了两个方面的创新。
1)几何建模方面,WonderTurbo提出创新方法StepSplat,通过动态更新而非FLAGS构建3D几何表示,每次更新仅需0.26秒。StepSplat借鉴了前馈方法的思想,直接推断3DGS。此外,StepSplat将前馈范式扩展到交互式3D几何表示,通过维护特征记忆模块,自适应地构建成本量,确保动态视点的一致性。同时,为了进一步增强深度一致性,WonderTurbo还引入了一个轻量级的深度补全模块QuickDepth,为StepSplat构建成本量提供一致的深度先验。QuickDepth在0.24秒内完成缺失的深度信息。
2)外观建模方面,WonderTurbo开发了一种名为FastPaint的双步骤扩散模型,专为即时修复而设计,用以保持空间外观一致性,只需0.22秒就可以完成图像修复。与传统的基于扩散的修复方法不同,FastPaint只需要2步推理就可以实现可比较的结果,同时保持空间外观一致性。
效果展示:从一幅图像开始,用户可以自由调整视角,交互式地控制 3D 场景的生成,每次交互只需 0.72 秒 图源:论文
WonderTurbo整体框架
交互式3D场景生成受限于计算效率,主要由于几何和外观建模的耗时问题。
WonderWorld提出了FLAGS以加速几何建模,但仍需数百次迭代优化几何表示,且其外观建模依赖预训练扩散模型,需数十步推理完成修复。
相比之下,WonderTurbo是通过同时加速几何建模与外观建模,实现实时交互式3D场景生成。也即前面所提到的其在StepSplat、QuickDepth、FastPaint方面的创新。
具体而言,给定用户指定位置后,1)首先FastPaint会基于当前3D场景的渲染图像和用户提供的文本描述,生成新场景外观;2)随后,QuickDepth利用渲染深度图和新生成的外观生成深度图,确保新生成场景的几何结构和现有3D场景对齐;3)最后,StepSplat以深度图和新场景外观为输入,将局部几何增量融合至全局。
WonderTurbo框架展示 图源:论文
核心方法详解
1. StepSplat
StepSplat有几个点值得关注:
输入: 姿态 P_i,图像 I_i^{target},和对应的深度图 D_i^{target}。
特征提取: 使用backbone网络(例如RepVGG)提取匹配特征 F_i^m 和图像特征 F_i^e。
特征记忆: 维护一个特征记忆模块,存储之前视角的匹配特征,用于构建成本量。
深度引导成本量:
1)从特征记忆中自适应选择 N_v 个相邻视角的匹配特征:
2)使用 QuickDepth 提供的深度图 D_i^{target} 作为几何先验,均匀采样 N_d 个深度候选值 {d_s\}_{s=1}^{N_d},范围如下,其中 a 是偏移值。
3)使用平面扫描立体算法将每个相邻视角的匹配特征 F_{t_n}^m 扭曲到当前视角的候选深度平面 d_s 上,其中 W 表示可微的扭曲操作。
4)计算当前视角特征 F_i^m 和每个扭曲的相邻视角特征 F_{in \rightarrow i}^{d_s} 之间的归一化点积相关性,并对所有相邻视角的correlation maps求平均值:
5)使用2D U-Net进一步细化和上采样成本量 S_i。
6)归一化成本量 S_i,并对所有深度候选值进行加权平均,以获得预测的深度图 d:
7)将深度值反投影作为 3DGS 的中心,并将成本量和图像特征解码以获得其他高斯参数。
增量融合:
1)将全局高斯投影到当前像素坐标系:
2)构建一个投影到相同离散像素位置的全局高斯候选集:
3)修剪违反深度一致性约束的冲突高斯:
4)通过选择性地将有效的局部高斯(不包括在 $C$ 中)合并到现有全局模型中来更新全局模型:
2. QuickDepth:
轻量级深度补全模型,以目标帧的 RGB 图像、不完整的深度图和二元掩码作为输入,预测完整深度。训练数据通过模拟相机轨迹和投影获得。
3. FastPaint:
通过知识蒸馏减少推理步骤,并通过数据集进行微调,使其适用于交互式 3D 生成的图像修复任务。数据集通过模拟相机姿态和投影获取掩码。
主要结果
1. 生成速度:
对比表格能很清楚说明这一点,即使采用FLAGS加速,过往方案中最快的WonderWorld也需要超过10秒时间生成场景;LucidDreamer和Text2Room需要为每个场景生成多视角,显著增加外观建模时间,超过40秒;而Pano2Room和DreamScene360虽然不需要多视角生成,但全景图生成延迟和逐场景优化需求严重制约效率,也在30、40秒左右。而WonderTurbo在几何与外观建模上均表现优异,总体加速达15倍,只需要0.72秒。
2. 定量结果:
实验表明,在线生成方法因更贴合用户文本需求,其CLIP分数和一致性优于离线方法。WonderWorld在所有基线中领先,而WonderTurbo在加速15倍的同时仍保持与之相当的指标性能。此外,由于针对交互任务微调,WonderTurbo在CLIP分数、一致性、CLIP-IQA+和美学分数上均有提升。
3. 定性结果:
相同Prompt下,WonderTurbo与基线方法相比,生成的效果较好,且时间大幅缩少。
示例可以看到:DreamScene360和Pano2Room因泛化能力有限出现几何失真且美学表现不足;LucidDreamer和Text2Room则存在内容错位与提示细节缺失问题;而WonderTurbo与WonderWorld的结果质量接近,均展现出优异性能。
4. 建模方法对比:
论文对比了FreeSplat、DepthSplat等几何建模方法(均采用相同微调设置以确保公平)。实验结果显示:依赖无监督深度估计的FreeSplat和DepthSplat在Q-Align和CLIP美学分数上显著劣于StepSplat。而StepSplat通过一致性深度图指导代价体积构建,实现了自适应交互式3D场景生成。
同时,论文针对引导代价体积(depth guided cost volume)与渐进融合(incremental infusion)做了消融实验以分析StepSplat。结果显示:深度引导代价体积是精确几何建模与图像质量的关键;渐进融合则通过减少冗余高斯分布和避免浮点问题提升性能。
5. FastPaint验证:与预训练修复模型的对比显示,FastPaint显著增强了3D外观建模能力,各项指标均有提升。
实验结果与尾声
实验结果表明:与基线方法相比,WonderTurbo 在保持出色的空间一致性和提供高质量输出的同时,实现了显着的 15 倍加速。用户研究也表明,WonderTurbo 在视觉质量方面表现出色。
总的来说,世界模型在今年频繁传出来利好消息,包括Wayve GAIA-2的生成式世界模型,扩大驾驶极端情况、关键场景的训练;苹果16亿公里的全仿真数据,性能也超过人类的真实数据,这二者分别从场景扩散、性能上对世界模型做了提升。而北大&极佳的方案则着重于实时交互,几个进展从不同维度带来世界模型的可用与好用程度的提升。
今年智驾平权的趋势下,带智驾功能的车型的价格在持续下探,同时端到端的智驾方案收束,也让智驾能力最终与智驾上车量、数据强关联——但是,并不是所有企业都是比亚迪,能坐拥一骑绝尘的销量和智驾训练数据,往下的中尾部企业没有数据,就没有智驾技术的竞争力了吗?从拟真/世界模型今年频繁的进展来看,中尾部企业的智驾能力提升可以放一部分精力在世界模型的训练上,再结合真实环境数据做算法优化。真实的市场是变化的,有时或许也不必那样悲观。
Ref:
WonderTurbo: Generating Interactive 3D World in 0.72 Seconds (arxiv.org)