划重点
01Meta FAIR 的 Yann LeCun 团队发布了导航世界模型(Navigation World Models/NWM),强调其在复杂环境中的导航能力。
02NWM 能够基于单张输入图像生成连续一致的视频,与 DeepMind 的 Genie 2 相比,单图生视频方面稍逊一筹。
03该团队研究了使用 NWM 和外部导航策略 NoMaD 来执行规划,取得了当前最先进的视觉导航性能。
04实验结果显示,NWM 在已知环境中导航表现出色,未知环境中也能自主寻找前进道路。
05通过在未标注数据上进行训练,NWM 的视频预测性能得到显著提升,包括生成质量。
以上内容由腾讯混元大模型生成,仅供参考
现实世界版的 Genie-2?
论文标题:Navigation World Models 论文地址:https://arxiv.org/pdf/2412.03572v1 项目地址:https://www.amirbar.net/nwm/
提出了导航世界模型和一种全新的条件扩散 Transformer(CDiT);相比于标准 DiT,其能高效地扩展到 1B 参数,同时计算需求还小得多。 使用来自不同机器人智能体的视频和导航动作对 CDiT 进行了训练,通过独立地或与外部导航策略一起模拟导航规划而实现规划,从而取得了当前最先进的视觉导航性能。 通过在 Ego4D 等无动作和无奖励的视频数据上训练 NWM,使其能在未曾见过的环境中取得更好的视频预测和生成性能。
查看原图 398K