首个机器人4D世界模型来了！智元和上交大联合研发

智东西

2025-01-09 17:15发布于北京智东西官方账号

全文2163字，阅读约需7分钟，帮我划重点

划重点

01智元机器人、上海交通大学与上海人工智能实验室共同研发的机器人领域首个4D世界模型EnerVerse亮相。

02EnerVerse采用自回归扩散模型，逐步生成未来具身空间，引导机器人动作规划。

03该模型引入稀疏记忆机制与自由锚定视角，提升4D生成能力，实现动作规划性能的显著突破。

04实验结果显示，EnerVerse在视频生成、动作规划、消融与训练策略分析及注意力可视化方面表现卓越。

05随着项目开源推进，EnerVerse将加速机器人从实验室迈向千行百业、千家万户。

以上内容由腾讯混元大模型生成，仅供参考

机器人前瞻（公众号：robot_pro）

作者 | 许丽思

编辑 | 漠影

机器人前瞻1月9日报道，这两天，智元机器人、上海交通大学与上海人工智能实验室共同研发的机器人领域首个4D世界模型EnerVerse亮相，该模型旨在让机器人在任务指引和实时观测的基础上规划未来动作。

在机器人技术领域中，动作规划始始终是一大难题。现有的机器人动作规划方法，往往难以实现在语言、视觉和动作等多模态空间之间精确对齐，并且还缺乏大规模、多模态且带有动作标签的数据集。

对此，EnerVerse架构可以通过自回归扩散模型（autoregressive diffusion），在生成未来具身空间的同时引导机器人完成复杂任务。EnerVerse还引入稀疏记忆机制（Sparse Memory）与自由锚定视角（Free Anchor View, FAV），在提升 4D 生成能力的同时，实现了动作规划性能的显著突破。

智元机器人表示，EnerVerse 不仅具备卓越的未来空间生成能力，更在机器人动作规划任务中实现了当前最优（SOTA）表现。

目前，项目主页与论文已上线，模型与相关数据集即将开源。

一、逐步生成未来具身空间，灵活表达4D空间

EnerVerse 采用逐块生成的自回归扩散模型，通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括：1）扩散模型架构：基于结合时空注意力的 UNet 结构，每个空间块内部通过卷积与双向注意力建模；块与块之间通过单向因果逻辑（causal logic）保持时间一致性，从而确保生成序列的逻辑合理性。

2）稀疏记忆机制：借鉴大模型（LLM）的上下文记忆，EnerVerse 在训练阶段对历史帧进行高比例随机掩码（mask），推理阶段以较大时间间隔更新记忆队列，有效降低计算开销，同时显著提升长程任务的生成能力。

3）任务结束逻辑：通过特殊的结束帧（EOS frame），实现对任务结束时机的精准监督，确保生成过程在合适节点终止。

▲自回归扩散模型

EnerVerse提出了灵活的自由锚定视角（FAV）方法，以解决过去在具身操作中由于遮挡关系复杂，难以构建完美的全局视角的问题。核心特点有：

1）自由设定视角：允许根据场景灵活重置锚定视角，避免固定多视角在狭窄空间中的局限性。例如，在厨房等场景，FAV可以轻松适应动态的遮挡环境。

2）跨视角空间一致性：基于光线投射原理，EnerVerse使用视线方向图作为视角控制条件，同时将扩散模型中的2D空间注意力扩展为跨视角的3D空间注意力，确保生成的多视角视频在几何上保持一致。

3）Sim2Real Adaption：通过在仿真数据上微调的4D生成模型与4D高斯泼溅（4D Gaussian Splatting）交替迭代，构建了一个数据飞轮，为真实场景下的FAV生成提供伪真值支持。

▲自由锚定视角方法

EnerVerse 还通过在生成网络下游集成 Diffusion 策略头（Diffusion Policy Head），打通未来空间生成与机器人动作规划的全链条。关键设计包括：

1）高效动作预测：生成网络在逆扩散的第一步即可输出未来动作序列，无需等待完整的空间生成过程，确保动作预测的实时性。

2）稀疏记忆支持：在动作预测推理中，稀疏记忆队列存储真实或重建的 FAV 观测结果，有效提升长程任务规划能力。

二、视频生成、动作规划等多项能力出众

实验结果表面，EnerVerse 在视频生成、动作规划、消融与训练策略分析及注意力可视化方面都表现出卓越的性能。

1、视频生成性能

短程生成任务中，EnerVerse 表现优于现有微调视频生成模型，如基于 DynamiCrafter 与 FreeNoise 的扩散模型。

在长程生成任务中，EnerVerse 展现出更强的逻辑一致性与连续生成能力，这是现有模型无法实现的。

▲EnerVerse的视频生成表现优于DynamiCrafter 与 FreeNoise的扩散模型

此外，EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

▲EnerVerse生成多视角视频

2、动作规划能力

在LIBERO基准测试中，EnerVerse在机器人动作规划任务中取得了显著优势。

其单视角（one FAV）模型在LIBERO四类任务中的平均成功率已超过现有最佳方法，多视角（three FAV）设定进一步提升任务成功率，在每一类任务上均超越现有方法。

▲EnerVerse单视角、多视角模型成功率均超越现有方法

3、消融与训练策略分析

在稀疏记忆机制方面，消融实验表明，稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。

▲EnerVerse引入稀疏记忆机制

另外，先进行未来空间生成训练，再进行特定场景动作预测训练的二阶段策略，可显著提升动作规划性能。

4. 注意力可视化

通过可视化 Diffusion 策略头中的交叉注意力模块，研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。

▲EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性

三、结语：EnerVerse探索具身智能全新范式

EnerVerse 架构凭借自回归扩散模型、稀疏记忆机制以及自由锚定视角等创新设计，为具身智能未来空间生成引导动作规划，不仅突破了机器人任务规划的技术瓶颈，还为多模态、长程任务的研究提供了全新范式。

EnerVerse也或将开启机器人融入日常生活与各行业生产的新篇章，对未来动作的规划能力可以使得机器人在工业制造、物流配送等诸多场景实现更高的生产效率。随着项目的开源推进，也将会进一步优化、拓展其应用边界，加速机器人从实验室迈向千行百业、千家万户。

查看原图 40K