近日,星海图团队重磅发布世界模型研究成果Fast-WAM。
作为世界模型(World Action Models)领域的又一里程碑,该研究彻底告别了“先想象、后执行”的传统低效世界模型范式,凭借对模型底层逻辑的颠覆性重构,击碎了困扰具身智能长久以来的延迟困局。
这一突破性的技术进展迅速点燃了AI圈的讨论。其中包括纽约大学助理教授、DiT(diffusion transformers)核心作者谢赛宁在关注到这一成果后也给予点赞,将其与图灵奖得主Yann LeCun的最新力作LeWorldModel并列推荐。
这种来自顶尖AI圈的强烈讨论,源于Fast-WAM极其精准地击中了具身世界模型落地最痛的一环。
长期以来,行业默认WAM必须在推理时生成未来视频,导致机器人陷入“想好了再动手”的低效泥潭。星海图通过Fast-WAM首次证明:世界模型的威力根植于视频建模能力,而非视频生成过程。
这一发现彻底卸下了推理负担,将单步延迟缩短至惊人的190毫秒。在保持SOTA性能的同时,实现4倍以上提速。Fast-WAM的出现,标志着世界模型正式跨越实时控制门槛,为具身智能的大规模产业落地铺平道路。
🔗论文链接:
https://arxiv.org/abs/2603.16666
💻项目主页:
https://yuantianyuan01.github.io/FastWAM/
世界模型核心技术突破:训练与推理深度解耦
作为具身智能领域的先行者,星海图团队始终对原有VLA、世界模型等技术路线保持敬畏,并致力于通过精准的实验揭示技术的本质。
主流WAM遵循“先想象、再执行”范式:拿到画面后,先启动视频扩散模块迭代去噪,把未来几帧画面“脑补”出来,再基于这些虚构画面输出动作。这种逻辑虽然符合直觉,但落地时的短板暴露无遗——视频生成是公认的计算泥潭,反复迭代让推理延迟动辄飙升至数百毫秒,难以满足机器人的实时反应需求。
Fast-WAM的出现,就是为了把训练与推理这两个纠缠不清的环节彻底拆开。
• 训练阶段(协同建模):我们依然保留视频协同训练(Video Co-training),让视觉模块深度学习物理动力学与空间交互逻辑。
• 推理阶段(跳过生成):在执行任务时,Fast-WAM果断砍掉冗余的预测分支,不再进行迭代去噪,仅通过一次前向传播直接提取隐含物理规律的“世界表征”。
这种解耦不仅证明了我们对世界模型深层机制的精准掌控,更展现了我们在算法优化上追求极致效能的态度。
模型实证:190ms推理延迟与4倍速度提升
技术成就最终由数据定义。在双臂操作基准RoboTwin 2.0、长程任务LIBERO以及真实世界折毛巾任务中,Fast-WAM交出了令人惊艳的成绩单:
团队通过三组严谨的对照实验(包含保留生成分支、先视频后动作、去掉视频训练等组别)证明了Fast-WAM的优越性。
• 4倍速度跨越:Fast-WAM单步推理仅需190毫秒,相比传统WAM的800毫秒量级,实现了量级上的突破,完美适配实时控制要求。
• 行业头部SOTA世界模型:在双臂操作基准RoboTwin 2.0和长程任务基准 LIBERO上,即便完全不生成未来视频,Fast-WAM的成功率依然能与最强世界模型持平。
• 真实世界挑战:在极具挑战性的毛巾折叠任务中,Fast-WAM展现了对易变形物体极强的物理建模能力,证明了其在复杂物理交互中的实用价值。
通过Fast-WAM,我们对世界模型路线进行了大刀阔斧的革新。通过删去冗余的未来视频生成分支,实时控制不再是世界模型的短板,而这一逻辑的转变,对整个具身智能领域而言意义远不止于提速。
它从根本上推翻了‘必须生成未来视频’的固有范式,有力证明了物理理解力完全可以与高延迟生成彻底脱钩。在190毫秒极低延迟下实现的顶尖性能,直接扫清了世界模型在机械臂操作、工业自动化等延迟敏感场景下的部署障碍。这让原本受限于算力与响应速度的高阶策略,真正具备了从实验室走向大规模产业落地的可能。
Fast-WAM的诞生,不仅是星海图在算法效率上的又一次自我超越,更是我们在技术路线上的重要宣言:从不盲从流行范式,也不一味堆砌算力,而是通过透彻的底层拆解,探寻具身智能最本质的进化路径。
免责声明:本文由星海图授权转发,谨供读者作参考用途,不应被视为在任何地区针对任何证券的研究报告,不构成买卖、认购证券或其它金融工具及产品的邀请或保证。读者不应仅依靠本文、而应按照自己的判断作出投资决定,并在作出任何投资行动前咨询专业意见。华兴资本不就本文内容作出任何陈述或保证,亦不承担因对本文的使用、不当使用、依赖、分发或占有而产生的任何责任。