英伟达用Vision Pro训练机器人：模仿学习GR00T Blueprint新模式

新浪XR

2025-01-08 16:48发布于山东新浪VR官方账号

在机器人技术快速发展的今天，为机器人提供精确对应的输入数据进行训练显得尤为重要。为此，业界和学界正积极探索利用 XR 技术的力量，以优化机器人的训练过程。通过头显设备，人型机器人能够实时复刻并映射人类操作员的动作，而相关软件则能实现第一人称视频的实时传输和精确控制输出。

在 CES 2025 上，英伟达再次展示了其在机器人训练领域的创新成果。英伟达首席执行官黄仁勋宣布了 GR00T 的新模式——基于模仿学习的 Blueprint。这一模式允许用户利用苹果 Vision Pro 等 XR 设备，为机器人创建一个数字孪生体，随后机器人便能在模拟环境中重复模仿学习人类动作。

据英伟达在一篇博文中透露，人形机器人市场预计将在未来二十年内达到 380 亿美元的规模。为了满足这一巨大需求，特别是在工业和制造业领域，英伟达已经发布了一系列机器人基础模型、数据管道和仿真框架，旨在加速下一代仿人机器人的开发工作。

GR00T Blueprint 正是这一战略的重要组成部分。它能够帮助开发者从少量的人类演示中轻松生成指数级规模的合成数据集，从而提升了机器人通过模仿学习获得新技能的效率。具体而言，GR00T-Teleop 工作流允许用户使用 Vision Pro 在数字孪生中捕获人类行为；随后，GR00T-Mimic 工作流将这些捕获的人类演示复制到更大的合成运动数据集中；最后，GR00T-Gen 工作流通过域随机化和 3D 升级技术进一步扩展数据集。

此外，英伟达还宣布了另一个重要平台——Cosmos。该平台拥有一系列开放的、预训练的世界基础模型，专门用于生成物理感知视频和物理人工智能开发的世界状态。Cosmos 包括各种大小和输入数据格式的自回归和扩散模型，能够帮助减少模拟与真实之间的差距，通过将 3D 图像升级为真实图像来提升机器人的训练效果。

英伟达强调，将 Omniverse 与 Cosmos 结合起来至关重要，因为高度可控、物理精确的模拟能够为机器人训练提供关键保障，有助于最大限度地减少与世界模型相关的潜在幻觉。

查看原图 79K