近日,来自卡内基梅隆大学、马里兰大学、哥伦比亚大学、斯坦福大学、麻省理工学院、北京大学、清华大学、香港大学等十余所研究团队重磅发布了一款名为Genesis开源计算机模拟系统,该系统提供了机器人仿真训练环境,速度比现实世界快 43 万倍。研究人员还可以使用人工智能代理根据文本提示生成三维物理模拟。
通过Genesis平台,机器人在仿真环境中仅需几个小时的学习,就能完成相当于真实世界中几十年的训练量,涵盖拾取物体、行走及操作工具等多项技能。
据Genesis论文的合著者Jim Fan在社交平台X上介绍,这项技术使得“一个小时的计算时间相当于机器人获得了10年的训练经验”。他以电影《黑客帝国》中的场景为例,形象地比喻了这种训练效率的提升。此前,Jim Fan曾就职于NVIDIA并参与过多个机器人仿真项目。
▍Genesis平台比现有 NVIDIA Isaac Gym快80倍
卡内基梅隆大学机器人研究所Zhou Xian研究小组表示,Genesis平台处理物理计算的速度比现有的机器人模拟器(如 NVIDIA 的Isaac Gym)快 80 倍。
它使用类似于视频游戏的显卡,可同时运行多达 10 万份模拟。这对于训练控制未来真实世界机器人的神经网络非常重要。
Genesis论文合著者Jim Fan在X平台发表观点
Jim Fan在X平台中表示:“如果一个人工智能系统能够在10亿个不同的模拟环境中,控制1000个机器人掌握100万种技能,那么当它被应用于现实世界时,就有很大可能‘恰好’奏效。因为现实世界只不过是广阔可能性空间中的一个具体实例。”
▍团队创新打造"4D动态世界" 在3D环境下加入时间概念
除此之外,该团队近期还生成所谓"4D动态世界"的能力。和爱因斯坦相对论一样,4D动态世界是3D空间加入了时间概念,进而能够模拟随时间变化的3D世界。该技术依托于视觉语言模型(VLM),用户仅需通过文本描述,即类似于向其他人工智能模型提供的“指令”,即可生成完整的虚拟环境。并利用 Genesis自己的模拟基础 API来创建世界。
由AI生成的世界包括逼真的物理、摄像机运动和物体行为,这些指令均来自于文本,随后系统会生成物理图像的光追效果和数据,以用于机器人在仿真环境下的训练。
▍Genesis有效解决复杂仿真环境搭建问题 可实现流程自动化处理
Genesis最大的特性在于能够通过输入自然语言命令来创建复杂的机器人测试环境,而无需手工编程。而通常仿真环境的搭建需要,3D建模、构建纹理与搭建测试场景等,因此需要大量的设计师来完成。而在Genesis平台下,每个流程都可以实现自动化处理。
此外,Genesis平台内置创作引擎,能够生成角色动画、交互式三维场景以及面部表情动画等内容。不仅能够为创意项目创造艺术资产,还可能在未来开发出更逼真的人工智能生成游戏和视频,在数据中构建一个模拟世界。而不是像视频合成扩散模型那样根据像素的统计外观进行操作。
▍Genesis兼容不同版本操作系统和跨平台硬件
Genesis项目团队表示,目前基于Genesis平台生成式视频还在进一步完善当中,目前还未更新到GitHub代码库中,但未来将有计划将其发布。目前GitHub首页还在陆续搭建状态,一些模块集成了现有论文,但核心模块仍在提交中,其中包括Genesis平台最重要的论文部分也显示为即将发布状态。Genesis团队希望更多的开发者来到社区进行讨论。
在技术上,Genesis平台的一大特色是其在用户界面与核心物理引擎方面均采用了Python语言,这与众多用于机器人训练的3D世界模拟器有所不同。这些模拟器往往采用C++或CUDA进行底层运算,再通过Python API进行封装。而Genesis则采取了以Python为主导的开发策略。
值得注意的是,Genesis平台的非专有性设计意味着任何研究人员都能通过简单的Python指令,免费获得高效的机器人训练模拟环境。这些指令在配备标准硬件的普通计算机上即可运行,包括Linux、MacOS、Windows不同版本的操作系统,以及兼容CPU、Nvidia GPU、AMD GPU、Apple Metal等跨平台硬件。
Genesis项目团队提到,Genesis平台非常适合机械臂、足式机器人、无人机以及软机器人等不同形态产品的仿真训练。
Genesis项目开源地址:
https://genesis-embodied-ai.github.io/