还原真实世界:MIT用“AI+物理模拟”为机器人打造虚拟训练场

全文1785字,阅读约需6分钟,帮我划重点

划重点

01MIT研究团队开发了名为LucidSim的新系统,结合生成式AI模型和物理模拟器,为机器人创建更贴近物理世界的虚拟训练场。

02通过LucidSim训练的机器人在现实世界测试中的成功率明显高于采用传统技术训练的机器人。

03研究人员使用ChatGPT生成数千个提示,让模型创建涵盖多种环境的描述,然后将这些描述输入系统,生成一系列短视频为机器人绘制轨迹。

04实验结果显示,LucidSim在寻找交通锥、找到足球和攀爬楼梯等任务中的表现均优于传统模拟系统。

05未来研究计划尝试使用完全合成的数据训练人形机器人,并利用LucidSim训练用于工厂和厨房的机器人手臂。

以上内容由腾讯混元大模型生成,仅供参考

图片来源:MIT Technology Review

教会机器人在新环境中导航是个棘手的任务。你可以利用人类录制的真实世界数据对它们进行训练,但这些数据不仅稀缺,还需要高昂的成本来收集。数字模拟是一种快速且可扩展的训练方式,但机器人常常在从虚拟世界转移到现实环境后难以完成相同的任务。

如今,有了一种潜在的更优方案:一个结合生成式 AI 模型和物理模拟器的新系统,用于创建更贴近物理世界的虚拟训练场。通过这种方法训练的机器人,在现实世界测试中的成功率比采用传统技术训练的机器人更高。

研究人员使用这一名为 LucidSim 的系统训练了一只机器狗进行跑酷,使其能够爬过箱子、上楼梯,尽管它从未接触过任何真实世界的数据。这种方法展现了生成式 AI 在教机器人执行复杂任务方面的潜力,也提出了一个可能性:我们或许最终能完全在虚拟世界中训练机器人。相关研究已于上周的机器人学习会议(Conference on Robot Learning, CoRL)上发表。

“我们正处于机器人领域的工业革命之中,”MIT 计算机科学与人工智能实验室(MIT CSAIL)的博士后研究员 Ge Yang 说道,他参与了这一项目。“这是我们尝试理解这些生成式 AI 模型在其原本预期用途之外的影响,希望这能引领我们迈向下一代工具和模型。”

LucidSim 使用生成式 AI 模型的组合来创建视觉训练数据。研究人员首先为 ChatGPT 生成了数千个提示,让其创建涵盖多种环境的描述,这些环境代表了机器人可能在现实世界中遇到的条件,包括不同的天气、时间和光照条件。例如,“一个古老的小巷,两旁是茶馆和小而别致的商店,每家店铺都陈列着传统饰品和书法作品”,“阳光照亮了一片有些凌乱的草坪,草地上点缀着干枯的斑点”。

这些描述随后被输入一个系统,该系统将 3D 几何和物理数据映射到 AI 生成的图像上,从而创建一系列短视频,为机器人绘制轨迹。这些信息帮助机器人计算它需要导航的物体的高度、宽度和深度,例如一个箱子或一段楼梯。

研究人员通过让一只配备摄像头的四足机器人完成多项任务来测试LucidSim的性能,包括找到一个交通锥或足球,爬过一个箱子,以及上下楼梯。结果显示,机器人使用 LucidSim 时的表现明显优于使用传统模拟系统时的表现。在寻找交通锥的 20 次测试中,LucidSim 实现了 100% 的成功率,而使用传统模拟系统的成功率仅为 70%。同样,在另一组 20 次找到足球的测试中,LucidSim 的成功率为 85%,而传统系统仅为 35%。

最后,当机器人运行 LucidSim 时,它在所有 10 次楼梯攀爬测试中都成功完成了任务,而传统系统的成功率仅为 50%。

图片来源:MIT Technology Review | 从左到右:Phillip Isola, Ge Yang, and Alan Yu

“如果 LucidSim 能够直接利用先进的生成式视频模型,而不是现在这种语言、图像和物理模型的拼接组合,未来的结果可能会进一步改善,”MIT 副教授 Phillip Isola说,他参与了这项研究。

纽约大学博士生 Mahi Shafiullah 也表示,研究人员采用生成式 AI 的方式是一种新颖的尝试,将为更多有趣的新研究铺平道路。他目前使用 AI 模型训练机器人,但并未参与该项目。他补充道:“在我看来,更有趣的方向是结合真实数据和逼真的‘想象’数据,这样可以帮助我们现有的依赖数据的方法更快更好地扩展。”

华为的资深研究科学家 Zafeirios Fountas,专注于脑启发式 AI,他指出,能够完全基于 AI 生成的情境和场景从零开始训练机器人是一个重要成就,其影响可能不仅限于机器,还能扩展到更广泛的通用 AI 智能体。

“这里‘机器人’的定义非常广泛,我们谈论的是任何一种与现实世界交互的 AI,”Fountas 说。“我可以想象这一技术被用于控制各种视觉信息,从机器人和自动驾驶汽车到电脑屏幕或智能手机的操作。”

关于下一步研究,作者计划尝试使用完全合成的数据训练人形机器人。他们承认这是一个雄心勃勃的目标,因为双足机器人通常比四足机器人更不稳定。他们还将目光投向另一个新挑战:利用 LucidSim 训练用于工厂和厨房的机器人手臂。这些任务需要比在场景中奔跑更高的灵活性和物理理解能力。

“例如实际拿起一杯咖啡并将其倒出,这是一个非常困难且尚未解决的开放性问题,”Isola 说。“如果我们能够利用生成式 AI 增强的模拟来创造大量的多样性,并训练出一个能够在咖啡馆中操作的非常强大的智能体,我觉得那将非常酷。”

原文链接:

https://www.technologyreview.com/2024/11/12/1106811/generative-ai-taught-a-robot-dog-to-scramble-around-a-new-environment/