喝点VC|a16z:世界模型与小型机器人

全文3870字,阅读约需12分钟,帮我划重点

划重点

01神经网络模型在机器人技术和自主性领域取得了重要突破,为世界模型的发展奠定了基础。

02世界模型通过生成与现实场景紧密相似的数据,提高了训练和评估机器人系统的效率。

03然而,神经模拟仍面临诸多挑战,如物理一致性、上下文长度、计算成本等。

04未来,神经模拟器和小型技术将有助于降低进入机器人行业的门槛,推动更多创新。

以上内容由腾讯混元大模型生成,仅供参考

图片

图片来源:Unsplash

在过去的几个月里,你可能看到了关于 Minecraft 在神经网络、Genie - 2、Simulated DOOM 或 CS:GO 在扩散模型上喋喋不休的讨论。这些最近对世界模型的演示 —— 或者压缩视觉、基于动作或其他类型数据动态的神经网络 —— 已经席卷了 X,但也是严重混乱的根源。

然而,实际上,这些帖子远不止是你最喜欢的视频游戏的半成品重建——我们认为它们是机器人技术和自主性未来的关键部分。该领域主要参与者建立的数据护城河不会在一夜之间消失,但世界模型代表了一个可信的承诺,可以平衡竞争环境,使“小型机器人”能够更有效地创新和竞争。

一个混乱的世界

历史上,机器人领域一直受到机器人与无序环境及其难以处理的动态相互作用的困难困扰——例如,训练机器人在湿叶子上行走。正如我的同事奥利弗之前所写的,通用机器人技术的复杂性:演示很简单,但将机器人推向市场却证明是困难的。

一个问题是训练机器人使用反映现实世界的数据。传统上,使用模拟器——与驱动您最喜欢的视频游戏的游戏引擎类似——在部署之前训练机器人决策模型。然而,使用 ROS、Unity、Unreal Engine 或《侠盗猎车手5》等工具构建这些模拟是耗时的,并且无法生成真实的数据——随着机器人车队规模的扩大,这种影响会加剧。

进一步使机器人技术人员的工作复杂化的是,大多数现代自主性方法都是多模态的:摄像头、雷达、激光雷达、全球导航卫星系统、惯性测量单元和其他传感器协同工作。然而,经典的机器人运动数学模型通常只确定机器人自身的动态信息,而无法确定相机输出或激光雷达读数在特定动作下如何变化。因此,许多“简单运动”场景——例如让轮式机器人行驶到预定距离——早已可以实现,但更难用数学描述的任务——例如用机器人手臂折叠衬衫——仅在过去几年才得以实现。

最近在机器学习方面的进展开始通过利用神经网络来更好地理解和预测无序环境中的复杂多模态交互,从而解决这些长期存在的挑战。通过关注不仅模拟机器人动态而且模拟这些动态的感官结果的方法,研究人员为更强大和可扩展的解决方案打开了大门。这些方法旨在克服传统模拟器的局限性,通过生成与现实场景紧密相似的数据,提供更高效和全面的路径来训练和评估机器人系统。

神经模拟器的崛起

在其当前状态下,神经模拟通常涉及使用图像或生成视频模型,从机器人创建逼真的视觉数据——基于先前的摄像头录像、控制器采取的动作、传感器读数等。神经模拟核心的模型与流行模型如 Flux、Stable Diffusion、Midjourney 或 DALL-E 极为相似。这些模型的主要区别在于,模型不是通过文本描述您所需图像的方式进行提示,而是通过先前的视频和其他相关数据进行提示。

由于前面的帧和动作包含有关场景的信息,网络能够大致预测视频序列中的下一帧。使用生成的帧作为额外帧的上下文,图像模型“展开”下一帧的视频,试图预测场景的视觉未来。结果是一个有效替代传统模拟的模型,提供更大的灵活性和规模上的性能。

在高层次上,神经模拟解决了机器人公司三个核心问题(按复杂性和当前使用情况的递增顺序呈现):错误重放、合成数据生成和基于模型的强化学习。

错误重放的神经模拟器

假设你是一个自动驾驶汽车的开发者,你刚刚目睹汽车闯红灯,尽管该模型在 99% 的红绿灯下正常工作。你如何解决模型中的这个异常?一种方法是通过场景重建,这涉及仔细重建导致模型失败的条件,然后重新训练模型,直到该场景(以及其他具有可比设置的场景)在未来的场景中不会触发模型失败(或在自动驾驶汽车中称为“脱离控制”)。场景重建涉及设置物理道具或在游戏引擎中手动建模场景以测试新模型。

然而,随着像 Waymo 这样的公司运营的自动驾驶汽车数量的增加,车队每天发生的错误总数也在增加。根据车队中车辆的数量线性扩展重建成本并不经济,并且需要大量的人力。此外,许多场景根本无法物理重建,或者建模不切实际——光照差异、确切的场景细节(例如道路上其他汽车的数量和位置)以及驾驶员行为等环境动态将很难手动重建。

神经模拟通过自动场景重建允许更灵活的错误解决方法。通过这种方式,可以输入模型故障发生前的最后几秒视频,然后有效地测试如果模型采取不同的行动会发生什么——本质上与场景重建相同,但所需的努力和成本微乎其微。这将使没有传统重建技术资源的小公司能够以更低的成本实现更可靠、更安全的结果。

神经模拟器作为数据引擎

合成数据生成是使用神经模拟器作为数据引擎,特别是为了在比传统增强技术更大规模和多样性地扩展数据集。当环境的参数化可以学习到时,这尤其强大,除了无条件的视频动态(例如,模型被给定一个输入,描述是否下雨)。通过计算数据分布的统计信息,可以识别数据分布中的盲点,并使用合成数据进行修正。在实践中,对于那些视觉上不太明显的数据属性,这可能说起来容易做起来难,例如——在自动驾驶汽车的情况下——其他驾驶者在道路上的不同行为模式。

合成数据生成对于在不同环境中具有相对一致视觉效果的场景现象特别有用,但在某些情况下可能不如其他情况常见。例如,在自动驾驶汽车数据集中,收集拉斯维加斯下雨的数据是很少见的,但只要网络在西雅图或伦敦的驾驶数据上经过多小时的训练,生成拉斯维加斯下雨的真实视频并不会特别困难。

简单来说:边缘案例让工程师们头疼不已。尽管某些情况——例如总统车队——永远不会出现在机器人公司的训练集中,但作为数据引擎的神经模拟器有望通过稀有事件增强现有数据集,从而在实际应用中提供更可靠的性能。

强化学习的世界模型

神经模拟器的一个新兴用例是将学习到的世界模型作为基于模型的强化学习(RL)策略的核心。强化学习的经典问题陈述——学习如何玩游戏,其中获胜条件很少是随机发生的,例如在 Minecraft 中寻找钻石,或击败围棋世界冠军——与现实世界中的自主性挑战很好地对应。因此,训练良好的 RL 策略是使机器人自主选择行动的一种方式。

但强化学习很难。训练这些模型是神秘的,即使是最先进的传统算法,即无模型技术,在长期任务中也会因稀疏奖励而缺乏收敛——例如,在《我的世界》中,策略可能会四处游荡,采取随机行动,完全没有朝着赢得游戏的方向前进。然而,基于模型的强化学习是一种新兴的方法,可以缓解其中的一些问题。

在基于模型的强化学习中,学习世界的压缩表示使得可以使用该模型训练策略。与深度 Q 学习或 PPO 等无模型技术相比,这种方法可以显著加快速度并更有可能收敛到解决方案。简单来说,这种方法将世界模型直接集成到强化学习策略中,而不仅仅是将其作为训练策略的外部工具。首次在世界模型中展示,并在《Dreamer》、《Dreamer V2》、《Dreamer V3》和《Day Dreamer》中阐明,学习的基于模型的架构在长期自主和稀疏奖励任务中显示出巨大的潜力。此外,许多为训练专注于重放和数据引擎的视频模型而开发的架构可以被改编为在《Dreamer》中作为模型学习架构。

世界模型的设计空间

随着神经模拟的世界模型变得越来越普遍,关于它们的架构和行为特征仍然存在许多问题。在空间和时间上,未来是否是自回归的还是扩散的尚不清楚。在时间域中,许多生成视频模型传统上是扩散的,通过在空间和时间上逐步去噪一次性生成整个固定长度的视频。这导致了更具视觉连贯性的视频,因为模型可以通过生成过程进行隐式规划,确保例如一个物体不会在视频中途神奇地消失。

然而,时间域中的扩散类过程并不是没有权衡:视频目前需要具有预先指定的长度,并且由于整个视频必须一次性加载到内存中,生成通常需要比其他替代方案更多的计算资源。一种替代方法是逐帧生成视频,或在时间域中自回归,这被用于诸如 Wayve 的 GAIA-1 或 Comma 的 CommaVQ 等生产自主车辆模型。这种方法的优点是计算成本显著较低,并且允许更灵活的生成长度,但代价是视觉连贯性较差。

在空间上,模型可以是扩散型或自回归型,可以一次性生成视频的给定帧,或使用离散自编码器(如 VQVAE)逐个生成。权衡与时间域的凝聚性相似——扩散倾向于在规模上产生更高质量的图像(尽管这仍然是一个高度有争议的话题)。然而,空间维度的权衡并不那么明显,因为视频的分辨率不太可能逐帧变化。因此,自回归采样的灵活性不那么重要。

在计算上,当前用于神经模拟的生成视频模型相比大型语言模型往往显得轻量得多。领先的世界模型如 DIAMOND、GAIA-1 和 Oasis 在数据和计算方面的训练量相对较少,与最大的语言模型相比——甚至有证据表明这些模型可以变得更轻量。迁移学习,即对现成的图像或视频模型进行显著微调,也为训练世界模型提供了一种计算高效的方法,并随着开源模型的不断改进而变得越来越有效。

未来会怎样

许多神经模拟的世界模型方面在未来几个月和几年可能会经历快速增长。以下一些问题将定义神经模型在机器人系统中应用的未来:

物理一致性:如何强制物体恒存?我们可以使用什么工具来评估神经模拟器的性能?如何将物理法则隐式或显式地编码到模型的损失函数中?

上下文长度 / 记忆 / 遗忘:为模型添加记忆的最佳方法是什么?递归神经网络?类似于检索增强生成的东西?

计算成本:生成视频模型及其架构(基于标记/ Transformer 的 DiTs、U-Net)的 Scaling Law是什么?有哪些更有效的方法来预训练、后训练、蒸馏和迁移学习世界模型?

数据效率:训练一个物理一致的模型需要多少数据,以及一个能够很好地推广到分布外数据的模型(这本身就是一个复杂的话题)?
过拟合:训练模型在训练分布之外表现良好是否可能?零样本学习的概念在视频模型中适用程度如何?
可控性/参数化:如何在生成中更好地调节环境?
多模态:视频生成目前是可能的,但我们如何共同预测其他相关变量(例如,除了视频之外的激光雷达地图等)?在特定实现的生成过程中,如何对每个进行排序或组合?视觉建模的未来是平面的,还是三维的?
神经模拟器和小型技术
更好的动作重播、数据引擎和长期规划模型对新机器人公司的经济影响不容小觑:以前对新进入者构成重大障碍的因素,现在通过可扩展的神经模拟正在被削弱。随着挑战的探索和更大的视频基础模型的发布,以前难以解决的数据、可靠性和自主性挑战将变成小型企业的工程挑战,而不是经济上的不可能。

本文翻译自:a16z, https://a16z.com/world-models-and-the-sparks-of-little-robotics/

编译:ChatGPT