李飞飞《经济学人》撰文:AI 革命始于大语言模型,下一步是基于视觉的空间大模型

图片

图片

斯坦福大学以人为本人工智能研究院(HAI)联席主任李飞飞表示,人工智能的下一个前沿是推进空间智能。在这篇专栏文章中,她解释了如何让机器以3D方式感知世界并与世界互动,从而为机器人、医疗保健、教育等领域解锁以人为本的人工智能应用。

图片

撰稿:李飞飞(Co-director of Stanford HAI,CEO of World Labs)

来源:《经济学人》


图片

语言中关于视觉的格言俯拾皆是。眼见为实,一图胜千言,眼不见,心不烦,这样的例子不胜枚举。这是因为我们人类从视觉中获取了大量的信号。然而,视觉并非始终可行。大约在5.4亿年前,所有生物都生活在水面以下,它们都无法看见。直到三叶虫的出现,动物们才第一次感知到周围丰富的阳光。随后发生的事情非常惊人。在接下来的1亿到1.5亿年里,视觉能力的出现引领了一个被称为寒武纪大爆发的时期,大多数现代动物祖先在这个时期出现。


今天,我们正在经历人工智能(AI)领域的现代版寒武纪大爆发。似乎每周都会有一个令人惊叹的新工具出现。最初,生成式AI革命是由模仿人类语言智能的大型语言模型、如ChatGPT驱动的。但我相信,基于视觉的智能——我称之为空间智能——更为基础。语言固然重要,但作为人类,我们理解和与世界互动的很大一部分能力是基于我们所看到的。


AI的一个子领域——计算机视觉,长期以来一直试图教计算机拥有与人类相同甚至更好的空间智能。在过去的15年里,这个领域取得了迅速的进展。我本着AI发展应以人类利益为中心的核心信念,将自己的职业生涯致力于此。


没有人教孩子如何去看。孩子们通过经验和例子来理解世界。他们的眼睛就像生物相机,每秒拍摄一张“照片”。到三岁时,孩子们已经看到了数亿张这样的照片。


我们需要从大语言模型转向大型世界模型。


数十年的研究告诉我们,视觉的一个基本要素是物体识别,所以我们首先教计算机这个能力。这并不容易。例如,将一个三维(3D)的猫形状渲染成二维(2D)图像的方式有无数种,这取决于观察角度、姿势、背景等因素。要让计算机在图片中识别出猫,它需要像孩子一样拥有大量信息。


直到2000年代中期,三个要素汇聚在一起,这才成为可能。那时,存在了几十年的卷积神经网络算法,遇到了现代图形处理单元(GPU)的强大能力,以及“大数据”的可用性——来自互联网、数码相机等的数十亿张图像。


我的实验室为这种汇聚贡献了“大数据”要素。在2007年的一个名为ImageNet的项目中,我们创建了一个包含1500万张标记图像的数据库,这些图像涵盖了22000个物体类别。然后,我们和其他研究人员使用图像及其对应的文本标签训练神经网络模型,使模型学会用简单的句子描述之前未见过的照片。使用ImageNet数据库创建的这些图像识别系统取得了意想不到的快速进展,从而引发了现代AI的繁荣。


随着技术的进步,基于变换器架构和扩散等技术的下一代模型,带来了生成式AI工具的曙光。在语言领域,这使像ChatGPT这样的聊天机器人成为可能。在视觉领域,现代系统不仅能够识别,还能根据文本提示生成图像和视频。结果令人印象深刻,但仍然仅限于2D。


要让计算机拥有人类的空间智能,它们需要能够模拟世界,对事物和地点进行推理,并在时间和3D空间中进行互动。简而言之,我们需要从大型语言模型转向大型世界模型。


在学术界和工业界的实验室中,我们已经看到了这种转变的初步迹象。利用最新的AI模型,通过文本、图像、视频以及机器人传感器和执行器的空间数据进行训练,我们可以使用文本提示来控制机器人——例如,让它们拔掉手机充电器或制作一个简单的三明治。或者,给定一个2D图像,模型可以将其转换成无限多个可能的3D空间供用户探索。


应用前景无限。想象一下能够在家中导航并照顾老人的机器人;为外科医生提供的一双不知疲倦的额外双手;以及在模拟、培训和教育中的用途。这是真正的以人为中心的AI,空间智能是其下一个前沿。在人类身上花费数亿年才进化出来的能力,在计算机上只需几十年就出现了。而我们人类将成为受益者。

https://www.economist.com/the-world-ahead/2024/11/20/fei-fei-li-says-understanding-how-the-world-works-is-the-next-step-for-ai


拓展阅读

2

3

4

5


图片