李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则

量子位

2024-12-03 07:45发布于北京量子位官方账号

全文2498字，阅读约需8分钟，帮我划重点

划重点

01斯坦福大学教授李飞飞发布了她的首个空间智能项目，仅凭一张图片就能生成一个具有交互性的3D游戏世界。

02该系统能够实时渲染3D场景，用户可以通过键盘或鼠标控制视角和移动相机。

03与其他生成模型不同，这个AI系统直接预测3D场景，场景在移开视线再回来时不会发生变化。

04除此之外，系统遵循基本的3D几何物理规则，生成的世界具有持久现实、实时控制和遵循正确几何规则等特点。

05目前，World Labs正在努力改进生成的世界规模和逼真度，并尝试新的方式让用户与之互动。

以上内容由腾讯混元大模型生成，仅供参考

衡宇西风发自凹非寺
量子位 | 公众号 QbitAI

就在刚刚，李飞飞空间智能首个项目突然发布：

仅凭借1张图，就能生成一个3D游戏世界的AI系统！

重点在于，生成的3D世界具有交互性。

能够像玩游戏那样，自由地移动相机来探索这个3D世界，浅景深、希区柯克变焦等操作均可行。

随便输入一张图：

除了这张图本体，可探索的3D世界里，所有东西都是AI生成的：

这些场景在浏览器中实时渲染，配备了可控的摄像机效果和可调节的模拟景深（DoF）。

你甚至可以改变其中物体颜色，动态调整背景光影，在场景中插入其他对象。

此外，之前大多数生成模型预测的是像素，而这个AI系统直接预测3D场景。

所以场景在你移开视线再回来时不会发生变化，并且遵循基本的3D几何物理规则。

网友们直接炸开锅，评论区“难以置信”一词直接刷屏。

其中不乏Shopify创始人Tobi Lutke等知名人士点赞：

还有不少网友认为这直接为VR打开了新世界。

官方则表示“这仅仅是3D原生生成AI未来的一个缩影”：

我们正在努力尽快将这项技术交到用户手中！

李飞飞本人也第一时间分享了这项成果并表示：

无论怎么理论化这个想法，用语言很难描述通过一张照片或一句话生成的3D场景互动的体验，希望大家喜欢。

目前候补名单申请已开启，有内容创作者已经用上了。

羡慕的口水不争气地从眼角落了下来。

Beyond the input image

官方博文表示，今天，World labs迈出了通往空间智能的第一步：

发布一个从单张图片生成3D世界的AI系统。
Beyond the input image, all is generated。

而且是输入任何图片。

而且是能够互动的3D世界——用户可以通过W/A/S/D键来控制上下左右视角，或者用鼠标拖动画面来逛这个生成的世界。

官网博文中放了很多个可以试玩的demo。

这次真的推荐大家都去试玩一下，上手体验和看视频or动图的感受非常的不一样。

（直通车按惯例，放在文末）

好，问题来了，这个AI系统生成的3D世界还有什么值得探究的细节之处？

摄影机效果

World Labs表示，一旦生成，这个3D世界就会在浏览器中实时渲染，给人的感觉跟在看一个虚拟摄像头似的。

而且，用户能够精准地控制这个摄像头。

所谓“精准控制”，有2种玩法，

一是能够模拟景深效果，也就是只能清晰对焦距离相机一定距离的物体。

二是能模拟滑动变焦（Dolly Zoom），也就是电影拍摄技巧中非常经典的希区柯克变焦。

它的特点是“镜头中的主体大小不变，而背景大小改变”。

很多驴友去西藏、新疆玩儿的时候都希望用希区柯克变焦拍视频，有很强的视觉冲击力。

在World Labs展示中，效果如下（不过在这个玩法里，没办法控制视角）：

3D效果

World Labs表示，大多数生成模型预测的都是像素，与它们不同，咱这个AI预测的是3D场景。

官方博文罗列了三点好处：

第一，持久现实。

一旦生成一个世界，它就会一直存在。

不会因为你看向别的视角，再看回来，原视角的场景就会改变了。

第二，实时控制。

生成场景后，用户可以通过键盘或鼠标控制，实时在这个3D世界畅游移动。

你甚至可以仔细观察一朵花的细节，或者在某个地方暗中观察，用上帝视角注意这个世界的一举一动。

第三，遵循正确的几何规则。

这个AI系统生成的世界，是遵守3D集合物理基本规则的。

某些AI生成的视频，虽然效果很梦核，但可没有咱的这种深度的真实感哟（doge）。

官方博文中还写道，创造一个可视化3D场景，最简单的办法是绘制深度图。

图中每个像素的颜色，都是由它和摄像头的距离来决定的。

当然了，用户可以使用3D场景结构来构建互动效果——

单击就能与场景互了，包括但不限于突然给场景打个聚光灯。

动画效果？

那也是so easy啦。

走进绘画世界

团队还玩儿了一把，以“全新的方式”体验一些经典的艺术作品。

全新，不仅在于可互动的交互方式，还在于就靠输入进去的那一张图，就能补全原画里没有的部分。

然后变成3D世界。

这是梵高的《夜晚露天咖啡座》：

这是爱德华·霍普的《夜行者》：

创造性的工作流

团队表示，3D世界生成可以非常自然地和其它AI工具相结合。

这让创作者们可以用他们已经用顺手的工具感受新的工作流体验。

举个栗子：

可以先用文生图模型，从文本世界来到图像世界。

因为不同模型有各自擅长的风格特点，3D世界可以把这些风格迁徙、继承过来。

在同一prompt下，输入不同风格的文生图模型生成的图片，可以诞生不同的3D世界：

World Labs和空间智能

“World Labs”公司，由斯坦福大学教授、AI教母李飞飞在今年4月创立。

这也是她被曝出的首次创业。

而她的创业方向是一个新概念——空间智能，即：

视觉化为洞察；看见成为理解；理解导致行动。

在李飞飞看来，这是“解决人工智能难题的关键拼图”。

只用了3个月时间，公司就突破了10亿美元估值，成为新晋独角兽。

公开资料显示，a16z、NEA和Radical Ventures是领投方，Adobe、AMD、Databricks，以及老黄的英伟达也都在投资者之列。

个人投资者中也不乏大佬：Karpathy、Jeff Dean、Hinton……

今年5月，李飞飞有一场公开的15分钟TED演讲。

她洋洋洒洒，分享了对于空间智能的更多思考，要点包括：

视觉能力被认为引发了寒武纪大爆发——一个动物物种大量进入化石记录的时期。最初是被动体验，简单让光线进入的定位，很快变得更加主动，神经系统开始进化……这些变化催生了智能。
多年来，我一直在说拍照和理解不是一回事。今天，我想再补充一点：仅仅看是不够的。看，是为了行动和学习。
如果我们想让AI超越当前能力，我们不仅想要能够看到和说话的AI，我们还想要能够行动的AI。空间智能的最新里程碑是，教计算机看到、学习、行动，并学习看到和行动得更好。
随着空间智能的加速进步，一个新时代在这个良性循环中正在我们眼前展开。这种循环正在催化机器人学习，这是任何需要理解和与3D世界互动的具身智能系统的关键组成部分。

据报道，该公司的目标客户包括视频游戏开发商和电影制片厂。除了互动场景之外，World Labs还计划开发一些对艺术家、设计师、开发人员、电影制作人和工程师等专业人士有用的工具。

如今伴随着空间智能首个项目的发布，他们要做的事也逐渐具象化了起来。

但World Labs表示，目前发布的只是一个“早期预览”：

我们正在努力改进我们生成的世界的规模和逼真度，并尝试新的方式让用户与之互动。

参考链接：

[1]https://www.worldlabs.ai/blog

[2]https://mp.weixin.qq.com/s/3MWUv3Qs7l-Eg9A9_3SnOA?token=965382502&lang=zh_CN

[3]https://x.com/theworldlabs/status/1863617989549109328

查看原图 446K