首个「空间智能」模型发布，仅需要一张图片即可生成 3D 场景

算法一只狗

2025-01-09 08:30发布于广东科技领域创作者

给定一张图，就可以生成一个3D的场景，这个看起来很惊艳的场景，最近被李飞飞团队实现了~

用李飞飞的话说，「无论怎样理论化这个想法，都很难用语言描述一张照片或一句话生成3D场景的互动体验。」

这是迈向AGI中，实现空间智能的第一步：

比如下面这张图，就是其官网中演示的场景。它给定的是一个村庄图片，然后

就可以生成一个可以随意探索的3D场景

也可以模拟不同的景深，生成不一样的3d场景：

另一个特点在于能够随意改变相机的位置和视野：

目前它这个模型的主要特点有三个：

相机效果

场景生成完成后，将使用虚拟相机在浏览器中实现实时渲染。通过精确控制相机参数，可以创造出艺术摄影般的效果，包括模拟景深效果，使得仅在相机特定距离范围内的物体保持清晰聚焦。

还可以模拟滑动变焦，同时调整摄像机的位置和视野：

3D 效果

大多数生成模型专注于像素预测，但生成 3D 场景具有许多显著优势：

可视化 3D 场景的最简便方法是绘制深度图，其中每个像素根据其与摄像头的距离进行着色，从而直观展现场景的深度信息和结构。

我们可以利用 3D 场景结构来构建交互效果：

还可以构建特效，让场景活跃起来：

什么是空间智能？

此前，李飞飞在一次活动中首次详细阐释了「空间智能」的概念：通过视觉实现洞察，让“看见”转化为“理解”，进而推动“理解”促成“行动”。

她指出，人类智能可以归结为两大核心维度——语言智能和空间智能。尽管语言智能一直是研究的重点，空间智能却在赋予人工智能深远影响方面展现出巨大的潜力和重要性。这一视角不仅拓宽了对智能本质的认识，也为人工智能未来的发展方向提供了启发。

在今年4月的TED演讲中，李飞飞进一步分享了她对空间智能的深刻思考。

她指出：「所有具备空间智能的生物，其行动能力都是与生俱来的，这种能力的核心在于能够将感知与行动紧密关联。」

她强调：「如果我们希望人工智能突破现有的局限，就不仅仅需要一个会看、会说的AI，而是一个能够主动行动的AI。」这一理念为人工智能的发展描绘了更高的目标，即从被动感知和语言交流迈向具有自主行动能力的全新阶段。

英伟达高级计算机科学家 Jim Fan 曾表示：「空间智能是计算机视觉和智能体研究的下一个前沿领域。」这一观点呼应了 World Labs 官博的阐述，即人类智能是多维度的，而其中最为基础的便是空间智能。

语言智能赋予我们通过语言交流和建立联系的能力，而空间智能则让我们理解世界并与之互动。更重要的是，空间智能蕴含着极强的创造力，它能够将人类脑海中的构想转化为现实中的成果。从简单的沙堡到复杂的城市可视化设计，空间智能贯穿了人类的推理、行动和发明的全过程。

正是凭借空间智能，人类才能探索未知，创造革新，并构建出与世界深度连接的能力，为AI研究提供了方向，也为未来技术发展提供了灵感。

在接受彭博最新采访时，李飞飞表示，人类的空间智能是经过数百万年的进化才形成的。这种能力包括理解、推理、生成，以及在三维世界中进行互动。无论是欣赏美丽的花朵、试图触碰一只蝴蝶，还是设计建造一座城市，这些活动都体现了空间智能的本质。而这种能力并不仅限于人类，在动物身上同样可以观察到类似的表现。

当被问及如何让计算机具备空间智能时，李飞飞指出，我们已经取得了令人振奋的进展。过去十年间，AI领域的发展势头迅猛，特别是在生成式人工智能（Generative AI）领域。如今，AI不仅能够生成图像和视频，还能讲述蕴含真知的故事。这些能力正在以全新的方式重新定义人类的工作和生活。

然而，她也强调，当前的进展只是一个起点。我们正处于生成式人工智能革命的初期，刚刚揭开了这场变革的序章。未来，AI如何真正实现空间智能，将决定其在三维世界中的潜力和影响力。

写在最后

假设这个真的以后能够推广出来，那么它的前景充满了无限可能。最先能先到的应该是游戏开发场景中的3d场景建模。如果以后能够直接用这种技术去实现不同的场景，这样就能够提高关卡设计的效率，同时也可以根据不同玩家输入生成个性化的游戏世界。

另一个可以想到的场景是电影制作开发，比如用于场景预览和创意探索，帮助导演更清晰地构建电影的视觉效果。

当然不仅仅是上述两个场景，像在教育场景中，能够生成沉浸式的学习3d画面，提升知识的掌握和理解力。而在一些建筑设计中，可以快速展示设计方案，将创意转化为可视化的结果。

这种“空间智能”模型，希望可以有更多的厂商跟进，这样或许在很快的时间内就可以让普通人也能快速体验上～

推荐阅读

查看原图 360K