World Labs的人工智能可从单张照片生成交互式3D场景

中国机器人网

2024-12-05 09:00发布于上海中国机器人网官方账号

前言

World Labs 的系统是新兴人工智能类别"世界模型"的一部分。

World Labs 是一家由人工智能先驱李飞飞创办的初创公司，该公司发布了其首个项目：一个人工智能系统，可从单张图像生成类似于视频游戏的 3D 场景。很多人工智能系统都能将照片转化为三维模型和环境。但是，World Labs 的场景是独特的，因为它们是互动的，而且是可修改的。

世界实验室在一篇博文中写道："[我们的技术]可以让您进入任何图像，并以三维方式进行探索。除了输入图像之外，一切都会生成"。

任何人只要有键盘和鼠标，就可以在 World Labs 网站上的演示中探索人工智能生成的场景，这些场景看起来令人印象深刻--虽然有点卡通。它们是在浏览器中实时渲染的，有一个可控摄像头，可调节模拟景深（DoF）。景深效果越强，背景物体就越模糊。

World Labs 的系统是新兴人工智能类别"世界模型"的一部分。这些模型可以模拟游戏和 3D 环境，但存在伪造和一致性问题。例如，初创公司 Decart 的 Minecraft 仿真世界模型Oasis分辨率较低，很快就会"忘记"关卡的布局。

相比之下，World Labs 的方法可以确保场景在生成后保持不变，并遵守基本的物理定律，这意味着它们具有实体感和深度。

World Labs 的系统还可以在场景中应用交互效果和动画，如改变物体的颜色和动态照明背景。

由 World Labs 系统生成的场景。图片来源：世界实验室

"大多数生成式人工智能工具都是制作图片或视频等 2D 内容，"World Labs 写道。"三维生成则提高了控制和一致性。这将改变我们制作电影、游戏、模拟器和其他物理世界数字表现形式的方式"。

现在，当然还有改进的余地。World Labs 的场景并不是完全可探索的--你的移动被限制在一个很小的区域内。偶尔也会出现渲染错误，例如物体以不自然的方式混合在一起。但世界实验室表示，这只是一个"早期预览"。

这家初创公司在博客中写道："我们正在努力改进生成世界的大小和保真度，并尝试让用户与之互动的新方法。"

World Labs 网站上的部分演示。效果可实时应用于场景。图片来源：World Labs

World Labs 于今年早些时候成立，已募集了 2.3 亿美元的风险投资，投资者包括 Andreessen Horowitz (a16z)、Ashton Kutcher、英特尔资本、AMD Ventures 和埃里克-施密特（Eric Schmidt）。该公司的估值超过 10 亿美元，希望能在 2025 年推出首款产品。

除互动场景外，World Labs 还计划开发对艺术家、设计师、开发人员、电影制作人和工程师等专业人士有用的工具。它的目标客户包括视频游戏开发商和电影制片厂。

免责声明

文章来源：cnBeta‍‍‍‍‍‍

查看原图 41K