World Labs的人工智能可从单张照片生成交互式3D场景

前言


World Labs 的系统是新兴人工智能类别"世界模型"的一部分。


World Labs 是一家由人工智能先驱李飞飞创办的初创公司,该公司发布了其首个项目:一个人工智能系统,可从单张图像生成类似于视频游戏的 3D 场景。很多人工智能系统都能将照片转化为三维模型和环境。但是,World Labs 的场景是独特的,因为它们是互动的,而且是可修改的。


世界实验室在一篇博文中写道:"[我们的技术]可以让您进入任何图像,并以三维方式进行探索。除了输入图像之外,一切都会生成"。


任何人只要有键盘和鼠标,就可以在 World Labs 网站上的演示中探索人工智能生成的场景,这些场景看起来令人印象深刻--虽然有点卡通。它们是在浏览器中实时渲染的,有一个可控摄像头,可调节模拟景深(DoF)。景深效果越强,背景物体就越模糊。


World Labs 的系统是新兴人工智能类别"世界模型"的一部分。这些模型可以模拟游戏和 3D 环境,但存在伪造和一致性问题。例如,初创公司 Decart 的 Minecraft 仿真世界模型Oasis分辨率较低,很快就会"忘记"关卡的布局。


相比之下,World Labs 的方法可以确保场景在生成后保持不变,并遵守基本的物理定律,这意味着它们具有实体感和深度。


World Labs 的系统还可以在场景中应用交互效果和动画,如改变物体的颜色和动态照明背景。


图片

由 World Labs 系统生成的场景。图片来源:世界实验室


"大多数生成式人工智能工具都是制作图片或视频等 2D 内容,"World Labs 写道。"三维生成则提高了控制和一致性。这将改变我们制作电影、游戏、模拟器和其他物理世界数字表现形式的方式"。


现在,当然还有改进的余地。World Labs 的场景并不是完全可探索的--你的移动被限制在一个很小的区域内。偶尔也会出现渲染错误,例如物体以不自然的方式混合在一起。但世界实验室表示,这只是一个"早期预览"。


这家初创公司在博客中写道:"我们正在努力改进生成世界的大小和保真度,并尝试让用户与之互动的新方法。"


图片

World Labs 网站上的部分演示。效果可实时应用于场景。图片来源:World Labs


World Labs 于今年早些时候成立,已 募集了 2.3 亿美元的风险投资,投资者包括 Andreessen Horowitz (a16z)、Ashton Kutcher、英特尔资本、AMD Ventures 和埃里克-施密特(Eric Schmidt)。该公司的估值超过 10 亿美元,希望能在 2025 年推出首款产品。


除互动场景外,World Labs 还计划开发对艺术家、设计师、开发人员、电影制作人和工程师等专业人士有用的工具。它的目标客户包括视频游戏开发商和电影制片厂。

免责声明

章来源:cnBeta‍‍‍‍‍‍