+关注

手机看

微信扫一扫，随时随地看

See Video, Get 3D，智源开源无标注视频学习3D生成模型See3D

智源研究院

2024-12-10 14:54发布于北京智源研究院官方账号

+关注

2024年12月10日，智源研究院推出利用大规模无标注的互联网视频学习的3D生成模型See3D---See Video, Get 3D。不同于传统依赖相机参数（pose-condition）的3D生成模型，See3D采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。这一方法不依赖于昂贵的3D或相机标注，能够高效地从多样化、易获取的互联网视频中学习3D先验。See3D不仅支持零样本和开放世界的3D生成，还无需微调即可执行3D编辑、表面重建等任务，展现出在多种3D创作应用中的广泛适用性。

See3D 支持从文本、单视图和稀疏视图到3D的生成，同时还可支持3D编辑与高斯渲染

相关的模型、代码、Demo均已开源，更多技术细节请参考See3D论文。

论文地址: https://arxiv.org/abs/2412.06699

项目地址: https://vision.baai.ac.cn/see3d

效果展示

（1）解锁3D互动世界：输入图片，生成沉浸式可交互3D场景，实时探索真实空间结构；

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

实时3D交互（备注：为了实现实时交互式渲染，当前对3D模型和渲染过程进行了简化，离线渲染真实效果更佳）

（2）基于稀疏图片的3D重建：输入稀疏的(3-6张)图片，模型可生成一个精细化的3D场景。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

基于6张视图的3D重建

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

基于3张视图的3D重建

（3）开放世界3D生成：根据文本提示，生成一副艺术化的图片，基于此图片，模型可生成一个虚拟化的3D场景。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

开放世界3D生成

（4）基于单视图的3D生成：输入一张真实场景图片，模型可生成一个逼真的3D场景。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

基于单张图片的3D生成

研究动机

3D数据具有完整的几何结构和相机信息，能够提供丰富的多视角信息，是训练3D模型最直接的选择。然而，现有方法通常依赖人工设计（designed artists）、立体匹配（stereo matching）或运动恢复结构（Structure from Motion, SfM）等技术来收集这些数据。尽管经过多年发展，当前3D数据的积累规模依然有限，例如DLV3D (0.01M)、RealEstate10K (0.08M)、MVImgNet (0.22M) 和Objaverse (0.8M)。这些数据的采集过程不仅耗时且成本高昂，还可能难以实施，导致其数据规模难以扩展，无法满足大规模应用的需求。

与此不同，人类视觉系统无需依赖特定的3D表征，仅通过连续多视角的观察即可建立对3D世界的理解。单帧图像难以实现这一点，而视频因其天然包含多视角关联性和相机运动信息，具备揭示3D结构的潜力。更重要的是，视频来源广泛且易于获取，具有高度的可扩展性。基于此，See3D提出“See Video, Get 3D”的理念，旨在通过视频中的多视图信息，让模型像人类一样，学习并推理物理世界的三维结构，而非直接建模其几何形态。

方法介绍

为了实现可扩展的3D生成，See3D提供了一套系统化的解决方案，具体包括：

（1）数据集：团队提出了一个视频数据筛选流程，自动去除源视频中多视角不一致或观察视角不充分的视频，构建了一个高质量、多样化的大规模多视角图像数据集WebVi3D。该数据集涵盖来自 1600 万个视频片段的 3.2 亿帧图像，可通过自动化流程随互联网视频量的增长而不断扩充。

00:00

倍速

3.0X

2.0X

1.5X

1.25X

1.0X

0.75X

0.5X

语言

多音轨

静音播放中，点击恢复音量

你可以刷新试试

视频信息

1.33.6

播放信息上传日志

视频ID

VID

播放流水

Flowid

播放内核

Kernel

显示器信息

Res

帧数

缓冲健康度

网络活动

net

视频分辨率

编码

Codec

mystery

按住画面移动小窗

WebVi3D数据集样本展示

（2）模型：标注大规模视频数据的相机信息成本极高，且在缺乏显式3D几何或相机标注的情况下，从视频中学习通用3D先验是更具挑战的任务。为解决这一问题，See3D引入了一种新的视觉条件——通过向掩码视频数据添加时间依赖噪声，生成一种纯粹的2D归纳视觉信号。这一视觉信号支持可扩展的多视图扩散模型（MVD）训练，避免对相机条件的依赖，实现了“仅通过视觉获得3D”的目标，绕过了昂贵的3D标注。

See3D方法展示

（3）3D生成框架：See3D学到的3D先验能够使一系列3D创作应用成为可能，包括基于单视图的3D生成、稀疏视图重建以及开放世界场景中的3D编辑等，支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

基于See3D的多视图生成

优势

（1）数据扩展性：模型的训练数据源自海量互联网视频，相较于传统3D数据集，构建的多视图数据集(16M)在规模上实现了数量级的提升。随着互联网的持续发展，该数据集可持续扩充，进一步增强模型能力的覆盖范围。

（2）相机可控性：模型可支持在任意复杂的相机轨迹下的场景生成，既可以实现场景级别的漫游，也能聚焦于场景内特定的物体细节，提供灵活多样的视角操控能力。

（3）几何一致性：模型可支持长序列新视角的生成，保持前后帧视图的几何一致性，并遵循真实三维几何的物理规则。即使视角轨迹发生变化，返回时场景依然保持高逼真和一致性。

总结

通过扩大数据集规模，See3D为突破3D生成的技术瓶颈提供了新的思路，所学习到的3D先验为一系列3D创作应用提供了支持。希望这项工作能够引发3D研究社区对大规模无相机标注数据的关注，避免高昂的3D数据采集成本，同时缩小与现有强大闭源3D解决方案之间的差距。

阅读更多

查看原图 1.04M

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。