+关注

手机看

微信扫一扫，随时随地看

3D版DeepSeek卷起开源月：两大基础模型率先SOTA！又是VAST

量子位

2025-03-28 18:28发布于北京量子位官方账号

+关注

AI划重点 · 全文约4842字，阅读需14分钟

1.3D生成版DeepSeek推出两个基础模型TripoSG和TripoSF，分别刷新了开源3D生成模型SOTA和闭源3D模型SOTA。

2.VAST团队在TripoSG上采用了基于校正流的Transformer架构，实现了更稳定、高效的训练。

3.为此，VAST团队开发了高质量VAE与创新几何监督，提高了模型的质量和细节表现。

4.同时，TripoSF采用了SparseFlex表示方法和高效的训练策略，降低了内存占用和细节退化。

5.VAST计划在未来一个月内连续开源多个技术项目，包括三维部件补全模型、通用三维模型绑定生成模型等。

以上内容由腾讯混元大模型生成，仅供参考

衡宇鱼羊发自凹非寺
量子位 | 公众号 QbitAI

3D生成版DeepSeek再上新高度！

国产、易用、性能强且开源——

新模型一露面就刷新SOTA，并且第一时间加入开源全家桶。

顺时针转个圈圈给大家看，效果是这样：

加上“皮肤”是这样：

再来一个，效果是这样：

肉眼可见，这次妥妥升级变成了更细节的细节控～

以上效果，都来自3D大模型明星初创公司VAST，其刚刚上新的两个基础模型，TripoSG和TripoSF，为团队的最新研发成果。该团队去年3月开源了TripoSR，在开源3D生成基础模型中爆火全球。

TripoSG，发布即开源，一露面就刷新开源3D生成模型SOTA，让广大开发者第一时间享受技术进步的成果。

TripoSF，目前为开源第一阶段，已经用实力证明了自己：横扫一切开源和闭源的现有方法，拿下新SOTA。

你就说秀不秀吧（手动狗头）？！

——但基础模型还只是VAST最近大秀一波技术肌肉的上半程表演。

量子位获悉，接下来VAST要连续开源一个月，每周都有新开源项目公布。而TripoSG和TripoSF是开源月里第二周的项目。

在整个开源月里，除了第一波单张图像端到端生成三维组合场景、第二波3D基础模型，接下来还有三维部件补全模型、通用三维模型绑定生成模型、三维几何精细化模型以及SIGGRAPH Asia 2024 RTL收录的交互式草图生三维模型等等技术将与大家见面。

港真，我的胃口已经被吊起来了。

在DeepSeek之后，各领域的国产之光们纷纷开启了开源大秀。而VAST，就是领先的3D大模型领域公司率先发起的攻势。

并且这个开源攻势，持续一个月！

开源月第一弹，两个基础模型拿下开闭源新SOTA

3D版DeepSeek登场，一出手就是开源月；第二波出击比第一波更猛，开源2个强大的基础模型，很有诚意的那种。

它们分别是：

TripoSG：开源的3D模型新SOTA；目前开源1.5B版本。
TripoSF：以开源之身，刷新闭源3D模型SOTA；目前阶段性开源部分成果。

都沿用了VAST最著名的Tripo系列来命名，但各有偏重——

TripoSG

对于TripoSG，官方介绍是这样的：

一款在质量、细节和保真度上实现重大突破的基础3D生成模型。

其开源内容，包括1.5B版本TripoSG的模型权重、推理代码以及交互式演示Demo。

让我们从技术侧来剖析一下TripoSG的庐山真面目。

简单来说，TripoSG身上体现了VAST针对3D领域特性，引入的多项关键设计创新。

第一，率先将基于校正流（RF，Rectified Flow）的Transformer架构应用于3D形状生成。

之所以选择基于矫正流来做，是因为VAST在研究过程中发现，相较于传统的扩散模型（Diffusion Model），矫正流在噪声和数据之间提供了更简洁的线性路径建模，有助于实现更稳定、高效的训练。

拿它结合已被验证的可扩展性和卓越性能的Transformer架构（如DiT），属于强强结合，让TripoSG拥有很稳定的强大内核。

第二，TripoSG是首个在3D领域发布的MoE Transformer模型。

以Transformer为基础，TripoSG融合了包括跳跃连接（skip-connections）在内的关键增强设计，以改善跨层特征融合。

此外，独立的交叉注意力（cross-attention）机制能够高效地注入全局（CLIP）和局部（DINOv2）图像特征，让输入的2D图像和输出的3D形状之间精准对齐。

这还不够，VAST团队为了实现TripoSG的高效Scaling——从1.5B拓展到4B那种——团队在Transformer中集成了MoE层。

这个办法此前都只在大语言模型领域实践过，VAST发现3D领域同样适用。

这样一来，可以在几乎不增加推理计算成本的前提下，显著提升模型参数容量，并重点应用于网络中更深、更关键的层级。

第三，开发了高质量VAE与创新几何监督。

VAST开发了一种采用符号距离函数（SDFs，Signed Distance Functions）进行几何表示的VAE，相较之下，比此前常用的体素占用栅格（occupancy grids）具有更高的精度。

需要注意的是，基于Transformer的VAE架构在分辨率上有很强的泛化性，无需重新训练，即可处理更高分辨率的输入。

与此同时，TripoSG还引入了一种混合监督训练策略，将标准的SDF损失与表面法线引导 (surface normal guidance)和程函方程损失 (eikonal loss) 相结合。

让VAE能学习到几何上更准确、细节更丰富的表示，又能为后续的流模型提供了质量更高的潜空间。

第四，重视数据治理，特意开发一套完善、精细的数据构建与治理流水线。

流程各阶段如下：

质量评分（Scoring）——数据筛选（Filtering）——修复与增强（Fixing & Augmentation）——SDF 数据生产（SDF Production）

通过这一流程，VAST为TripoSG构建了一个包含200万高质量“图像-SDF”训练样本对的数据集。

消融实验明确证明，在此高质量数据集上训练的模型性能显著优于在更大规模、但未经过滤的原始数据集上训练的模型（这一点凸显了数据质量与数量同等重要，甚至更为关键）。

集以上四点于一身的TripoSG，经Normal-FID等量化指标评估，以及基于大型多模态模型（如基于GPTEval3D框架的Claude 3.5）的定性评估，轻松拿下3D开源模型界的新SOTA。

让我们来看看3D模型开源界新王的表现——

首先，TripoSG为什么能拿下新SOTA，必然是在语义一致性上有超出现有模型的表现。

简单来说，TripoSG输出的3D形状，能准确反映输入图像的语义内容和视觉外观。

当你告诉它你想要一个三斗柜，既写实又稍微Q一点那种，你将得到：

不渲染可能视觉上没那么明显，但一上色，你就能发现“哎哟不错哦”，确实是古朴写实但又兼具可爱风。

还有一些日常生活的使用痕迹：

非常能直观感受到的一点是，即使面对具有复杂拓扑结构或包含精细元素的挑战性输入，TripoSG也能生成连贯、合理的形状。

TripoSF

再来看TripoSF。

研发TripoSF，VAST有专门的针对性目标，旨在突破传统3D建模在细节、复杂结构和扩展性上的瓶颈。

具体来说，3D模型虽然也在不断发展之中，但现有方法仍有不足。比如预处理带来的细节损失、对复杂几何形状表达能力的不足，或在高分辨率下面临高昂的内存和计算成本……

令人头秃。

据VAST官方表示，此前一直在研究中寻找3D模型的tokenizer，现在终于有所进展——

没错，就是TripoSF的核心表示方法，SparseFlex。这家伙拉高了3D生成任务的上限。

它借鉴了Flexicubes（可微分地提取带尖锐特征的网格）的优势，并创造性地引入了稀疏体素结构，仅在物体表面附近的区域存储和计算体素信息。

带来的效果很显著，约有以下三点：

大幅降低内存占用，让TripoSF能够在1024³的高分辨率下进行训练和推理。
原生支持任意拓扑处理：不仅通过省略空白区域的体素，自然地表示开放表面（如布料、叶片），还有效捕捉内部结构。
支持基于渲染损失的直接优化：SparseFlex是可微分的，允许TripoSF使用渲染损失进行端到端训练，避免了数据转换（如水密化）导致的细节退化。

为了实现上述第一点，VAST还做了很多功课，最终推出一种叫“视锥体感知的分区体素训练”的策略。

视锥体感知的分区体素训练借鉴了实时渲染中的视锥体剔除思想，在每次训练迭代中，仅激活和处理位于相机视锥体内的SparseFlex体素。

有针对性和选择性的激活，显著降低训练开销，让1024³这样高分辨率下的高效训练成为可能。

另一边，视锥体感知的分区体素训练策略首次使仅通过渲染监督即可重建模型的内部精细结构——在此之前，依赖水密表面数据的方法没法完成这个任务。

当然，还有不得不提的关键一步，即基于SparseFlex表示和高效的训练策略，VAST还构建了TripoSF VAE（变分自编码器），它成为了TripoSF重建和生成能力的基础。

具体到输入到输出，是酱婶儿的：

输入：处理从三维网格采样得到的点云数据。
编码：使用稀疏Transformer将输入几何映射为紧凑的隐空间编码。
解码：从隐编码重建高分辨率的SparseFlex参数，并采用自剪枝上采样模块 (self-pruning upsampling) 来保持稀疏性并精确定义边界，尤其对开放表面效果显著。
输出：生成SparseFlex参数，可用于提取高质量的三维网格。