1.3D生成版DeepSeek推出两个基础模型TripoSG和TripoSF,分别刷新了开源3D生成模型SOTA和闭源3D模型SOTA。
2.VAST团队在TripoSG上采用了基于校正流的Transformer架构,实现了更稳定、高效的训练。
3.为此,VAST团队开发了高质量VAE与创新几何监督,提高了模型的质量和细节表现。
4.同时,TripoSF采用了SparseFlex表示方法和高效的训练策略,降低了内存占用和细节退化。
5.VAST计划在未来一个月内连续开源多个技术项目,包括三维部件补全模型、通用三维模型绑定生成模型等。
以上内容由腾讯混元大模型生成,仅供参考
衡宇 鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
3D生成版DeepSeek再上新高度!
国产、易用、性能强且开源——
新模型一露面就刷新SOTA,并且第一时间加入开源全家桶。
顺时针转个圈圈给大家看,效果是这样:
加上“皮肤”是这样:
再来一个,效果是这样:
肉眼可见,这次妥妥升级变成了更细节的细节控~
以上效果,都来自3D大模型明星初创公司VAST,其刚刚上新的两个基础模型,TripoSG和TripoSF,为团队的最新研发成果。该团队去年3月开源了TripoSR,在开源3D生成基础模型中爆火全球。
TripoSG,发布即开源,一露面就刷新开源3D生成模型SOTA,让广大开发者第一时间享受技术进步的成果。
TripoSF,目前为开源第一阶段,已经用实力证明了自己:横扫一切开源和闭源的现有方法,拿下新SOTA。
你就说秀不秀吧(手动狗头)?!
——但基础模型还只是VAST最近大秀一波技术肌肉的上半程表演。
量子位获悉,接下来VAST要连续开源一个月,每周都有新开源项目公布。而TripoSG和TripoSF是开源月里第二周的项目。
在整个开源月里,除了第一波单张图像端到端生成三维组合场景、第二波3D基础模型,接下来还有三维部件补全模型、通用三维模型绑定生成模型、三维几何精细化模型以及SIGGRAPH Asia 2024 RTL收录的交互式草图生三维模型等等技术将与大家见面。
港真,我的胃口已经被吊起来了。
在DeepSeek之后,各领域的国产之光们纷纷开启了开源大秀。而VAST,就是领先的3D大模型领域公司率先发起的攻势。
并且这个开源攻势,持续一个月!
开源月第一弹,两个基础模型拿下开闭源新SOTA
3D版DeepSeek登场,一出手就是开源月;第二波出击比第一波更猛,开源2个强大的基础模型,很有诚意的那种。
它们分别是:
TripoSG:开源的3D模型新SOTA;目前开源1.5B版本。
TripoSF:以开源之身,刷新闭源3D模型SOTA;目前阶段性开源部分成果。
都沿用了VAST最著名的Tripo系列来命名,但各有偏重——
TripoSG
对于TripoSG,官方介绍是这样的:
一款在质量、细节和保真度上实现重大突破的基础3D生成模型。
其开源内容,包括1.5B版本TripoSG的模型权重、推理代码以及交互式演示Demo。
让我们从技术侧来剖析一下TripoSG的庐山真面目。
简单来说,TripoSG身上体现了VAST针对3D领域特性,引入的多项关键设计创新。
第一,率先将基于校正流(RF,Rectified Flow)的Transformer架构应用于3D形状生成。
之所以选择基于矫正流来做,是因为VAST在研究过程中发现,相较于传统的扩散模型(Diffusion Model),矫正流在噪声和数据之间提供了更简洁的线性路径建模,有助于实现更稳定、高效的训练。
拿它结合已被验证的可扩展性和卓越性能的Transformer架构(如DiT),属于强强结合,让TripoSG拥有很稳定的强大内核。
第二,TripoSG是首个在3D领域发布的MoE Transformer模型。
以Transformer为基础,TripoSG融合了包括跳跃连接(skip-connections)在内的关键增强设计,以改善跨层特征融合。
此外,独立的交叉注意力(cross-attention)机制能够高效地注入全局(CLIP)和局部(DINOv2)图像特征,让输入的2D图像和输出的3D形状之间精准对齐。
这还不够,VAST团队为了实现TripoSG的高效Scaling——从1.5B拓展到4B那种——团队在Transformer中集成了MoE层。
这个办法此前都只在大语言模型领域实践过,VAST发现3D领域同样适用。
这样一来,可以在几乎不增加推理计算成本的前提下,显著提升模型参数容量,并重点应用于网络中更深、更关键的层级。
第三,开发了高质量VAE与创新几何监督。
VAST开发了一种采用符号距离函数(SDFs,Signed Distance Functions)进行几何表示的VAE,相较之下,比此前常用的体素占用栅格(occupancy grids)具有更高的精度。
需要注意的是,基于Transformer的VAE架构在分辨率上有很强的泛化性,无需重新训练,即可处理更高分辨率的输入。
与此同时,TripoSG还引入了一种混合监督训练策略,将标准的SDF损失与表面法线引导 (surface normal guidance)和 程函方程损失 (eikonal loss) 相结合。
让VAE能学习到几何上更准确、细节更丰富的表示,又能为后续的流模型提供了质量更高的潜空间。
第四,重视数据治理,特意开发一套完善、精细的数据构建与治理流水线。
流程各阶段如下:
质量评分(Scoring)——数据筛选(Filtering)——修复与增强(Fixing & Augmentation)——SDF 数据生产(SDF Production)
通过这一流程,VAST为TripoSG构建了一个包含200万高质量“图像-SDF”训练样本对的数据集。
消融实验明确证明,在此高质量数据集上训练的模型性能显著优于在更大规模、但未经过滤的原始数据集上训练的模型(这一点凸显了数据质量与数量同等重要,甚至更为关键)。
集以上四点于一身的TripoSG,经Normal-FID等量化指标评估,以及基于大型多模态模型(如基于GPTEval3D框架的Claude 3.5)的定性评估,轻松拿下3D开源模型界的新SOTA。
让我们来看看3D模型开源界新王的表现——
首先,TripoSG为什么能拿下新SOTA,必然是在语义一致性上有超出现有模型的表现。
简单来说,TripoSG输出的3D形状,能准确反映输入图像的语义内容和视觉外观。
当你告诉它你想要一个三斗柜,既写实又稍微Q一点那种,你将得到:
不渲染可能视觉上没那么明显,但一上色,你就能发现“哎哟不错哦”,确实是古朴写实但又兼具可爱风。
还有一些日常生活的使用痕迹:
非常能直观感受到的一点是,即使面对具有复杂拓扑结构或包含精细元素的挑战性输入,TripoSG也能生成连贯、合理的形状。
TripoSF
再来看TripoSF。
研发TripoSF,VAST有专门的针对性目标,旨在突破传统3D建模在细节、复杂结构和扩展性上的瓶颈。
具体来说,3D模型虽然也在不断发展之中,但现有方法仍有不足。比如预处理带来的细节损失、对复杂几何形状表达能力的不足,或在高分辨率下面临高昂的内存和计算成本……
令人头秃。
据VAST官方表示,此前一直在研究中寻找3D模型的tokenizer,现在终于有所进展——
没错,就是TripoSF的核心表示方法,SparseFlex。这家伙拉高了3D生成任务的上限。
它借鉴了Flexicubes(可微分地提取带尖锐特征的网格)的优势,并创造性地引入了稀疏体素结构,仅在物体表面附近的区域存储和计算体素信息。
带来的效果很显著,约有以下三点:
大幅降低内存占用,让TripoSF能够在1024³的高分辨率下进行训练和推理。
原生支持任意拓扑处理:不仅通过省略空白区域的体素,自然地表示开放表面(如布料、叶片),还有效捕捉内部结构。
支持基于渲染损失的直接优化:SparseFlex是可微分的,允许TripoSF使用渲染损失进行端到端训练,避免了数据转换(如水密化)导致的细节退化。
为了实现上述第一点,VAST还做了很多功课,最终推出一种叫“视锥体感知的分区体素训练”的策略。
视锥体感知的分区体素训练借鉴了实时渲染中的视锥体剔除思想,在每次训练迭代中,仅激活和处理位于相机视锥体内的SparseFlex体素。
有针对性和选择性的激活,显著降低训练开销,让1024³这样高分辨率下的高效训练成为可能。
另一边,视锥体感知的分区体素训练策略首次使仅通过渲染监督即可重建模型的内部精细结构——在此之前,依赖水密表面数据的方法没法完成这个任务。
当然,还有不得不提的关键一步,即基于SparseFlex表示和高效的训练策略,VAST还构建了TripoSF VAE(变分自编码器),它成为了TripoSF重建和生成能力的基础。
具体到输入到输出,是酱婶儿的:
输入:处理从三维网格采样得到的点云数据。
编码:使用稀疏Transformer将输入几何映射为紧凑的隐空间编码。
解码:从隐编码重建高分辨率的SparseFlex参数,并采用自剪枝上采样模块 (self-pruning upsampling) 来保持稀疏性并精确定义边界,尤其对开放表面效果显著。
输出:生成SparseFlex参数,可用于提取高质量的三维网格。
一顿操作过后,来看TripoSF的实战表现——
实验结果表明,TripoSF的质量达到了新SOTA。
在多个标准基准测试中,TripoSF与先前方法相比,实现了约82%的Chamfer Distance降低和约88%的F-score提升。
而用TripoSF得到的模型,是这样的:
多看几个项目效果也能发现,确如论文中表述的那样,有了SparseFlex的TripoSF,分辨率高,细节退化情况大幅降低。
就,获得的3D模型真的更真实了!我们多看几个Case:
BTW,与TripoSG的开源策略不同,TirpoSF选择了阶段性开源的方法。
现在,TirpoSF开源了TripoSF VAE的预训练模型及相关的推理代码。
不过满血版开源应该也不远了!VAST官方表示,满血版预计将在Tripo 3.0时开放。
且按耐住着急的心多等一会儿吧~
开源全家桶,从基础模型到创新应用全覆盖
开源月第二周发布两个基础模型之外,量子位也抢先打听到了VAST开源月的后续内容。
主打一个3D生成全流程技术覆盖。
下周的开源月第三弹,主打3D生成模型的专业能力——
三维部件补全模型、通用三维模型绑定生成模型。
开源月最后一周的压轴好戏,主打在3D生成领域的前沿探索——
三维几何精细化模型以及SIGGRAPH Asia 2024 RTL收录的交互式草图生三维模型。
至于开源质量嘛,我们可以通过今天的TripoSG和TripoSF,以及近期VAST的其它动作,窥一斑而知全豹。
这次开源月正式启幕的第一周,VAST第一发是在3月13日开源了两个项目:
一个是MV-Adapter,VAST和北航、上海交大联合出品。
虽于去年12月第一次问世,但3月13日又有新一步的进展,开放了几何控制下的多视图生成模型权重。
它是第一个基于适配器的多视图图像生成解决方案,可以在不改变原始网络结构或特征空间的情况下,增强文生图模型及其衍生产品。
另一个开源的项目叫MIDI。
它能仅凭单张图像,创建高保真3D场景,论文已中CVPR 2025。
这一系列开源属于是既有技术深度,又有覆盖广度了。
实际上,作为全球领先的3D生成技术提供方,VAST一直很看重在技术前沿的探索。
单在2024年一年里,就发表了几十篇新论文;同时积极投身开源社区,此前的开源项目还包括:
世界最大3D生成算法框架threestudio、图生3D的Wonder3D,和Stable Diffusion背后公司Stability AI一起开源的TripoSR……
凭借技术上的活跃度,VAST旗下的Tripo系列在全网社交媒体上,也属于是3D生成领域的当红炸子鸡(doge)。
不仅业余玩家玩得起劲,也获得了不少专业艺术工作者的认可,可以说是3D生成版的国产之光了。
对了,关于技术,此前VAST的CTO梁鼎还给量子位分享过他们的总体目标:
第一步是静态的内容生成,就像生成一个个雕塑。
第二步是动态的内容生成,让原本静态的雕塑动起来,和用户互动。
他还认为,在今年(2025年)年底之前,每个人都可以零门槛、零成本地进行实时3D内容创作。
现在,VAST用开源月,让每个人朝向这个目标更进一步。
而一系列技术新成果和开源推进之下,VAST也越来越受到关注,正在成为3D大模型赛道最具代表性的明星公司。
有个VC和技术招聘领域的江湖套梗是这样说的:
语言、图像和视频之后,3D是AIGC领域的下一个未来……那3D大模型赛道,究竟有谁在啊?
VAST。
【 TripoSG 】
Homepage:https://yg256li.github.io/TripoSG-Page/
论文arXiv:https://arxiv.org/abs/2502.06608
GitHub代码:https://github.com/VAST-AI-Research/TripoSG
抱抱脸模型权重:https://huggingface.co/VAST-AI/TripoSG
抱抱脸演示:https://huggingface.co/spaces/VAST-AI/TripoSG
【 TripoSF 】
Homepage:https://xianglonghe.github.io/TripoSF/
论文arXiv:https://arxiv.org/abs/2503.21732
GitHub代码:https://github.com/VAST-AI-Research/TripoSF
抱抱脸模型权重:https://huggingface.co/VAST-AI/TripoSF