VAST要让人人都能成为创世“神”丨未来产业调研系列—

全文5789字,阅读约需17分钟,帮我划重点

划重点

01中国AI初创企业VAST致力于开发大众级别的3D创作者工具,让大众能够实时、零成本、零门槛创作3D内容。

02VAST发布3D生成大模型Tripo 1.0和2.0,目前可做到10秒生成形状几何,10秒生成纹理及PBR,处于领先地位。

03该公司拥有全世界最大的、两千万的高质量原生3D数据集,已发表论文13篇,参与开源3D生成算法框架threestudio等。

04VAST已完成天使轮和Pre-A轮共计数亿元的融资,创下3D大模型赛道的最大融资额。

05宋亚宸认为,3D大模型赋予人们创造属于自己的世界的能力,让每个人都能成为造世的“神”。

以上内容由腾讯混元大模型生成,仅供参考

文字、图片、视频、声音、音乐,AIGC正不断刷新内容创作的上限。

一家成立于2023年3月的中国AI初创企业VAST,一头猛扎进了3D大模型领域,试图在三维空间里开创一个新世界。

他们要造一个大众级别的3D创作者工具,让大众能够实时、零成本、零门槛创作,由此带来3D内容平台的诞生和繁荣。2024年初,他们发布3D生成大模型Tripo 1.0,2024年9月推出Tripo 2.0,目前可做到10秒⽣成形状⼏何,10秒⽣成纹理及PBR(基于物理的渲染),在所有3D生成任务效果中均处于领先地位。

图片

由Tripo生成的3D模型的六视渲染图——“站在水面玻璃球上的火烈鸟”图片来源:VAST官方公众号

VAST号称拥有全世界最大的、两千万的高质量原生3D数据集,同时在CVPR、ICLR、SIGGRAPH等国际顶会上发表了多篇论文,提出3D+2D融合的技术路线,并参与开源了3D生成算法框架threestudio、图生3D算法框架Wonder3D,与Stability AI合作推出3D生成开源模型TripoSR,推动技术线路的收敛,以加快3D行业的发展。

2024年9月下旬,他们完成天使轮和Pre-A轮共计数亿元的融资,并创下迄今3D大模型赛道的最⼤融资金额。

VAST聚集了梁鼎、曹炎培、郭元晨等多位来自清华大学的年轻科学家团队。创始人、CEO宋亚宸,毕业于约翰霍普金斯大学,之后在商汤CEO办公室实习并工作,2021年6月作为联合创始人参与创办AI独角兽MiniMax,2022年底创办VAST。

宋亚宸坦言自己是一个重度游戏爱好者,在与人交谈的时候,他手里还在不停地拼搭一堆积木。他自称“每天的空余时间主要就是打游戏”。在他看来,行万里路和读万卷书,无非是现实体验和虚拟体验的区别,打游戏对他而言只是选择在虚拟世界里体验和思考。

他用“神”创造的世界和人创造的世界,来类比现实世界和3D生成的虚拟世界。他认为,3D大模型赋予了人们创造属于自己的世界的能力,让每个人都能成为造世的“神”,并定义自己的世界规则。

从游戏、XR、元宇宙、具身智能、空间智能到大模型, 3D至少已经被资本界和产业界热烈讨论了十年。眼下,3D生成大模型能否成为3D的最新爆发点?新工具能否开启3D内容创作的新世界,乃至人类与世界交互的新形态?

以下是南方周末研究员与VAST创始人宋亚宸的对话:

打造3D抖音

南方周末:VAST的3D生成大模型Tripo,现在主要能做些什么?

宋亚宸:简单来说,就是输入文字或者图片,输出一个3D模型,它还可以进入游戏、动画、3D打印、工业设计等领域做二次编辑、渲染、驱动。除了静态3D模型,我们也做动态内容的生成,像骨骼自动绑定、动作的生成、场景的生成等等。我们就是在做一个3D的大众级别的创作工具。

南方周末:你如何理解3D这一概念?

宋亚宸:文字、图片、视频、声音,都是信息载体,3D也是信息载体,它的信息密度和自由度是最高的,还可以做双向交互,是最终极的信息载体。

目前的信息载体,都是3D的降维。如果说,“神”创造了一个3D的世界,就是我们的世界。视频是找个角度和位置去记录3D世界发生了什么,图片是记录其中的一帧画面,文字是抽象描述,而3D是所有信息载体里面最本质的形式。

南方周末:你当时怎么想到3D创业?

宋亚宸:互联网和移动互联网两大技术浪潮之下,最赚钱的是内容平台,文字和图片有Reddit、微博、推特、脉脉、Instagram,视频有抖音、快手、视频号、B站、小红书,声音有喜马拉雅、Podcast,而3D作为最终极的信息载体,还没有自己的UGC内容平台,所以我要做一个。

南方周末:VAST最早是想打造3D内容平台?

宋亚宸:对,大家去创作各种各样的3D内容和体验,比如你可以在一个世界里看20个蔡徐坤打篮球,可以和几个朋友开着高达互相开炮,也可以变成一块石头被两个巨人扔着玩,然后也可以随时开个传送门,进入下一个世界。它有点像一个3D的抖音,用feed流的方式去分发强交互的轻内容给内容消费者。

南方周末:后来怎么转向3D大模型?

宋亚宸:2023年初,当平台吸引了几千个创作者以后,我们发现继续增长的核心是更大程度地降低创作门槛和成本。3D缺乏一个大众级别的创作工具,导致大众创作3D的内容门槛和成本太高,无法出现一个内容平台。文字、图片、视频、声音和音乐这些信息载体,大众几乎可以零成本实时制作,但3D还不行。

从视频内容共创和分享平台看,PGC平台的代表B站发生在手机摄像头普及之前,而UGC平台的代表抖音出现在手机摄像头普及之后。从3D看,目前已有 Roblox(注:一个多人在线3D游戏社区)发生在3D大模型之前,未来应该也会有一个UGC平台,出现在3D大模型之后。

我们公司其实做两件事情:做3D的大众创作工具(3D大模型)Tripo,做UGC的3D内容共创和分享平台。

南方周末:在你看来,创作工具、内容创作、内容平台三者是什么关系?

宋亚宸:内容创作,最早是精英的艺术,全世界就一百万人能创作,其他人不行。像《三国演义》的小说,米开朗基罗的画,都属于艺术。现在我们把游戏也叫作“第九艺术”。

然后是 “半大众级别”创作,有更多爱好者能够来玩一玩了,比如摄影爱好者买“长枪短炮”拍摄,比如现在的Roblox,年轻的创作者利用平台的3D工具组件创作,活跃用户也有近亿的量级。

最后,当出现大众级别的创作工具,让大众可以实时、零成本、零门槛地去创作,就会出现一个UGC内容平台,这样创作能力的民主化会诞生新的内容品类和形态,最终内容爆发。

南方周末:那3D大模型会带来什么?

宋亚宸:如果说这个世界是由神创造的3D世界,那不好意思,未来每个人也能创造3D世界,3D大模型给了人"神"一样的能力。

这个世界上就只有两种视频,一种是实拍,拍神创造的3D世界;一种是虚拟制作,比如漫威、迪士尼、动画片,拍摄人创造的3D世界。

如果可以实时、零成本、零门槛去创造一个世界,未来可能99%的做视频的方式是虚拟制作。

神创造的3D世界只是几百个画风中的一种,叫写实;人也可以去创造一个写实画风的世界,但其中的物理规则、社会关系、社会评价体系和价值观,都可以跟神创造的世界有本质区别。

南方周末:2024年初Sora发布时被看作是世界模型,跟3D构建的世界模型有什么不一样?

宋亚宸:它们是完全不同的路径。大家对Sora也有很多争议,比如说难以理解物理规则,各种各样的一致性问题。因为视频是3D世界的一个投影,当它离开这个世界,生成的内容就像编谎话一样。比如,如果AI没有见过真实的可口可乐,它生成的描述可能会出错,因为它需要“编造”细节。

Sora刚发布时,投资人也在问,竞争对手会不会在3D领域抢先?我觉得大家的初心不一样。我是为了让大家成为神,给每个人选择的权利,选择出身、题材,选择你创造的世界的目标、信仰和价值观。同时,我在这个领域做到最好。

3D+2D融合路线

南方周末:这一轮3D大模型的发展,主要是什么在推动?

宋亚宸:近年来引发广泛关注的3D生成论文,应该是2022年9月谷歌提出的DreamFusion算法,证明单张二维图像生成三维模型具备可行性。此外,还有四个要素:

第一是Diffusion等生成范式与3D的结合。基于Diffusion算法的图像、视频生成处理方面已经非常成熟,3D和Diffusion也是天然结合,如果没有Diffusion就不可能谈到3D的生成,只能说3D的扫描或者重建。

第二是3D的表达方式。图形学原来是一个非常“自闭”的传统学科,直到出现了一些新的表达形式。图形学中有各种各样的3D表达形式,比如点云、 mesh、NeRF、Gaussian Splatting等等方式能去表达一个3D模型,这些表达形式不一定都适合被用来做AI训练的数据表达。就像Sora的核心之一在于对视觉token构建了spatial-temporal(时空)统一的隐空间(latent space),从而可以更好地做生成。当没有很好的tokenizer和latent space的时候,是没有办法去增加规模(scale up)的,那时算力和数据都没有用。我们一直都在找什么是更好的3D的表达形式,让它能够和AI大模型去做结合。

第三是多模态。生成3D肯定要输入,输入包括文本、单图、多图和视频等各种方式,要去理解这些模态。

第四是算力和算法框架的进步,让做大模型的实验成本更低,更快速。

南方周末:在3D生成上,VAST面对了哪些难题?

宋亚宸:首先是技术路线不统一。2023年前后主要有两种技术路线:2D到3D的升维路线,企业代表有谷歌、英伟达;3D原生路线,代表有Meta,Open AI。

其次是训练数据集缺乏。3D没有现成的数据。目前全世界高质量的3D模型,开源的可用数据大概有数十万个,我们有两千多万个,是全世界最大的高质量的3D原生数据集。数据决定了3D大模型的质量、它的天花板能有多高、能在什么程度上增加规模(scale up)。

最后是生成成本高昂,原来人工制作3D模型要上百美元,我们现在把它降到了几乎接近0。

南方周末:从2D到3D的路线和3D原生路线,有什么区别?

宋亚宸:2D升维路线,相当于给AI看各种图片,让AI从2D图像中想象3D形态,耗时长,容易出问题。例如猫走路的时候,前后脚有一只是重叠的,从左边右边看都是3只脚,会导致AI生成的猫可能有6条腿。再比如爱因斯坦有很多正面照、一两张侧面照,没有人拍过他的头顶、后脑勺,所以可能导致AI生成的爱因斯坦有4个正面。

3D原生路线,就是给3D看一堆3D模型,告诉它这是猫、这是狗,好处是生成的准确度高,但是由于训练数据匮乏,泛化性不佳。比如让它生成一个穿比基尼的恐龙、吃棒棒糖的老虎,AI马上傻眼了,它没见过,就会卡住。

李飞飞近日宣布成立World Labs,筹集了超过2.3亿美元,也是想开发一个能够利用图像和其他数据对三维世界进行决策的软件,打造“世界大模型”。

南方周末:你们的技术路线是什么?

宋亚宸:我们在2023年4月提出3D+2D融合的技术路线,既给AI提供3D模型数据,也提供2D图片数据,这样它就会变得非常多面手,速度快,成功率高,成本低,效果好。但是,想要收敛学术界和产业界的技术路线,非常难,所以我们做了三件事情。

首先是发表论文,去年我们发表了13篇论文,其中6投6中CVPR(IEEE国际计算机视觉与模式识别会议),其他几篇也被SIGGRAPH、ICLR、ECCV等学术顶会接收。这些论文被Meta、英伟达、谷歌等引用。

然后做了开源社区,我们参与开源了世界最大的3D算法框架threestudio、图生3D算法框架Wonder3D,全世界影响范围最广的3D生成模型TripoSR,是我们跟Stability AI合作推出的。我们尽量开源去收敛技术路线,这样大家才能够用同样的技术路线往前走。

最后是学术社群,我们建立了一个千人的3D生成科学家社群,每周都会举办活动,从去年到今年已经举办了六七十场活动。当行业技术路线统一、路线得到收敛的时候,进步速度就会非常快了。

南方周末:VAST怎么做到让3D生成成本接近于0?

宋亚宸:这是跟原来的3D大模型比,我们成本无限接近0了,当然语言大模型、图片大模型的生成成本也接近0。但文字不值钱,因为人人可以写,但3D建模不是人人都能建,所以值钱。生成一个字,收你5块钱,你不乐意买;生成一个3D模型,我卖5块钱,你愿意买吧?

南方周末:3D大模型如何避免出错问题?

宋亚宸:3D更可控。比如刚刚说2D升维那条路线容易出错,因为它是看了很多2D图片后来“编”可口可乐长什么样,但我给它输入了1万个可口可乐,它知道可口可乐长啥样,肯定就跟事实不会有太大出入。

当然,算法和工程的优化、训练数据处理的干净程度、训练数据集的数量,也是保证模型生成准确性的重要因素。

南方周末:你认为现在VAST的3D生成工具处于什么阶段?

宋亚宸:我们在今年9月中旬推出全新算法(Tripo 2.0),效果接近MidjourneyV4的水平,这意味着3D生成将达到一个拐点,就像GPT3.5和MidjourneyV4发布,大众才知道它们。

MidjourneyV4阶段,相当于爱好者做出来的3D模型水平,MidjourneyV5阶段就是一个专业的、1~2年经验的建模师能做出来的水平。到今年年底,我们预计可以达到MidjourneyV5的水平,它将超过用户的体验红线,变成一个完整的、有价值的、可用的3D模型。

现实的理想主义者

南方周末:3D生成赛道小众,AI人才竞争激烈,你怎么把团队建起来的?

宋亚宸:我们只招最牛、最“变态”、极致聪明的人才。早期我大概花80%-90%的时间去招人。我之前在商汤和MiniMax的经历积累了一定的AI圈人脉资源,我们的CTO、首席科学家、科学家们也都非常有魅力。

很多人问我为什么VAST人才密集度那么高,是因为我很能挖人吗?其实不是,就像《海贼王》中的路飞,他不是一个很能挖人的人,甚至情商很低,但他就想要成为海贼王,他就相信大秘宝(one piece),相信他自己,很多事就这么做到了。

南方周末:你们的运营和商业化主要有哪些?

宋亚宸:Tripo平台在海外已拥有超过30万用户,其中活跃用户和开发者贡献了超过500万个生成的模型;API用户有一万多;同时还有三百多家大客户,包括像网易、腾讯、字节、索尼、微软、阿里等都是。

商业应用主要是四类,传统的CG行业,包括游戏、动画、影视等各种虚拟制作;传统互联网,比如社交直播、电商、广告、设计、教育;传统工业,比如3D打印、鞋服、家居、首饰、灯具、文创产品、玩具手办、食品等等;新兴行业,比如元宇宙、AR/VR、具身智能仿真模拟、数字孪生、数字人等。

南方周末:有已经落地的应用吗?

宋亚宸:有。比如家用3D打印机很便宜,2000块一台,但以前大家都不买,因为不会建模,不知道打印什么。现在全世界Top10的家用3D打印机,已经有6家上线了Tripo,其余几家也正在签合同流程中。

我们有一个合作伙伴,应该是全世界最大的灯具厂,原来10层楼的工厂,前年有一层变成3D打印工厂,现在增加到三层。

我们还跟全世界最大的玩具工厂合作3D生成。原来在商场或者景区,要搭一个两米高的乐高,需要有人设计、研究再搭出来,需要两个月时间,成本大概要十几万元,现在可以通过一个机械臂自动搭。

我们和合作伙伴有几千台巧克力3D打印机在景区,游客输入或拍摄景区图片,当场生成再用巧克力打印出来,回去可以吃。

南方周末:你现在着急商业化?

宋亚宸:现阶段,商业化是揠苗助长。

传统商业模式是“贸工技”,先做生意赚了钱,再做产品,最后建立技术壁垒,但技术公司,尤其是这一代的AI公司,其实是“技工贸”模式。比如 Open AI开发大模型,1000亿花完了以后,技术突破用户体验的那一天,自然就有了产品,自然就赚钱了。真正做出技术突破的公司,早期都是不赚钱的,可能七八年都不赚钱。

我们目前技术领先,但如果有公司以100%的人来做底层通用大模型而不考虑盈利,而我们20%的人要去做定制化算法,比如考虑3D打印灯具中空外形的透光、异形蜡烛的防风问题,还怎么和其他公司竞争?这很尴尬。

南方周末:尽管如此,你们还是做了不少商业化探索。

宋亚宸:我是一个现实的理想主义者。如果大家都有共识,技术就应该这样完美,那我当然不用商业化,等着投资人给钱就行了。但目前还不是这个阶段。而且,我也很擅长商业化。我们现在是全世界在3D赛道融资最好、效果最好、人才最多、商业化最成熟的公司,是3D赛道里最牛的。

南方周末:现在看,你觉得VSAT的核心竞争力是什么?

宋亚宸:我们真的是一个有信仰的公司。

南方周末:你们的信仰是什么?

宋亚宸:我们是真的相信3D内容的爆发,我们相信3D内容平台会出现,而大众级别的创作工具是实现这件事情的唯一路径。

南方周末研究员 谯雅馨

责编 黄金萍