3D GenAI 黑马的传奇取经路 | LightTalk

图片

图片





VOL.03


图片

本期嘉宾

图片

图片

负责人    |  娄洋,光源资本董事总经理

项目团队 |  金涵旻、侯璐雯、谭芮

联系方式 |  raetan@lighthousecap.cn


在 AI 赛道热度逐渐回归理性,投资人态度愈发务实的当下,创业企业面临着更为严格地审视:“这个项目究竟能解决什么问题?它是否具有实际应用价值?商业模式是否可行?”这与 AI 浪潮早期奉行的理想化“长期主义”市场环境形成了鲜明对比。如今,从项目的初创阶段,创业者和投资人就开始构思及关注商业模型。

同时,当下大模型底座市场熙熙攘攘,后入局的创业公司与行业巨头们卷算力、资金和数据显然不具备什么赢面。因此,更多 AI 行业的创业公司都逐渐将业务重心放在了做产业链上下游应用领域较为垂直的项目上。而与生来就应用场景明确的项目相比,有的项目需要团队和投资人耗费相当多的时间和精力,才能推导出清晰的应用场景和市场面向,几乎是一步一摸索。


光源资本董事总经理 娄洋


影眸科技就有着这样的经历——作为国内 3D GenAI 的领跑者,靠着千万级的 To C 端应用 Wand 拿到第一笔融资后,团队有很长时间都在思考“怎样才能做出有实际应用场景的生成式 AI 产品。” 团队自成立以来,也几经周折才最终找到了一条明晰的路径。
“影眸科技(上海)有限公司孵化于上海科技大学,通过与国内顶尖人工智能、计算机视觉实验室合作,积极推动尖端实验室科研成果的民用化、商业化,探索前沿人工智能、计算机视觉技术在大众娱乐市场的推广应用。” 目前 Deemos 的主页中关于公司介绍的部分这样写道。
影眸科技在 3D 生成领域处于全球领先地位,并于近日完成了新一轮数千万美元 A 轮融资,由美团龙珠、字节跳动领投,老股东红杉中国种子基金及奇绩创坛持续跟投,光源资本担任本轮独家财务顾问。
影眸去年推出的产品 Rodin 以最接近 “Production-Ready” 的生成效果,大幅降低了 3D 创作的门槛。上线 45 天后即实现 100 万美金年经常性收入(ARR),而 GenAI 领域最成功的初创公司之一 HeyGen 达到这个数字花了 7 个月。这也是影眸团队后来被大厂看中的主要原因。
在 Rodin 投入研发之前,市面上已经有团队推出了基于 2D 升维技术路径的 3D 生成产品——通过微调图像 Diffusion 模型来解决 3D 数据不足问题,之后在此技术上再进行 3D 改进。这也是当时学术界的主要技术路径。
可是影眸团队不想用快来掩饰“质”的缺陷,多年的技术探索和产品打造经验,已经让他们看到 2D 升维路径的瓶颈。2D 数据终究只记录了真实物体的一个侧面,再多角度的图像也无法完整描述一个 3D 内容,因此模型学到的东西依旧存在很多信息缺失,生成结果还是需要大量修正,成本和效率并未改善。而 3D 是一个工业问题,模型仅仅在视觉上表现好是不够的,还需要符合特定的工业标准比如材质如何表现,面片规划、结构如何合理。如果不能和人类工业标准对齐,那生成结果就需要大量调整,难以应用于生产端。从一开始就用 3D 原生数据或许是唯一的解法。
到底是先用主流技术做出一个产品上牌桌,还是用更大的力气去死磕一个还不明确的技术方向?影眸团队选择了后者,更难、更需要时间、但是更正确的事。
Rodin 的成功基于其颠覆行业的 CLAY 框架,该技术框架是影眸与上科大联合研发的 3D 原生 Diffusion Transformer 生成式大模型,并与团队同年研发的 3D 服装生成模型 Dresscode 同时获得 SIGGRAPH2024 最佳论文荣誉提名,影眸也成为这一领域唯一在同一个学术顶会上获得两项该提名的中国团队。
图片
Clay 、DressCode 获得 SIGGRAPH2024 最佳论文荣誉提名
除了行业领先的技术研发与学术能力,影眸作为一家产品仅推出半年的公司,商业化落地的成绩也颇为亮眼。目前,影眸已与 Amazon、字节跳动、Unity、拓竹等全球知名客户建立深度合作,截至目前已获得数百万元 B 端商业化订单,覆盖游戏、电商、具身智能、空间计算、3D 打印、影视等多个行业。
在 2024 年最后一天,影眸发布了 Rodin Gen-1.5,将 3D 生成推进到 Level 3 时代。通过引入全新的 3D 表达,填补了 3D 生成在尖锐边缘生成能力的留白,这是 3D 生成第一次能生成如此锐利的边缘,对于 CAD 类工业模型与硬表面模型,拥有绝对的优势。Rodin Gen-1.5 在海外社媒掀起了远超 Gen-1 的热度。
为了让市场更充分地了解到影眸科技目前在 3D GenAI 技术上的研究与突破,以及其所做的事情对行业的价值等。本期 Light Talk 特别邀请到光源资本董事总经理娄洋与影眸科技 CEO 吴迪、CTO 张启煊展开对话,聊聊 3D GenAI 这个行业的现状、技术难点、商业模式、未来趋势等,以及关于这个加快推动 3D GenAI 产业化的团队的一切。
图片
  • Rodin 的推出对建模师及行业从业者的影响关键不在于他们是否会因此失业,而在于如何将这个工具整合到他们的日常工作中,帮助他们提高效率和产出质量。
  • 3D 和其他模态有很大的差异,3D 不是一个消费级的模态。3D 直接对接的是工业部门,就要达到工业标准。要想让 3D 对接这些标准,纯粹依靠 AI 智慧涌现是不行的。人类工业标准需要靠人类的数据,而且是 3D 数据,才能够做好这种对齐。
  • 3D 生成要真正落地场景,并不仅是 3D 生成技术本身,还需要考虑布线、UV 贴图合理性等等方面才能更好地服务游戏、电影、电商等不同产业的生产流程,所以许多方面都需要迭代更新。
  • 影眸在逐步构筑诸如 Production-Ready、User Friendly 的核心壁垒能力,并且在 3D 生成这个赛道做的更、扎的更深,与产业化结合得更加紧密。
  • 3D 不同应用场景的工业要求各不相同。例如 3D 打印重视几何质量,需要足够高的精度;游戏制作领域的重心是几何布线的易修改性和生成效率,以便在后期环境中即时运行;影视行业中,材质和动画则更为重要。总的来说,我们的共同方向是追求更高质量的几何和贴图;但是分散到不同工业,就会产生不同的需求。
  • 尽管 3D 的 TAM 看起来比文字和图像小,但它却是目前 AI 生成中可落地场景最明确的技术。
  • 创业以来,市场对我们最好的教育就是:技术不等于产品,产品不等于公司。一项真正有用的技术一定是既能够立足学术前沿,又能满足工业化的需求,科研的最大价值一定是在商业化落地中实现的。这也是上科大的价值观。

    图片

“敢为天下”与“敢为人先”
娄洋:作为异军突起的 3D GenAI 新锐,尽管影眸已经摸索出了很多行业应用场景的 Know-How,也拥有非常扎实的技术基础,但其团队依然比较低调。首先,请吴迪和启煊为我们简要介绍一下影眸科技以及创始团队的背景。
吴迪:影眸科技是上海科技大学孵化的一家初创企业,自 2016 年起,我们就专注计算机图形学、3D 建模领域的研究。2023 年年底,我们完成了 AI3D 生成工具 Rodin Gen-1 的研发工作。Rodin 的运行逻辑十分简单,用户只需上传一张参考图或者一段 prompt,它就能为他们生成一个符合后期制作标准、接近 Production-Ready 级别的 3D 资产。
之所以我要特别强调 “Production-Ready”是因为 3D 生成本质上是一种工业领域的应用,对于模型布线、表达方式结构都有严格的标准和要求。我们期待 Rodin 生成的 3D 资产能够直接接入到诸如游戏、电影制作过程的后期制作管线,所以我们会特别强调 Production-Ready 部分。当然,目前我们的技术还没有完全成熟,距离真正的 Production-Ready 尚有一段距离,但相信随着 Rodin 算法技术的不断迭代升级,我们终将实现这一目标。
张启煊:正如吴迪刚才提到的,我们在生成式 AI 领域的研究起步较早。早在 2021 年,我们就推出了一款生成式 AI 应用,主要专注于图像生成。那时是我们创业第二年,我刚刚大三升入大四,吴迪也刚刚毕业。当时我们团队都很喜欢二次元,所以我们打造了一个二次元生成器,这款产品的用户量达到了 160 万。这也是我们与生成式 AI 的初次结缘。然而,基于对技术的长期专注及敏感度,我们感觉这条技术路线的 “天花板” 相对较低,不太有信心在一年内将这项技术从二次元拓展到其他物品的生成。但如果做社区化,我们的团队基因能力也稍欠缺。所以我们最终只是通过这款应用证明了团队实力,点到即止,转而 All in 到 3D 生成方向的研发。
娄洋:最初光源在接触影眸的时候(22 年初),整体一级市场对 AI 的关注度还不像现下那么高,更别说像是 3D 生成这样的垂直细分赛道了,另外早期 3D 领域的玩家大家都还在走 2D 升维这样的技术路线。但我们当时也是观察到了影眸在 CG(计算机图形学)、CV(计算机视觉)等 3D 相关领域中的技术沉淀和学术积累在那时就已经很深厚了,还相当具有前沿技术的洞察能力。咱们作为孵化自上科大的非常年轻的团队,在校期间就自研出世界唯二(另一家是当时好莱坞的 Light Stage)、亚洲唯一的亚微米级带 PBR 材质的超高精度扫描系统穹顶光场;而后又成为国内 3D GenAI 领域 3D 原生技术路径的首创者和先行者。可以和我们分享一下你们创业以来的整体历程,包括怎么想到率先基于 3D 原生路线去走泛 3D 生成的这条路?
吴迪:在创立这家公司之前,刚进入上海科技大学,我尤其喜欢拍电影。当时我最喜欢的电影就是好莱坞特效大片。那时中国还没有很著名的科幻电影,直到后面才有 《流浪地球》。当时我就想,为什么国外能够拍摄出如此高水平的特效电影,国内却不行?我们发现这是因为好莱坞拥有成熟的电影工业体系,而好莱坞的影视著作团队与南加大等学校的计算机图形学实验室结合紧密。所以我 2016 年和虞晶怡老师第一次见面就一拍即合,因为正好在做计算机图形学方向的研究,我也就加入了的实验室共同进行这方面的研究。
光场设备我们最初也是摸着好莱坞的石头过河,好莱坞的 Paul Debevec 团队正是通过光场扫描数字角色用于电影数字角色创作连年斩获奥斯卡终身技术成就奖。后面在与国内电影、游戏市场逐渐磨合中,我们也慢慢形成了自己的一套穹顶光场拍摄方案,包括数据处理方法、灯光照射角度等等,最终达到了超越南加大最早期设备精度的水平。因为我们很早就接触 AI 了,所以在搭建这套设备时,我们首先就想到要通过高精度设备采集高精度数据用于训练 AI,从而实现在没有穹顶光场的情况下也能实现高精度建模的效果。
图片
影眸科技的穹顶光场
我们当时的方向是数字角色,为此采集了大约几千个数字角色的数据,并通过训练算法开发了一个名为 “Dream Face” 的生成框架。这个框架可以直接通过文字或图像生成符合后期制作标准的数字角色,这一阶段大约是在 2022 年底完成的。当时“元宇宙”相关的讨论如火如荼,许多人都认为 “每个企业都需要一个数字形象”,同时数字形象又是所有人接入“元宇宙”的桥因而我们认为自己的方向大有可为。但是后来随着这种讨论逐渐降温,所谓“企业品牌的数字形象”这一设想并不可行,于是市面上大多试探品牌数字人的玩家也纷纷重新回归传统的电影和游戏领域。
团队当时研判未来方向时,主要考虑的是两个方面:一方面,如果我们能将这种 3D 人脸生成技术扩展到所有三维品类,会有更巨大的市场空间。而当时我们已经通过 “Dream Face” 摸索出了 3D 生成的技术路径,从技术层面上我们坚信这种拓展的可实现性;另一方面,由于我们在 3D 领域与众多游戏和电影公司摸爬滚打了很长时间,我们非常清楚他们对 3D 资产的需求,也有能力满足这些需求,知道要怎么同他们合作。
因此, 2022 年年底我们做出了一个重要的决定,那就是研发一种 3D 生成技术,而且新技术要能尽可能达到 Production-Ready 的级别,为其未来应用和市场争取更大空间。
张启煊:当时做出这个决定后,其实市场上的同类玩家很少。但随着时间推移,我们发现有许多团队都在相同的时间节点和我们做了一样的决定。而我们当时的优势主要是之前商业化积累的对行业的认知和部分商业化的能力。例如在数字角色阶段,我们就已经先后通过角色扫描、3D 角色生成进行商业变现,所以我们并不着急推出新的产品。一直到市场上其他竞品甚至都已经完成了好几轮的迭代,我们才推出了我们的第一代 3D 生成产品。但我们当时的产品相较其他工具在效果上有比较大的提升,反而实现了“后来居上”。这也可以说是一种“敢为天下后,后中争先”的策略。
在做数字角色阶段大量扫描重建工作中我们就意识到,我们不能走传统的根据 2D 预训练模型升 3D 的路线。因为这条路线有非常明显的上限:2D 升维最优只是无限逼近扫描重建效果。而我们知道:扫描结果根本无法直接接入现有生产管线,如果想要接入,需要进行大量的人工清理和修复工作,这不是我们想要的技术。这也是推动我们内部从 2D 升维转向 3D 原生的重要原因。我们今天的成绩也证明了当时这个决策的正确性。
当时 3D 生成另一个很难克服的点是大家普遍不看好 3D 领域数据量的积累。在图片和文字领域,我们使用了大量的数据才训练出泛化性较好的生成式模型。而当时 3D 领域的高质量可用数据非常有限,大约只有 50 万。几乎所有人都认为这个数据远远不足,但我们却觉得未必如此。可以说,促使我们获得成功的第二点是“敢为人先”:我们通过一些实验和结构上的改进,在 50 万的数据量级做出栩栩如生的特效效果。正是这两点让我们实现了今天 Rodin 3D 原生。
娄洋:Rodin 第一代产品是 2024 年 6 月正式上线的,一上线就得到全球范围内广泛的关注和热烈的反响,这是预期之中的吗?
张启煊:我们实际上从 2023 年 10 月左右就陆续放出了一些片段。一开始,很多人都认为我们是在造假。2024 年 3 月份我们在 GDC 上展示第一个产品 Demo 时,仍然有人怀疑我们造假。直到 6 月份产品正式上线,大家才真正相信我们的技术实力,发现“原来现在的技术居然已经能够达到这样的水平了”。
娄洋:我记得 Rodin Gen-1 上线前在 B 站有过一波实机演示的预告片,当时有好多专业观众的评论都觉得“不真实”,觉得如果真有这样的技术,那初级建模和中级建模师会直接失业,你们当时看到这些评论是什么感觉?有没有受到什么触动?
张启煊:其实我们公司就有很多建模师。我认为 Rodin 的推出对他们的影响关键不在于他们是否会因此失业,而在于如何将这个工具整合到他们的日常工作中,帮助他们提高效率和产出质量。不过,收到很多专业用户关于失业焦虑的反馈,让我感受到我们的技术确实具有一定的革命性。
图片
3D GenAI 的技术革命
娄洋:谈到革命性,你们刚才反复提及 “Production-Ready” , 2022 年你们最早做穹顶光场项目时就已经开始对接电影和其他工业场景需求,不断打磨技术。从技术路线上来说,你们原本做的 2D 升维和 3D 原生实质上有很大的差别,能否用更通俗的语言向我们解释这两种路线背后的技术原理差异?
张启煊:简单来说,2D 升维核心问题是:当一个 AI 模型积累了足够多的 2D 图像数据后,是否能够理解 3D?答案是可以的。即使模型纯粹建立在 2D 数据上,无论是单视角还是多视角数据,它都能通过分析理解出一个三维物体应有的形态,并且往往能够取得不错的效果。
3D 直接对接的是工业部门,就要达到工业标准。要想让 3D 对接这些标准,纯粹依靠 AI 智慧涌现是不行的。人类工业标准需要靠人类的数据,而且是 3D 数据,才能够做好这种对齐。这一点其实是我们在做 3D 角色时意识到的。所以在进行广泛意义的 3D 生成时,最关键的步骤就是高效地信息压缩,确保生成过程中数据损失尽可能小,这样才能保证输入数据和输出数据的一致性,进而实现 Production-Ready。如果是 2D 升维技术,通常是在足够多的多角度图像上渲染 3D 模型。但是即使有再多角度的图像,相对于原有的三维模型仍然存在大量信息损失。
娄洋:今天市场上众多的赛道玩家也都在强调数据质量或者数据大小。我们有一套具体的数据标准吗?数据是我们这类产品保持领先性和竞争力的重要指标吗?除了数据之外,还有哪些方面是我们的核心壁垒所在?
张启煊:数据当然重要,但是 Scaling Law 其实是两个维度,一是数据,二是参数量。之前我们取得的领先主要是通过扩大参数量、找到合适表达和训练框架来实现的。接下来可能确实得靠数据 Scaling,我们现在也在着手做这件事。毕竟只依靠 50 万数据肯定是不够的,需要积累更多数据。
除了数据之外,数据的处理流程和数据标注也很重要。文字和图片的数据标注可以是一个独立环节。但是 3D 领域数据的标注方式、结果都和算法设计密切相关。这一点是行业一个极为关键的 Know-How 和壁垒。这项工作一旦开始进行,除非后来者有成倍的人数和规模,不然很难赶上。
娄洋:能够展开讲一讲吗?中国的大模型企业更愿意自己做数据标注工作,但是美国企业则更倾向将这个过程外包,至少是在 IRM(信息资源管理)方面。所以是否可以这样理解,在 3D 领域数据和算法的耦合度非常高?
张启煊:其实不只是数据和算法的耦合,还有情景的耦合。文字和图片是人的 Common Sense,比较容易能够标注出相当高质量的数据。但是 3D 的工作则不同。以 OpenAI 为例,OpenAI 在做 ChatGPT 3.5 时,雇佣了大量高学历的硕博学生为他们标注数据,才让 ChatGPT 的整体数据质量达到今天的水准。3D 也是如此,数据标注不是一个 yes or no 的问题,而是我们必须用懂 3D 的人标出高质量数据。我们目前标注的数据中前 20% 都是由我们自己的算法工程师团队来完成的,我自己也参与了大量数据的标注工作。
娄洋:那么这是否会变成一个 labor intensive(劳动密集型)的工作呢?公司的规模是否会受限于人数?目前在这方面我们有比较好的解决方案吗?
张启煊:在我看来,技术发展是一环扣一环的。当我们现在面临这个问题时,OpenAI 推出了 GPT 4V 的 API,极大地减轻了我们在数据标注上的人工依赖。虽然目前仍需标注大量数据供 AI 参考,但是在后续的 scaling 过程中,我们能够依赖人工智能来实现规模化效应的扩大。非常幸运的是,我们在做数字角色时,OpenAI 的 GPT 3.5 出来了;我们做 3D 物品生成时,GPT 4V 出来了。这种一环扣一环的技术发展,为我们提供了非常好的发展助力。
娄洋:但是技术溢出对赛道各玩家都是公平的。从商业发展的角度看,除了数据之外,还有其他哪些方面构成我们持续建立巩固竞争优势所在呢?
吴迪:我们目前可以说是 3D 赛道发展较快、成果较好的队伍。我始终觉得在一两年的“内卷”里,各家的底层模型其实都能“卷”到相对一致的水平,最多相差不会超过 10%-20%有点像今天国内大模型的状况。对影眸来说,我们就是要在这一到两年的时间里,更紧密地接入现有工业场景。
因为 3D 生成要真正落地场景,并不仅是 3D 生成技术本身,还需要考虑布线、UV 贴图合理性等等方面才能更好地服务游戏、电影、电商等不同产业的生产流程,所以许多方面都需要迭代更新。这种 Production-Ready、User Friendly 的能力就是我们接下来要一点一点建立起来的核心壁垒,要在这个赛道里扎的足够、足够深,与产业化结合得足够紧密。
图片
真正地创造商业价值
娄洋AI 是非常重投入的赛道,所以产业化和应用场景一直被重点关注,大家都在寻找最合适自己的应用场景。对于 3D 生成来说,市场和 TAM(技术模块)也都是难以绕过的问题。影眸对于场景的选择,以及对行业整体发展节奏有何看法?
吴迪:其实大家肯定都想做所谓的 “3D UGC” 平台内容,类似 3D 版的抖音,但在我看来,这个方向目前面临两大困难:一方面,目前普通人尚不具备消费 3D 资产的场景,因而在 AR、VR 及 3D 打印技术成熟之前,这类平台很难成立。另一方面,我们不能用这个时代的产品来定义下一个时代的产品。毕竟现在技术变化发展日新月异,没有人能预知未来的技术发展方向。然而尽管 3D 的 TAM 看起来比文字和图像小,但它却是目前 AI 生成中可落地场景最明确的技术。
游戏市场每年要投入 60-100 亿美金用于 3D 建模,商品的广告推广、珠宝定制也都离不开 3D 建模。但是大多数人可能并不具备 3D 建模的能力,或者 3D 建模并不是他们创意流程的核心,这就是 3D 生成在当前阶段最需要解决的问题和落地的方向。如果我们把这些需求加起来,至少是一个百亿美金级别的市场,潜力巨大。当然,也有一些观点认为,“人工可以降低 10 倍左右的成本”,但是成本的降低肯定也会在一定程度上增加整体需求。因此综合考虑各方面,这个市场对我们来说规模并不小。
并不是说如果我们未来想要打入 C 端市场,就要忽略 B 端的这些机会。其实在 C 端设备渲染所用的 3D 模型和在游戏等 B 端创作的 3D 模型基本是一致的。我们目前所做的一切都是为了更好的优化模型生成效果,打磨好我们的技术竞争力,以便在未来争取更多的发展空间。所以我们目前的落脚点都是专业场景,主要 C 端用户都是 Prosumer,B 端用户则是游戏公司等等。
娄洋:回归到实际行业应用进展上,我们了解到影眸和不同产业的合作伙伴都已经建立了深度合作关系,比如在游戏、3D 打印、服装、珠宝设计等行业领域,算是完成了多元产业化场景的初步落地,我们也听到很多产业内知名的企业客户对影眸评价非常高。不同场景对于你们技术的要求有大的差别吗?公司未来的技术演进方向会因为满足这些不同场景需求受到影响吗?
张启煊:理想情况下,我们当然希望开发一个通用模型以满足大多数场景的需求。但现实是,3D 不同应用场景的工业要求各不相同。例如 3D 打印重视几何质量,需要足够高的精度;游戏制作领域的重心是几何布线的易修改性和生成效率,以便在后期环境中即时运行;影视行业中,材质和动画则更为重要。总的来说,我们的共同方向是追求更高质量的几何和贴图;但是分散到不同工业,就会产生不同的需求。
图片
来源:B 站 UP 主 T-BOY