推荐语
动画是一个被低估的品类。它比真人影视更早拥抱数字化工具,比短视频承载更复杂的叙事,从迪士尼到吉卜力,证明了自己能撑起全年龄段的内容消费和完整的商业闭环。但动画的产能瓶颈也最为残酷——一部院线级动画电影动辄需要数百人、数年时间。当生成式 AI 开始重写内容生产的成本函数,动画可能是第一个被真正改变的品类。
方晨和王珏的判断正是从这里展开的。两人均出身 Adobe Research,王珏在 Adobe 十年间做到当时华人最高职级 Principal Scientist,他做的图像去模糊技术被 FBI 用于破案,视频防抖技术被用在了奥斯卡提名影片 Hugo 里。他在旷视领军研发的camera raw AI夜摄成像技术成为了后来的行业通用方案。方晨从 Adobe 到字节跳动再到腾讯,做过冲上抖音历史特效 Top 2 的实时 AI 滤镜。2023 年下半年,两人从腾讯离开,投入一个他们认为将被"完全彻底洗牌"的市场。目前,公司已累计完成千万美金级别的融资,投资方包括奇绩创坛、Atypical Ventures 和元璟资本。
第一款产品 Dzine 定位 AI 时代的 Photoshop,几乎零运营投入,靠用户口碑跑到了千万美金年营收。但他们很快从用户数据中发现了更大的机会:留存最好的那批人,从 Rick and Morty 的制作团队到好莱坞独立导演,再到在 YouTube 上用动画讲故事的文学老师——全都在做 animation。这让他们决定以动画为切入点,做一款面向更大视频市场的产品。于是有了 Anijam:一个用 Multi-Agent 架构搭建的视频创作工具,第一步从动画开始,目标是让任何人用一句话做出一部完整的视频作品。上线两周,付费用户过千,超过一半的作品在手机上完成。
在这篇访谈中,两位创始人拆解了为什么 animation 是切入 AI 视频最务实的起点而非终点,为什么底层模型是"打印机"而 Agent 才是"灵魂",为什么当前视频模型的训练范式可能从根本上不是最优解,以及一个他们反复强调的判断:当工具足够强大之后,真正稀缺的不是技术,是人的创意。
底层模型本质上就是一台打印机——你叫它打什么、怎么打,它就怎么出。作品的灵魂不在模型本身,而在上层的规划层。做出好的内容对人来说本身就是极难的技能,我们要做的是把这个技能内化到 Agent 里。
大厂还在做打印机,但评判器同样关键。现在大家都在抽卡——给一个 prompt,不行就再抽几十次。Agent 未来的进化方向是自评估、自迭代,形成闭环。”
做 Animation(动画)的人一直是内容创作群体里最 tech 的那部分——日常就在用 Maya、Blender,AI 对他们来说只是又一门新软件。所以他们最先用起来,不是巧合。
以前动画市场份额没那么高,不是因为需求不够,是因为产能太贵。一旦生产力被解放,动画会从一个受限品类变成一个主流品类
很多 Agent 产品都在追求 Agent 多智能,但人的创意才是最稀缺的燃料。一开始能抓住真正有创意的用户,后面千万级的增长目标反而是容易的那部分。
“我们的目标非常明确:什么时候能做到用户从一句话开始,最终成片是一部好莱坞级别的长片——半小时到两小时——通过用户跟 Agent 协同完成。我们不敢说完全达到,但目前跑在最前面。”
“做长视频时上下文非常长,你不能把所有上下文都塞给一个 Sub-agent——信息太多会产生幻觉。要在合适的位置动态调整 memory,让它既看到当前所需,又大致了解故事全貌。”
“After Effects 的创始人就在我们楼下,自己还写 code,30 年如一日地把全身心投入到一个产品里,对其他外在的东西完全不关心。Adobe 有一批这样几十年如一日打磨产品的人,对我们影响非常大。”
“长视频创作不像我们之前认为的以 PC 端为主——上线两周,超过一半的内容是用户在手机上完成的,甚至有人用手机做了十分钟以上的完整动画。”
“Animation 是起点,不是终点。用户一想到要做视频、做动画,第一个想到的就是我们——做到这样,目标就达成了。”
01 曾把AI塞进Photoshop和好莱坞电影的人
ZP:请两位分别介绍一下自己的背景。
方晨: 我是 2015、2016 年 PhD 毕业之后加入 Adobe Research,主要研究课题是怎么用生成式 AI 服务最专业的创作者。在 Adobe 期间经历了生成式 AI 几代技术迭代——从最早基于对抗生成网络(GAN),到基于扩散模型(Diffusion Model)。当时也是率先在 Adobe 内部把生成式 AI 落地到 Photoshop 这样的旗舰产品里,算是职业起点。
不过 Adobe 整体还是一家比较传统的软件公司,一年只有两个 release 周期。我个人有两个诉求:第一,希望技术能普惠到更多人手上;第二,希望追求更快的产品迭代。所以后来去了字节跳动——当时字节在北美刚成立 AI Lab,有几个 Adobe 和 Snap 背景的华人朋友一起过去,我也是比较早的一批。在字节主要做的是把 AI 技术落地到手机端,既追求效果也追求计算效率。
挑一个比较有亮点的项目:2020 年春节,我们做了一个移动端实时人脸属性编辑的功能——打开摄像头就能实时编辑年龄、性别、眉毛等细节,落地成一个实时滤镜。上线后发布视频量很快过了两三千万,冲上抖音历史特效发布量 Top 2。
从字节之后去了腾讯,开始从偏 research 转向偏业务,主要支持腾讯的短视频产品和腾讯视频等长视频产品。从腾讯出来后,2023 年中下旬和王老师一起开始创业。
王珏: 我 2007 年从华盛顿大学(UW)博士毕业,跟着导师一起去了 Adobe,因为我长期做图像视频编辑,专业很对口,在 Adobe 待了将近 10 年。期间服务了 Photoshop、After Effects、Premiere 等旗舰产品,每年都会贡献新技术转化为产品功能。
在 Adobe 有两件印象很深的事。第一,我们最先把图像去模糊技术做到 Photoshop 里,用的是当时最先进的 AI 技术。发布后很快被 FBI 用来破案,破了两个儿童绑架案——我们的技术把嫌疑人的模糊图片恢复清晰,找到了关键证据,FBI 还专门来 Adobe 表扬感谢。第二是视频防抖技术,2011 年上线后,被电影 Hugo 的导演用在了一个经典的长镜头里做相机防抖——那个导演是技术流派,率先在电影里采用了我们的技术。我个人比较喜欢既有技术突破、又能真正用到实际场景的研发。
到 2017 年,我在 Adobe 做到了 Principal Scientist,当时是华人里职级最高的。但觉得没有更多新挑战了,就应旷视科技孙剑和印奇的邀请,去美国设立旷视研究院,我是第一任负责人。到 2019 年末团队已有 20 多人,为旷视开创了手机影像产品线,在华为、小米、OPPO、vivo 都有不少落地。
之后腾讯首席科学家张正友博士邀请我去腾讯 AI Lab 负责视觉图形学方面的研究。我加入腾讯后技术职级是 T15(杰出科学家),在腾讯技术职级排名前 10。在腾讯和方晨又变成了同事,经常交流,后来就商量一块出来创业。
补充一个更早的经历:我博士期间做的视频抠图技术——把动态物体从视频里分割出来做后处理——在毕业前就被好莱坞一家叫"数字电影技术"的公司购买了 license,集成到了他们的产品里。这个产品后来在 2019 年获了奥斯卡技术奖,颁奖展示上用的就是我博士论文里的例子。算是对好莱坞电影后期制作做出了一些贡献。
02 旧的生产力被抹杀,全新的创作者在涌现
ZP:2023 年出来创业,当时看到了什么?
方晨: 我跟 Max 在腾讯时就一直在交流,都想在内容创作方向做出更大影响力的事情。2022 年底、2023 年初,我们看到生成式 AI 这一波——特别是扩散模型——把图像和视频生成的效果往上推了一大截。
上一代 GAN 技术,出来的模型应用场景很局限——针对一个小问题可以做到不错的效果,但无法泛化,从任务 A 迁移到任务 B 完全做不了。新的技术范式在泛化能力上有非常大的提升,虽然当时人脸、手、四肢这类结构化内容的生成还有很多瑕疵。
但我们判断:以前 Adobe 要解决的那些视觉编辑和生成任务,能被新一代模型大一统地解决。这种技术变革往往会带来商业变革、产品变革,用户习惯和群体都会变化,整个生产力关系和消费关系都可能转变。即使当时看这个方向怎么发展还很模糊,但我们觉得这是 10 年或 20 年才能遇到一次的机会,所以一拍即合就出来了。
王珏: 我们都有 Adobe 背景,对内容创作工具技术这块比较敏感。我当时的判断是:这不是渐进式发展,而是完全彻底的洗牌。这个市场本身规模就很大;而且整个用户群体也会发生大变化——以前不是创作者的人,未来很有可能成为新的创作者。这又是一个全新的市场。
ZP:你们是 Adobe 的 insider 出身,怎么判断这次机会属于创业公司而不是巨头?
王珏: 大厂有大厂的机会,创业公司也有创业公司的机会。大厂有历史产品包袱,比如 Adobe,转型和迭代速度注定不够快。创业公司在新技术潮流下可以跑得更快。
方晨: 补充细致一点。Adobe 的产品壁垒本质上是一个工具集合——每个工具都是经过多年打磨的独门功夫,能解决用户创作流程中的某个需求。但新技术突破带来两种根本性改变:
第一,用户工作流程的改变。Adobe 以前做的很多工具是为了完成某种任务,但其中大量任务已经被新技术直接抹杀了——任务本身不存在了。
第二,用户群体的改变。以前内容制作是技术活,掌握在一小部分人手中。技术门槛降低之后,原先 Adobe 用户的客户——比如企业主——自己就能用新技术制作内容,不一定再找专业设计师了。这是最本质的改变:生产力和生产关系的改变。
所以创业公司要看的不是跟大厂竞争,而是新的增量市场——原先没能力制作内容的人会形成一股强大的创作力量。同时大厂看的是更大的战场、整个面上的突破,创业公司可以从局部切入,撕开口子再扩展成面。比如我们选择从 animation 切入,是一个非共识的点,但留了足够的口子往其他视频品类扩散。
ZP:2023 年做过一些战略预判,到 2026 年回头看,哪些被验证了,哪些出乎预期?
方晨: 第一,我们当时判断基础模型放到三到五年维度看,属于大厂之间激烈竞争的范围,长线会变成水和电,利润空间比较薄。这也是我们没有从基础模型切入、而是选择应用层的原因。
第二,技术发展速度比我们预期要快。基础模型的进步不是线性的——更多是沉寂一阵后出现明显突破。比如 Google 推出 Imagen 这类图像编辑模型,字节做的 SeedDance——从 Sora 激发而来,已经具备一定的镜头切换和叙事能力。图片方面,生成和编辑已经可以用一个模型搞定,而且非常 general。
回想我们最早创业的时候,图片生成文字还很困难——当时北美有一家创业公司 Ideogram 主打的就是文字生成能力。但现在大厂通过数据和模型的迭代,已经把文字生成做到极致了——GPT Image 2 可以在图片里生成各种大小的文字、艺术字、广告牌,都非常好。很多我们当时讨论的基础问题已经在模型射程内被解决了,包括角色一致性也在逐步推进。当然在最后一公里——比如细节的表情控制——图像和视频模型还有较大提升空间,但我们相信同样的技术范式最终能基本解决这些问题。
王珏: 还有一点:大厂之间也很难形成绝对的技术壁垒,会交替领先。一旦某项技术在某一家突破,很快全行业都会跟进。在模型竞争里长期建立技术优势是相当难的。
方晨: 模型与模型之间的壁垒很薄。GPT Image 2 出来之后,我们明显感觉到 Google Imagen 那边的算力紧张被缓解了——代表用户在大量迁移。所以我们的观点很明确:创业公司要做应用,在应用里打造护城河。底层模型在交替领先、不断 cover 更多能力,这恰恰利好上层应用。
ZP:产品、商业和研发怎么分工?
方晨: 我负责产品和商业化,王老师负责研发——包括算法研发、Agent 研发和产品开发。团队整体偏年轻化,特别是产品设计和运营,我们招的都是非常年轻的同学,甚至有重要的产品同学是从实习生中筛选留下来的——对这块非常有热情,自我学习能力很强。
03 AI时代的Photoshop 到千万美金
ZP:Dzine 做到了千万美金年营收,从零到这个数字经历了什么?
方晨: Dzine 的初心是做一款 AI 时代的 Photoshop。2023 年底上线,2024 年初开始商业化。营收的增长本质上是随着我们不断解决用户痛点而发展的,运营成本非常低,更多靠用户之间的口碑传播。
切入点是 Image-to-Image。当时 Midjourney 这样的文生图产品已经很多了,但通过文字控制图像生成还有巨大的 gap——描述一张图像,很难用几句话说清楚。专业用户希望输入不光有文字,还要有多张参考图。我们基于开源的 Foundation Model 自研了一套图像生成能力,从这个点切入打开了局面。
YouTube 上有个 500 万粉丝的频道叫 PIXImperfect,全网最大的图像编辑教程博主。他看到我们的产品后,主动做了一集 20 分钟的专题视频介绍 Dzine。当天晚上服务器就崩了,我们紧急加服务器,在视频下面给用户留言道歉。注册用户涌入,不得不转成 Waitlist,一天只放几百个名额,每次 10 秒钟之内就被抢光。这件事说明:如果认真解决用户痛点,产品是能做到自传播、自增长的。
后续我们每周大概访谈十几个海外用户,围绕用户反馈不断打造新功能——颜色控制、角色一致性、场景一致性、在已有场景中放置角色等等。Dzine 的营收增长跟功能迭代的节奏高度相关。
ZP:Dzine 和 Anijam 在技术层面分别面临什么挑战?
王珏: Dzine 的核心竞争力是在一站式创作编辑平台上自研了很多独特功能——从风格精确控制、风格训练,到局部图像编辑、角色一致性,再到现在用户用得多的多角色对口型和视频局部修改。Dzine 始终在为用户提供其他平台体验不到的功能,使创作更准确、更可控。这些功能建立在团队深厚的技术积累和对用户需求的敏锐洞察之上。
但 Dzine 面向的是相对专业的用户。Anijam 完全不同——既要覆盖专业用户,还要兼顾没有设计或编辑经验的入门用户,面向的是一个更大的市场。
技术挑战也更全面。第一,Dzine 做的是图片或短视频,Anijam 做的是更长的视频——长视频的难度比短视频高很多。第二,要让普通用户零培训就能快速上手并产出结果,Agent 技术就至关重要。Dzine 目前完全没有 Agent,但 Anijam 里 Agent 就是产品的灵魂和核心。要实现"让任何人在任何时间、任何地方都能创作",Agent 系统就是核心。
ZP:Agent 跟普通的模型套壳应用,本质区别在哪?
王珏: 两个方面。
第一是上手门槛。工具型产品随着工具增多,复杂度和上手门槛也在增加——传统 Photoshop 如此,Dzine 作为 AI 版 Photoshop 也有这个问题。有了 Agent 之后,所有工具都埋在 Agent 下面,用户只跟 Agent 交互。不是用户去学工具,而是工具在创作流程中恰当的时机自动送到你手边。Agent 使得"人人都能创作"成为可能。
第二是个性化。Agent 作为智能体,可以阅读用户、洞察创作流程、理解创作偏好甚至创作意图,越来越像个人助手。这种个性化在传统工具软件里很难形成。它跟应用层壁垒是有联系的——通过低门槛吸引用户,再通过协助创作形成个性化助手,用户粘性自然就更高。
04 Anijam:押注动画,一条少数派路线
用Anijam 制作的动画
ZP:为什么选择从动画切入视频,而不是真人视频?
方晨: 灵感来自我们跟 Dzine 用户的深度访谈。我们发现 Dzine 里有一部分留存非常好的用户,共性是都在做 animation,而且从 professional 到 consumer 全频谱都有。
Professional 方面:我们访谈到了 Rick and Morty 制作团队的成员、Disney TV 的老员工,他们把 Dzine 放进工作流程跟团队一起做动画创作。还有 LA 的好莱坞导演,在工作之余用 Dzine 在网上打造自己的 IP 和频道。Consumer 方面:比如 LA 的一个文学老师,热爱动漫,会把自己喜欢或自己设计的角色做成故事发到频道里。所以 animation 有从专业到 C 端全频谱的需求,用户对算力的需求量非常大,创作流程足够复杂但有共性。
为什么做 animation 的用户会最先把 AI 产品用起来?因为这群人一直是内容创作群体里最 tech 的那部分——技术流派,日常就在用 Maya、Blender 这些软件,天然对新技术敏感。AI 对他们来说只是一门新工具,能很快过渡。相比之下,拍电影拍电视剧的人还是更遵循到片场实际拍摄的模式,AI 落地更难。而且目前 AI 技术对写实内容——特别是演员——还需要时间才能做到以假乱真。从应用创业角度,更务实的选择是从 animation 切入。同时我们坚信,最终 animation 之外的视频品类也会被 AI 攻克。
Anijam 的目标用一句话说:让任何人能够在任何时间、任何地方创作一个 animation,把创作门槛拉到最低。
ZP:动画在内容行业里是一个什么样的品类?
王珏: 动画容易被狭义理解——有人一听就想到日本动漫或者短剧。但动画是一种长期的叙事形式,从计算机诞生之前就存在了,表现力在某些方面比真人更强——比如讲虚幻的、天马行空的故事时,动画更容易打动人。它老少咸宜,小朋友不用说,成年人也很喜欢看,动画电影也一直很火。以前动画的市场份额没那么高,主要是受产能限制——生产动画需要专业团队,门槛很高。随着生产力的解放,我们预期动画会变成一个更大的品类,市场空间会显著扩大。
方晨: 动画代表一种个性化的内容载体。对生成式 AI 来说,动画不会被某种风格绑住,在 AI 加持下能呈现出更大的内容多样性。而且动画极具传播性——ChatGPT 刚出图像功能的时候,传播就是通过吉卜力工作室的风格实现的。无论是持久性、消费需求还是传播手段,动画都有比较独特的优势。
05 打印机与灵魂:Agent 架构怎么搭
ZP:同类产品不少,你们在技术上的核心优势是什么?
王珏: Agent 不是说加一味调料菜就好吃了——它是各部分配合均匀的结果,某种程度上是系统工程。需要在各方面打磨:理解用户的能力、工具调度能力、反馈速度等等。目前在业内我们的 Agent 是打造得最好的。最直观的表现是:同样的输入,我们的 Agent 能做出质量更高的片子。这就是一个硬指标,用户会为此买单。同时我们的 Agent 会调用 Dzine 和 Anijam 积累的很多底层 skills,有些是竞品不具备的。
方晨: 补充两点。第一,底层模型本质上就是一台打印机——你叫它打什么、怎么打,它就怎么出。模型可以画高质量的东西,也可以画很差的东西。作品的灵魂不在模型本身,而在上层的规划层——这就是我们在做的事情。做出好的内容对人来说本身就是极难的技能,我们要做的是把这个技能内化到 Agent 里。
第二,我们的目标非常明确:什么时候能做到用户从一句话开始,最终成片是一部好莱坞级别的长片——半小时到两小时——通过用户跟 Agent 协同完成。我们一直在跟竞品做横向评估,目前从内部技术来看,我们是跑在最前面的。
ZP:用户输入一句话到拿到一条完整动画,中间发生了什么?
王珏: 中间发生了很多事情。它是一个多 Agent 组成的虚拟创作团队,大概三层——一个 Multi-Agent 架构,有一个总控 Manager Agent,下面有多个执行 Agent,每个 Agent 又有不同的 skills 可以调用。
关键挑战之一是场景一致性。长视频的上下文非常长,一方面每个镜头都要兼顾到长上下文;另一方面做局部创作时又不能把所有上下文都塞给某个 Sub-agent——信息太多会导致幻觉或混乱。所以需要在合适的位置动态调整上下文,让每个 Sub-agent 既能看到当前创作所需的元素,又能大致了解故事全貌。这里面 memory 管理非常重要——给每个 Sub-agent 精确控制 memory,使它能遵从创作意图,背后有大量工作。
方晨: 从另一个角度补充。真正要把视频做好,最终要解决的是多模态协同——视觉的美感、背景音乐、动效音、角色台词等等。就像导演在片场从顶层规划到拍摄细节都要把控一样,好的视频是多个模态共同打造的沉浸式影音体验。
现在行业里基本停留在视觉层面或者把故事讲完就行,但没有真正上升到追求观众体验的程度。我们做 Agent 的第一优先级,不仅是服务我们的用户,更要服务用户的观众。所以我们不只从视频维度出发,还会从背景音效、音乐协同等方面去打磨。比如演员台词也不是简单调用 TTS,而是会把说话的情绪、节奏等细节都让 Agent 来设计。
06 行业误区与下一个技术拐点
ZP:这个行业里,有没有大家都在追、但可能走偏了的技术方向?
王珏: 我最近在思考 World Model,有一个质疑:现在视频模型的训练方法是不是最优的?
现在的做法是收集大量高质量视频,打精细的文本标签,扔进去训练,优化目标是让输出接近训练视频。但这种方法本质上没有区分不同维度——物理是否正确、渲染是否逼真——所有维度都糅在一起。所以现在的视频模型经常穿帮:每一帧渲染得很精美,但连起来看物体运动就违反物理规律。
一种可能更优的解法是把物理层和渲染层分开训练。物理层专注整体动态的合理性和流畅性,确保接近真实世界;在此基础上再用精细的渲染层把画面变得逼真精美。这样也许能训练出既精美又符合物理规律的视频生成模型。沿着视频生成这条路做下去,可能最终殊途同归,大家都做到 World Model 里面去了。
方晨: 换句话说,在视频生成领域一味 scale 数据规模是不够的,需要从模型架构和生成 pipeline 的 framework 角度去解构这个问题。最终我们想要的是一个理解物理规律和因果律的模型。
ZP:你们选了 Agent 多模型编排这条路,这个优势能持续多久?
王珏: 创业公司最难的是找到一条可行路径。我们的策略是从上往下打——先在 Agent 应用层站稳,再往下扩展到模型,最终贯穿到基础模型。一个系统要达到最优,各环节需要相互感知、相互配合。基础模型在特定场景下也需要做优化。所以长期规划里,我们还是要从 Agent 到基模都自己能做——这是最优解。当然基模不会从零开始,有开源工作在不断演进,我们的用户数据也在持续积累,合适的时间点就会着手。
Agent 本身带来的是一定时间段内效果上的优势,但只有持续往下深入,优势才能保持,壁垒才会更深。
方晨: 我们采取的是类似 Cursor 的执行路径——先从应用层做起。短中期来看,视频领域应用层能做的事情非常多,甚至比 Coding Agents 多得多。用 token 消耗量来粗估市场天花板的话,视频领域会比 Coding 大很多——用户群体也大很多。如果我们能做到行业里最大的 Video Agent,就有能力从用户视角往下一步步深入到模型层面。团队随着扩张,也具备从基础模型层面优化的能力。
ZP:Agent 接下来的进化方向是什么?
王珏: 现在视频模型大家都在"抽卡"——给一个 prompt,模型生成,用户看行不行,不行就再抽几十次,碰巧一次可以算成功。整体流程效率很低。
未来一个重要方向是"自评估、自迭代"。以前做 GAN 时有对抗的概念,我觉得这个方法论很好——我们需要一个多模态模型去审视生成出来的片子有哪些问题,全部指出来,然后 Agent 根据反馈自己回去调整,形成闭环。这样 Agent 可以用更多时间和迭代去思考、演化,最终呈现给用户的是质量达标的作品。
具体来说,“评判器"是一个非常重要但目前没有好的解决方案的东西——大厂还在做"打印机”,但评判器同样关键。这个模型要变成优秀的视频阅读者,能从各个层面审视视频——故事连贯性、转场自然度、核心表达是否到位、动作协调性、声音和音乐的匹配——都能做准确的打分或标记问题,然后返回给 Agent 做下一轮修改。评判器是我们即将发力的方向。
07 上线两周:手机上做出的十分钟动画
ZP:Anijam 上线两周、收费一周,观察到了什么?
方晨: 第一个发现:用户在手机端制作内容的数量和热情远超预期。一半以上的内容是在手机端完成的,甚至有用户用手机做了 10 分钟以上的长视频,从头到尾完整地讲了一个故事。长视频创作不像我们之前认为的以 PC 端为主——随着门槛降低,移动端这种保有量更大的设备上,用户的创作热情非常高。
第二个发现:有一个 YouTube 账号完全用我们的产品从零起号,一周做了十几条长短视频,粉丝从零涨到了约 2000。验证了一个明确的场景:自媒体可以用 Video Agent 快速制作视频来涨粉。
付费方面,收费两周付费用户已过千,很多用户的 credit 消耗速度非常快——创作过程中有大量想法、有的在做很长的视频。这代表了后续的创作需求和付费基础。
08 终局:从 animation 到入口级产品
ZP:Dzine 加 Anijam 两条线放在一起,长期指向什么?
方晨: Animation 是起点,不是终点。我们希望产品最终不光覆盖 animation,也覆盖写实内容。视频是非常多样化的——讲故事、做广告、用于教育——我们希望围绕这些丰富的类型和消费场景,打造出具备不同 skills 的 Agent。这件事天花板很高。最终我们想做的是一个非常容易上手的、做视频的入口级工具。
王珏: 入口级产品就是我们的定位。用户一想到要做视频、做动画,第一个想到的就是我们——做到这样,目标就达成了。
方晨: Animation 的制作流程和工具能够很自然地迁移到其他类型视频的制作中——这个工作流范式具备很强的可迁移性。服务好 animation 用户的过程中,自然也能为写实视频用户带来很大收益。
ZP:模型公司在往上做应用,你们在往下做模型,要赢的话首先要抓住什么?
王珏: 更快速地获得用户——特别是占领早期用户的心智。Anijam 的打法跟 Dzine 明显不同:我们会比较激进地做各个端(手机端、Web 端),用各种渠道尽早接触潜在用户。在这个领域刚开始的时候尽快占领心智,让早期用户进来跟我们一块迭代产品,这样才能跑得更快。
基模厂商现阶段的优先级是在基模战争中不掉队、活下来,然后再逐步往上做 Agent 和应用层探索。对我们来说就是先占领用户心智,迅速形成自己的 community。
ZP:今年的具体目标?
方晨: 以今年为时间节点,我们希望 Anijam 在全球的注册用户达到千万量级。
快问快答
ZP:这个行业里被严重高估的东西?
方晨: 模型的榜单评测被严重高估了。现在常见的逻辑是——某个模型在 benchmark 上又刷新了 SOTA,大家就认定它"更强"。但榜单覆盖的任务高度标准化,跟用户真实创作流里的问题完全是两回事。被严重低估的,是把一个通用模型 adapt 到具体任务上的能力:同样一个底模,能不能稳定生成一致的角色、能不能在指定构图里放进指定风格、能不能跟上下文里的剧情对齐——这些才是用户买不买单的地方。AI 行业整体也有类似问题,各种新概念来得快去得也快,真正能落到具体场景里解决问题的很少。要把 Agent 产品做好,比拼的不是谁家底模榜单分高,而是谁更懂行业、更懂用户、更会把模型调成趁手的工具。
ZP:大家都忽略了但很重要的变量?
王珏: 人本身的创意。很多 Agent 产品都在追求 Agent 多智能,但做创意产品,人的创意才是最关键的——创意在人群中很稀缺,但真正有价值。怎么尽快抓住有创意的用户,可能是最关键的。一开始能吸收到真正有创意的用户、做出有创意的作品,后面的增长目标就相对容易达成了。
ZP:对两位影响最大的人?
王珏: 我们觉得 Adobe 的两位技术派创始人John Warnock和Charles Geschke跟我们挺像。两位也是博士毕业,先是在现代计算机与互联网时代最重要的“创新发源地” Xerox PARC一起做前沿研究工作,然后怀着将技术真正推向市场的雄心一起出来创业。
方晨: Adobe 做得最好的一点是能够持续倾听用户和 community 的需求去改进产品——围绕一群用户在几十年维度上做出那么多精细的工具和功能。这种专注和匠心精神,对 AI 应用公司来说是非常宝贵的可迁移经验。
王珏: 专注和纯粹,这是对我影响最大的。我在 Adobe 跟 After Effects 团队合作,创始人David Simons就在我们楼下,自己还写 code。30 年如一日地把全身心投入到一个产品里,对其他外在的东西完全不关心。Photoshop 那边的 Jeff Chien 也是 20 多年的老员工,很早的代码自己写的,一直还在维护。Adobe 有一批这样几十年如一日打磨产品的人,对我们的影响非常大。
请注意,此次访谈内容已经过精心编辑,并得到了方晨和王珏的认可 。有兴趣加入公司的读者可以通过 yuanmin@seekoo.io 联系公司 。公司目前正在招聘的岗位包括 agent 工程师,前后端工程师,海外增长等。我们也欢迎读者通过留言互动,分享您对本访谈的看法。