即梦对阵可灵，重演抖音反超快手？

蓝洞商业

2024-12-26 14:01发布于重庆蓝洞商业官方账号

全文3668字，阅读约需11分钟，帮我划重点

划重点

01抖音旗下的AI产品即梦被视作可能再造抖音的产品，旨在打造想象力世界。

02即梦与快手可灵在国内市场展开竞争，但即梦在热度上仍不及可灵。

03然而，字节跳动在大模型领域的激进姿态意味着快手可灵将陷入字节跳动大模型的包围战。

04目前，AI生成视频在影视制作和广告营销等领域具有广泛应用前景，但商业化尚为时过早。

05抖音和快手在AI生成视频领域的竞争将成为未来市场关注的焦点。

以上内容由腾讯混元大模型生成，仅供参考

快手可灵，只是抖音即梦的下一个目标罢了。

撰文|赵卫卫

年初从抖音 CEO 位置上辞职的张楠，应该度过了一个充实的 2024 年。

在中央美术学院设计学院四层阶梯空间里，张楠这位曾经的艺术生坐在 C 位，微笑着与一群大学生合影留念，她是评委之一。这是一场 AI 交互创新大赛的分享交流会，主办方就是张楠如今负责的业务重点：剪映旗下的 AI 产品即梦，这被视作一款可能再造抖音的产品。

几天之后，张楠公开把即梦定义为「想象力世界」的相机，而抖音是一个「真实世界」的相机。

要打造想象力的世界，创新的来源更多是年轻的头脑。抖音的成功离不开年轻的高校学生，他们曾是抖音早期运营团队关注的重点人群，各种经典的挑战类活动，都是靠着这些年轻的创作者们踊跃参与而不断传播开来，但与早年间抖音运营没什么钱、靠打感情牌不同，如今，即梦 AI 交互创新大赛一等奖是 10 万元的奖金。

得奖人赵纯想并不是学生，而是一个年轻的独立开发者，此前凭借一款饮食记录的产品「胃之书」崭露头角。而这次获奖的作品，是一个 AI 视频生成镜头精细控制 UIUX 方案，在展示的 2 分钟 Demo 中，导入一张《天堂电影院》的经典场景图，用户就可以生成一段视频，实现推拉镜头、特写、窗外鲜花盛开等 AI 创作。

而在即梦面世前三个月，快手可灵已经在国内率先上线了视频生成大模型，它们同样没有忽视高校里的年轻人，快手可灵与中国美术学院等高校联合举办了 AI 创作大赛，获得一等奖的三个作品，聚焦生活、广告和自由发挥主题，分别拿到了奖金 36666 元。

Sora 打开了为真实世界建模的 AI 大门，即梦和可灵则顺着抖音和快手走过的路，用更饱和式投入，以大力出奇迹。

更大的竞争就在不远的 2025 年，网传一份对字节跳动 AI 视频生成产品的调研纪要显示，「字节希望在其生态内使用 AI 能力，认为明年各生态将形成竞争闭环。明年五一之前，扣子智能体平台、豆包、抖音和 B 端的能力会形成关联的生态网，文生视频将会有更多的体现和使用场景。」

2025 年，在电商广告、短剧等多个市场，抖音即梦或许将与快手可灵正面交锋。

高开难高走

「高开低走」与「低开高走」，是现在抖音即梦与快手可灵最大的差别。

QuestMobile 最新数据显示，即梦上线当天即在抖音平台引发了高涨的讨论热度，可灵 AI 通过热度的持续积累也在快手站内出现热度峰值。但一个明显的不同是，即梦的内容互动量在一个月高开低走，而可灵的内容互动量在一个月内低开高走。

这是推广策略、用户体验、市场竞争等多种因素共同作用的结果，但一个最直接的原因，可能就是即梦的产品发布较晚，体验不如预期，用户深入使用之后，很容易区分与同类产品在生成内容上的质量和稳定性，即便初始阶段获得了大量预热，目前即梦在热度上仍不及可灵。

这并非意味着即梦的绝对落后，有 AI 产品深度使用的用户认为，当下国产 AI 产品想要用好，就不能单用一个，尤其是在文生视频创作中，用户选择的做法往往是用即梦来做前期的文生图，然后再用可灵来制作图生视频，因为「即梦的 AI 生图比较优秀」。

字节调研纪要同样显示即梦和可灵之间差距很大，即梦日活用户在 20 万-22 万之间，其中 70% 为个人或小型 MCN 工作室，大型企业较少，付费用户 2.5 万人左右，月订阅付费均价在 50 元左右；而同期可灵服务用户超 500 万，累计付费用户超 200 万，付费金额累计约千万级别。

这种调研纪要难辨虚实，因为二级市场爆火的「豆包概念股」，字节跳动官方曾对投资者们做出风险提示，以免遭受不必要的投资损失。

而快手可灵之所以「低开高走」，一方面是视频生成大模型本身的能力更稳定，占据了先发优势，另外一面则是营销策略的成功。「蓝洞商业」在《快手可灵，把压力给到了抖音剪映》中已经提到，当时快手通过海外科技大 V 测试可灵生成的案例，成功营造出其在海外市场火爆的氛围，进而「出口转内销」。

半年过去，目前可灵在海外市场的关注度仍远高于即梦，社交媒体 X 的关注人数是即梦的 67 倍。

就在张楠出现在火山引擎大会上，发布即梦最新消息的当天，快手又升级了可灵大模型，宣称在内部评测中比此前 1.5 模型整体效果提升 195% 。而此前一个月的三季度财报会上，创始人程一笑也提到对可灵的憧憬：可灵 AI 的商业化单月流水超千万人民币，有信心在明年实现收入规模的快速增长。

「高开低走」的即梦希望成为一种新的创造和体验方式，根据调研纪要，明年即梦没有明确的商业回报目标，但要有商业模式，「盈利要往后放」，明年即梦的重点将是与媒体、影视制作合作等产品形态的落地。

快手又将陷入包围战

抖音不是第一个做短视频的，却在 2018 年开始超越快手，后来居上成为短视频赛道的第一。张楠曾总结过崛起的四个关键因素：全屏高清、音乐、特效滤镜、个性化算法推荐技术。

如今，即梦对阵可灵，能否重演抖音对阵快手的故事？

即梦目前只是字节跳动在多模态大模型应用层的一款产品，隶属于抖音旗下的剪映团队，背后支撑服务的是字节跳动云服务的火山引擎。在火山引擎官网的模型广场上，字节跳动提供 20 个大模型产品，遍布文本、语音和视觉多个类型，此外火山方舟还提供月之暗面和智谱 AI 的产品。

AI 可能成为字节跳动下一个核心业务支柱，相比之下，快手磁力引擎的官方网站上，很难找到相关大模型商业应用的展示位。

字节跳动在大模型领域的激进姿态，今年早已经通过 C 端的产品豆包展现出来。今年 9 月，移动数据调研机构 Sensor Tower 曾发布全球 AI 应用报告，其显示了 ChatGPT 是 1-8 月全球下载量最多的 AI 应用，谷歌的 Gemini 排在第四，字节跳动的豆包排名第五，而且是榜单上唯一的中国产品。

这离不开抖音丰沛的流量广告和投放支持，豆包和 Kimi 在今年的广告市场上投放竞争激烈，根据广告情报分析平台 AppGrowing 统计，豆包智能助手 4 月、5 月的投放金额接近 1800 万元，等到 6 月上旬，投放金额飙升至 1.24 亿元，而且在抖音站内限制了 Kimi 在内的大模型广告投放。

「营销预算方面，即梦在 12 月预算开始提升，明年第一季度，尤其是春节前后将提到亿级别的投入。」字节调研纪要提到。而除了营销，字节跳动在芯片底层储备上也不可小觑。英国《金融时报》报道称，字节跳动采购了约 23 万片英伟达芯片，已成为英伟达人工智能芯片的最大中国买家；TheInformation 也在 9 月份报道称，字节跳动今年订购了超过20 万台 Nvidia H20。

所以基于豆包在国内大模型市场取得的领先地位，未来的看点是，抖音和豆包如何联动即梦，这也意味着，快手一枝独秀的可灵，将陷入字节跳动大模型的包围战。

今年 9 月，对标 OpenAI 的 Sora，字节跳动发布了两款对标文生视频工具 PixelDance 和 Seaweed，即梦 AI 已经接入了豆包，其中支撑即梦的就包括能力更优秀的 PixelDance，官方介绍称，能够生成高质量的长达两分钟的 1080p 分辨率视频，擅长描绘复杂的运动和物体之间的互动。

目前看，不论是抖音还是快手，AI 生成视频最主要的落地场景都是趋同的，除了 C 端用户收费之外，B 端场景一个是服务于短剧等影视制作和后期市场，另外一个则是服务于广告和电商内容营销，比如商品素材展示上生成不同的图片。

在火山引擎大会上，张楠曾展示过两个即梦创作者的 AI 短片，其中一个就是今年 7 月份上线的科幻短剧《觉醒》，当时在抖音单日点赞破 40 万；而同一时期，快手的可灵也打造过一部《山海奇镜之劈波斩浪》，同样都属于试水制作。

但实际上，AI 生成视频对影视制作只是辅助性的，目前阶段仍然是小规模制作，要完成大批量的影视后期制作，即梦和可灵都是顺着 Sora 类似的 Dit 架构（一种结合了 Transformer 架构的扩散模型，用于图像和视频生成任务）在前进，都有很长一段路要走，商业化也尚为时过早。

当谷歌击败 Sora

OpenAI 的 Sora 开放使用之后，一系列生成视频的表现并不符合外界的期待，而谷歌在近期发布的视频生成器 Veo2，通过一系列测试表明，其有超过 Sora 的更惊艳表现。

尤其是一个最著名的切西红柿的镜头，谷歌的 Veo2 刀子干净利落地切开西红柿，避开了手指，而 Sora 视频中的刀子却切开了手，这让 Sora 再次成为群嘲的对象，也让行业人士认为，Sora 更偏向于运动，而 Veo2 则更注重物理的准确性。

有 AI 行业人士认为，谷歌之所以能超越 Sora，不光是发现了 Sora 物理准确性的弱点，更在于其利用 YouTube 来训练其人工智能模型。

字节跳动的技术团队并非没有发现 Sora 在物理准确性上的弱点。11 月，豆包大模型团队曾发布过一篇论文，名为《从世界模型的角度来看，视频生成与之相距多远：基于物理定律的视角》（《HowFar is Video Generation from World Model: A Physical Law Perspective》），探究了视频生成模型能否观察事物间的相互关系，并从中提炼出一套稳定的物理规律。

「视觉模糊性会导致在细粒度物理建模方面出现显著的误差，单纯依赖视频表示不足以进行精确的物理建模。」该论文认为，视频生成模型要成为准确的世界模型还面临挑战。

而研究这个方向的两位作者都非常年轻，一位是 95 后，一位是 00 后。如同即梦和可灵，都需要年轻的艺术学院的学生参与打造想象力的世界一样，为这个 AI 想象力世界奠定技术基础的，同样来自年轻的头脑。两位作者耗费 8 个月时间，就是为了找到通往世界模型的一扇大门。

找到瓶颈需要 8 个月，而打破瓶颈可能需要耗费更长的时间。

抖音何时真正即梦？在那份调研纪要中，字节跳动明年的 AI 发展有三条主要路径，一是豆包大家族生态；二是抖音等产品的全面 AI 化；三是包括即梦在内的多模态模型和世界大模型，而且多模态这一条是重点，「无限支持和投入，因为这是转型的重要节点，可以接受较大亏损」。

当谷歌击败 Sora，预示着 OpenAI 创造的模型神话将被打破；而快手可灵，只是抖音即梦的下一个目标罢了。

审校|陈秋霖