AI Video 和 AI Coding,是过去一年 GenAI 的两个突破性进展。进入2025,它们依旧是关键话题。
就在几天前,字节上线了一款对中文开发者友好的 AI IDE——Trae。虽然它是海外产品,但支持中文,还内置了Claude-3.5-Sonnet。我们了解到,更多AI Coding创业公司也在持续更新功能、推出新品。
现象级的产品同样诞生在视频生成领域。2024年,快手和 MiniMax 依靠可灵和海螺爆火出圈。2025年初,生数科技发布了视频生成模型 Vidu2.0。
在近期在「锦秋基金」组织的" Scale with AI "硅谷行活动中,AI Video和 AI Coding也是热点话题。
我们看到,来自 TikTok、Meta、Luma AI、MIT、Augment、Codeium、MetaGPT 等公司的研究员们,坐在一起详细讨论AI Video和 AI Coding当前的难点和接下来的走向。
AI Coding Panel,参与者有 Codeium、Augment、DeepMind、MetaGPT 等公司的研究员们
AI Video Panel,参与者有 TikTok、Luma AI、Meta、Pika 等公司的研究员们
关键洞察速览:
AI Video
1. DiT 架构存在缺陷和极限,不同场景需要的技术栈不同。
2. 视频生成的数据飞轮,或许只需头部和高创用户的反馈。
3. 未来三年,视频生成的速度会每年快 2—3 倍,三年后会快到 10 倍- 20 倍。
4. 多种模态融合的模型,不一定产生1+1>2的效果。
AI Coding
1. 实现完全自主的Agent,还存在技术瓶颈、用户习惯、世界模型和记忆突破等问题。
2. 类似 O3 或 O1 的方法,能显著增强Coding Agent的能力。
3. 对于AI Coding产品而言,找到性能和用户体验之间的平衡点是极具挑战的。
以下是「四木相对论」整理的详细内容,供关心AI进展的朋友们参考:
01 AI Video
DiT 是共识吗?技术架构是否已收敛?
在场的研究员们觉得,这个问题现在难下结论。
Sora 刚出来时大家都认为技术路线会收敛到 DiT,但实际上面对不同场景,需要选择不同技术栈,比如 GAN、AutoRegressive、Oasis 项目的路线等等。
DiT 是存在缺陷和极限的。现在整体的发展趋势是模型越大、数据越好,生成视频的清晰度可能更高、时间更长、也能更快、可用率更高,这在考验DiT的能力极限。
有研究人员认为 DiT 模型最终 scale up 到什么样的规模是不能确定的。很有可能达到一定规模之后,就会有新的模型架构出现。另有研究员认为 DiT 技术路线的饱和可能会发生在 1-2 年后。
一味 scale up DiT 可能非常不高效。视频生成的 scaling law 很难达到 LLM 的级别,现在视频模型的最大参数在30B,但 300B 这个量级,没有成功案例。而且视频模型训练成本非常高,几乎不可能把全部的视频数据用于模型训练。所以对于如何找到、筛选、处理好数据也是重要的研究话题。
另外,也有研究员指出DIT 架构还是比较难做非常稳定、非常好的物理规律呈现。现在人们看到的很多模型对物理规律的理解和呈现更多是统计学和数据意义上的,能有一定程度上的模拟,但对实际物理的形态、动作的呈现仍然存在差距。
Pre-training 和 Post-training 的作用?
在视频生成领域,Pre-training 更关注的是基础能力,比如视频的清晰度、长度,动作的流畅度、质量等等。Pre-training 的目的在于怎样利用更多的Data让模型生成的表现上限更高。
而 Post-training 更多决定了生成视频的风格,比如色调、镜头感、运镜等等。
视频模态和其他模态之间的关系
多模态融合的模型效果是 1+1<2 还是 1+1>2 ?
关于这个问题,研究员们的有不同的观点。
有研究员认为,市场参与者都想要一个把各个模态都融合、可以做所有事情的模型,“但总体看到的一个结果是,如果模型只专注某一个特定的模态,可能比把所有模态都融合在一起达到的效果要更好。”
还有研究员拿学术圈的论文举例,有学者将纯文本模型 Llama 和 CLIP 放在了一起,看看会有什么样的效果,最后的结果潜在说明“如果能把多模态统一,可能会让各种态能力都更好一点。”不过这一效果目前是在早期的研究当中,在工业实践中可能还为时尚早。
也有研究员有过相应的实践,他发现在视觉模型中加上语义的信息,泛化性会做得更好一点。
除了效果,还有研究员从“统一”的角度分析多模态融合。这其中包括不同模态的统一以及生成和理解的统一。不同模态的统一比较好理解,是表征上的统一,也就是可以把视频、音频、文字、图像都可以同用同一个母模型输出,虽然现在效果和效率还不理想,但未来的发展是积极的。
生成理解统一的问题则更多在图像和视频上,也更难解决一些。原因在于,这两个任务本身就是矛盾的。比如,生成一只狗和识别一只狗,这两个任务其实非常不同,生成一只狗,要对图像里的所有的细节全局建模,而识别一只狗,只需要提取关键的特征数据即可。
这两者需要模型能力差距巨大,如何在其中取得精巧的平衡是一件很复杂的事情。
提升视频生成速度的方法
最简单方法是把分辨率、帧率降低。
另外比较常用的方法是步数蒸馏,如果能蒸馏到1步推理,就会快很多,也叫一步生成视频。如果只有一步的话,延时问题也可以说基本不存在了。
不过这个方向目前还在学术研究的阶段。
视频数据的飞轮效应
和 Midjourney 这类文生图模型,通过用户的不断反馈数据来增强图片生成效果不同,在视频生成领域,这样的效果并不明显。
有研究员表示,RL 在 video 领域的效果提升不显著。即便RLHF 和DPO是有用,业界也在尝试新的架构、构建特定的 Fine –Tuning 数据集。
另有研究员认为,数据飞轮可能是只有头部和高创用户的反馈才有用。Midjourney 的成功在于维护了一个高创社区,数据价值高。
视频数据其实很多,怎样高效选择出高质量的数据比较重要。
数量取决于对版权的理解。但算力同样是瓶颈,即便有那么多数据,也不一定有算力去做,尤其是高清的数据。大家有时候需要基于手头有的算力去反推需要的高质量数据集。
高质量数据一直都是稀缺的,但即便有数据,很大的问题是大家不知道什么样的图像描述是对的,图像描述要有哪些关键词。
视频生成模型的成本曲线
研究员们认为的做成本预测是比较难的。因为成本和 GPU 等因素的关系比较大。不过,成本和速度会同样下降。
有研究员猜测未来三年,视频生成速度会每年快 2—3 倍,三年以后会快到 10 倍到 20 倍。
视频生成的关键卡点
有研究员认为如果要把视频生成和文生图的发展做类比,现在视频的水平接近 Stable Diffusion 1.4 的版本。
早期视频生成的技术分享不如早期文生图那么频繁。另外,视频生成模型获取数据难,图像领域有 LIAON 数据集这样一个大的公用数据池,而视频数据因为版权限制等原因,很难有那么大的公用数据集,开源难度也更大。
视频生成还有技术和效率上的卡点,目前 DiT 方案的难点就在于如何提升对物理规律的遵循能力,而不只是统计概率提升的问题;视频生成仍需要高端显卡上跑挺久,效率是商业化的障碍。
对于视频生成是否存在类似大语言模型的迭代速度放缓的问题。有研究员认为,视频生成在模型侧可能会有瓶颈,但在应用侧没有,从产品角度来说,只做文生视频是一个不太好的方向,消耗的计算资源非常大,除非是最头部几家公司才有可能负担。
其他偏剪辑、创意的产品会有更多的发展。
视频生成的2024 Moment和2025关键点
2024年,视频生成领域有什么时刻或者事件令业界专业人士印象深刻?
第一件当属2024年下半年的视频生成模型及产品以周为单位的更新迭代速度。有研究员称这样的迭代频率是“非常现象级的”。
Sora 的上线也给了市场不小震撼,虽然在物理旋转度的上的表现并不是完美。反而是 Google 后发的 Veo 2在物理层面的表现更让研究员印象深刻。
不仅是模型层的进展,应用层的落地效果也有不错的表现。有研究员分享了 Runway 在横屏视频转竖屏视频过程中丝滑自然的生成填充效果。另外数字人像生成的 Demo 和产品使用效果一样好也让人印象深刻。
2024年视频生成领域出现了一些爆款,研究员们希望2025年有可以产生稳定收入和利润的应用。
短期来说,对较弱一些的模型,希望有服务创作者产生订阅收入的产品;对于强的模型,希望它们可以做到生成可供电影和游戏使用的视频。
如果实时生成视频够快,未来可能可以看到一个介于视频和游戏之间的一种新的交互方式。
02 AI Coding
Copliot 和 Coding Agent 的差异
人类和 Agent 之间有显著的不同——人类能解决连续的问题,而智能体只能解决离散的问题。所以讨论 Copliot 和Agent 的差异实际也是基于解决离散问题的前提下。
它们之间的主要区别在于,Copilot 最大特点是同步,即在进行任务时要立即与用户进行互动和反馈,而 Agent 最大的特点在于异步性,即在用户发送指令后有一定时间独立地工作,Agent可以异步执行任务并要求较少的反馈。
不过用户体验对二者同样重要。
最初,Agent 被设计为可以独立工作较长的时间,后来用户的反馈却是他们喜欢控制的更多,有更多的互动,Agent 也正在寻找自主性和用户参与之间的平衡。
完全自主的 Coding Agent 还有多远?
完全自主的 Agent 也就意味着,智能体的能力要非常接近于人类。目前来看,主要还有以下障碍:
1. 技术还不够先进:对于复杂的、长期任务仍然难以处理,通常这类任务都会失败,用户会因此不满。
2. 用户习惯仍未形成:用户对于 Agent 跨文件、跨存储库的进行重大操作仍难以适应,改变的速度也比较慢。
3. 还有多个关键领域面临挑战:世界模型和记忆。世界模型主要影响了 Agent 的规划能力,这一能力主要表现为理解任务、拆解任务和执行任务的速度;而记忆则是影响上下文的理解和推理能力,同样也对 Agent 理解用户意图非常重要。
有研究员已经发现在,尤其在上下文内容超过 10K Tokens 时,整体上下文利用率会显著下降,如何增强更长记忆的推理能力也是现在的重要研究方向。
类 O3 或 O1 方法,能增强 Agent 的能力
研究员发现类似 O3 或 O1 的推理增强技术能显著地增强整体 Coding Agent 的效率。
这里比较直观的体现是,目前要提升 Agent 的效率,需要付出高昂的成本——可能付出 10-100 倍的成本,能将错误率降低四分之一到一半。不过随着大语言模型的发展,这些成本将有望迅速下降,这一路线也可能逐步成为普遍路线。
O3 在基准测试中的表现明显优于其他模型,包括 SWE-bench Verified 测试。目前行业得分一般在 50 分左右,但 O3 的得分为 75 分左右。
不过模型质量仍还有提升空间,这同样取决于计算能力要求和相关成本。
AI Coding产品的成功因素
1. 能否正确解读用户意图,并且给出满足用户体验的交互界面。
2. 产品性能能满足用户延迟的要求,确定性能和用户体验之间的最佳平衡极具挑战。
有研究员称对于自动完成功能,用户可以接受的响应时间阈值在 215-500 毫秒,超过可能会导致用户禁用该功能。在聊天应用中,几秒钟的响应时间通常可接受,但等待 50-75 分钟就不切实际了。
客户选用 AI Coding工具的要素
1. 部署安全性。
2. 故障可控。
3. 量化 AI coding 可能带来的结果/定义指标评估 AI coding 提供的生产力。
4. 用户留存率。
🌟更多本次硅谷交流的内容,可参见我们之前的文章: