视频生成模型能理解物理规律吗?字节跳动:“臣妾”做不到啊,Yann LeCun指结果不意外

全文1688字,阅读约需5分钟,帮我划重点

划重点

01字节跳动AI实验室的研究人员对视频生成模型是否能理解物理规律提出了质疑,并开展了系统性研究。

02通过一系列严谨的实验,研究人员发现视频生成模型在样本内泛化场景下表现出色,但在样本外泛化场景下性能急剧下降。

03实验结果显示,模型的组合泛化能力与模型容量和组合空间的覆盖范围密切相关,增加训练模板数量可以提高组合泛化能力。

04然而,仅依靠视觉信息可能不足以进行准确的物理建模,需要引入语言或数值信息来提升模型的性能。

05尽管如此,研究人员认为目前的视频生成模型距离真正理解物理规律还有很长的路要走,未来需探索更有效的学习方法。

以上内容由腾讯混元大模型生成,仅供参考

图片


OpenAI的Sora惊艳亮相,以及现在众多视频生成模型其强大的视频生成能力引发了热议,甚至有人认为它已经初步具备了世界模型的雏形,能够理解并运用物理规律。但事实果真如此吗?字节跳动AI实验室的研究人员对此提出了质疑,并开展了一项系统性的研究,旨在探究视频生成模型是否真的能够从视频数据中学习物理规律

图片

真相只有一个:即使加大数据和模型规模,视频生成模型也学不会物理规律!

研究方法及实验过程:

为了深入研究这个问题,字节跳动的研究人员设计了一系列严谨的实验,涵盖以下几个方面:

泛化场景: 为了全面评估模型的泛化能力,研究人员设置了三种泛化场景:

图片

1.样本内泛化(In-Distribution,ID):训练数据和测试数据来自相同的分布,遵循相同的物理规律,并且处于相同的领域

2.样本外泛化(Out-of-Distribution,OOD):测试数据包含训练数据中未曾出现过的场景,例如不同的初始条件、物体属性或环境设置。这更能体现模型对物理规律的理解程度,因为真正的物理规律应该能够泛化到新的场景

3.组合泛化(Combinatorial Generalization):介于ID和OOD之间的一种场景,训练数据中包含各种“概念”或物体,但并非所有可能的组合都出现过。模型需要学习如何将已有的知识组合起来,应用到新的组合场景中

物理任务: 实验选择了几个由经典力学规律主导的物理事件,例如:

1.匀速直线运动:验证模型是否理解惯性定律

2.完全弹性碰撞:验证模型是否理解能量守恒和动量守恒定律

3.抛物运动:验证模型是否理解牛顿第二运动定律

数据集: 为了避免纹理等复杂因素的干扰,研究人员专门开发了一个2D模拟器,使用简单的几何形状生成数据,并确保数据量充足,以便进行规模扩展实验

模型: 实验使用了标准的视频生成模型(Diffusion Model),并重点研究了模型规模扩展的影响

实验结果及分析:

样本内泛化: 在ID泛化场景下,模型表现出色,随着模型规模和数据量的增加,预测误差逐渐减小

样本外泛化: 然而,在OOD泛化场景下,模型的性能急剧下降,预测误差远高于ID泛化场景。即使增加数据量和模型规模,也无法显著降低OOD误差。这表明模型并没有真正理解物理规律,而是记忆了训练数据中的模式

组合泛化: 在组合泛化场景中,模型的性能介于ID和OOD之间。实验结果表明,模型的组合泛化能力与模型容量和组合空间的覆盖范围密切相关。增加训练模板的数量可以提高模型的组合泛化能力,而仅仅增加数据量则效果有限

进一步的分析:

研究人员还进行了一些额外的实验,以深入理解模型的泛化行为和局限性:

插值与外推: 模型展现出强大的插值能力,但在外推方面表现较差

记忆与泛化: 实验表明,模型更倾向于记忆训练数据,而不是学习通用的物理规律

数据检索: 模型在检索训练数据时,会优先考虑颜色、大小,然后是速度和形状

视觉信息的局限性: 研究发现,仅依靠视觉信息可能不足以进行准确的物理建模

语言和数值信息的补充: 添加语言或数值信息对ID泛化有一定帮助,但对OOD泛化的提升有限

结语

这项研究表明,目前的视频生成模型虽然能够生成逼真的视频,但距离真正理解物理规律还有很长的路要走。未来的研究需要探索更有效的学习方法,例如引入物理先验知识、改进模型的推理能力等,才能使视频生成模型更接近真正的世界模型

Yann LeCun评价:结果不出意外,但有人试过就好

图片

作者信息:

图片

Bingyi Kang

是 TikTok 的研究科学家。主要研究兴趣是计算机视觉、多模态模型和决策制定。目标是开发能从各种观察中获取知识并与物理世界互动的代理。从以下几个方面着手实现这一目标:

1.处理现实生活中的任意数据(如长尾数据、无标记数据、合成数据等)

2.从观测中恢复有关世界的(物理和语义)知识

3.有效和高效地利用这些知识进行交互

此前是Sea AI lab的研究科学家。在新加坡国立大学获得博士学位,导师是Jiashi Feng教授。在加州大学伯克利分校担任客座研究员,师从 Trevor Darrell 教授。在攻读博士学位期间,曾在 Facebook 人工智能研究院实习,与谢赛宁、Yannis Kalantidis 和 Marcus Rohrbach 共事。正在领导开发Depth Anything都可以系列

paper:

https://arxiv.org/pdf/2411.02385

code:

https://github.com/phyworld/phyworld

参考



⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~