OpenAI的Sora惊艳亮相,以及现在众多视频生成模型其强大的视频生成能力引发了热议,甚至有人认为它已经初步具备了世界模型的雏形,能够理解并运用物理规律。但事实果真如此吗?字节跳动AI实验室的研究人员对此提出了质疑,并开展了一项系统性的研究,旨在探究视频生成模型是否真的能够从视频数据中学习物理规律
真相只有一个:即使加大数据和模型规模,视频生成模型也学不会物理规律!
研究方法及实验过程:
为了深入研究这个问题,字节跳动的研究人员设计了一系列严谨的实验,涵盖以下几个方面:
泛化场景: 为了全面评估模型的泛化能力,研究人员设置了三种泛化场景:
1.样本内泛化(In-Distribution,ID):训练数据和测试数据来自相同的分布,遵循相同的物理规律,并且处于相同的领域
2.样本外泛化(Out-of-Distribution,OOD):测试数据包含训练数据中未曾出现过的场景,例如不同的初始条件、物体属性或环境设置。这更能体现模型对物理规律的理解程度,因为真正的物理规律应该能够泛化到新的场景
3.组合泛化(Combinatorial Generalization):介于ID和OOD之间的一种场景,训练数据中包含各种“概念”或物体,但并非所有可能的组合都出现过。模型需要学习如何将已有的知识组合起来,应用到新的组合场景中
物理任务: 实验选择了几个由经典力学规律主导的物理事件,例如:
1.匀速直线运动:验证模型是否理解惯性定律
2.完全弹性碰撞:验证模型是否理解能量守恒和动量守恒定律
3.抛物运动:验证模型是否理解牛顿第二运动定律
数据集: 为了避免纹理等复杂因素的干扰,研究人员专门开发了一个2D模拟器,使用简单的几何形状生成数据,并确保数据量充足,以便进行规模扩展实验
模型: 实验使用了标准的视频生成模型(Diffusion Model),并重点研究了模型规模扩展的影响
实验结果及分析:
样本内泛化: 在ID泛化场景下,模型表现出色,随着模型规模和数据量的增加,预测误差逐渐减小
样本外泛化: 然而,在OOD泛化场景下,模型的性能急剧下降,预测误差远高于ID泛化场景。即使增加数据量和模型规模,也无法显著降低OOD误差。这表明模型并没有真正理解物理规律,而是记忆了训练数据中的模式
组合泛化: 在组合泛化场景中,模型的性能介于ID和OOD之间。实验结果表明,模型的组合泛化能力与模型容量和组合空间的覆盖范围密切相关。增加训练模板的数量可以提高模型的组合泛化能力,而仅仅增加数据量则效果有限
进一步的分析:
研究人员还进行了一些额外的实验,以深入理解模型的泛化行为和局限性:
插值与外推: 模型展现出强大的插值能力,但在外推方面表现较差
记忆与泛化: 实验表明,模型更倾向于记忆训练数据,而不是学习通用的物理规律
数据检索: 模型在检索训练数据时,会优先考虑颜色、大小,然后是速度和形状
视觉信息的局限性: 研究发现,仅依靠视觉信息可能不足以进行准确的物理建模
语言和数值信息的补充: 添加语言或数值信息对ID泛化有一定帮助,但对OOD泛化的提升有限
结语
这项研究表明,目前的视频生成模型虽然能够生成逼真的视频,但距离真正理解物理规律还有很长的路要走。未来的研究需要探索更有效的学习方法,例如引入物理先验知识、改进模型的推理能力等,才能使视频生成模型更接近真正的世界模型
Yann LeCun评价:结果不出意外,但有人试过就好
作者信息:
Bingyi Kang
2.从观测中恢复有关世界的(物理和语义)知识
paper:
https://arxiv.org/pdf/2411.02385
code:
https://github.com/phyworld/phyworld
参考:
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~