Z Tech|Meta联合斯坦福发布Apollo,揭秘视频理解六大驱动力

图片

Paper link: https://arxiv.org/pdf/2412.10360

Project link: https://apollo-lmms.github.io/

Author:Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia

Meta GenAI, Stanford University

Orr Zohar的指导老师Serena Yeung-Levy教授于2018年获得斯坦福大学博士学位,师从李飞飞和Arnold Milstein2017年至2019年期间,Serena Yeung-Levy曾与Justin Johnson和李飞飞共同教授斯坦福大学卷积神经网络课程。

图片

Z Highlights

  • 开发Apollo Family Models,实现不同规模下的卓越视频理解能力,部分模型性能超越更大尺寸模型。

  • 揭示多模态大模型视频理解的六大驱动力,包括视频采样策略,视编码器选择,视频Token重采样,视频Token集成、训练计划与视频组成,以及模型规模与设计决策的转移性。

  • 发现Scaling Consistency现象,将较小模型上得出的设计和训练决策转移到更大的模型上,降低研究成本。

  • 推出ApolloBench,一个高效的视频理解评估基准,提升评估效率和质量。

01 Apollo Family Models视频理解模型

Apollo项目推出了视频理解模型Apollo Family Models,包括1.5B3B7B参数的模型,在不同模型尺寸下均展现出卓越性能。Apollo采用了SigLIP-SO400M编码器与InternVideo2视频编码器的组合,将这两种编码器的特征在通道维度上进行插值和拼接,以增强模型对视频内容的理解。模型利用Perceiver Resampler技术将编码器的输出重采样至每帧32token,有助于模型更有效地处理视频数据。

Apollo模型采用了三阶段训练,这种策略涉及逐步解冻模型的不同组件,并在不同阶段使用不同的数据组合进行训练。训练数据包含文本、图像、多图像和视频模态的混合数据,其中特别强调了包含适度文本数据和保持略微视频的混合对性能的优化。

Apollo能够在不同规模下实现高效的视频理解,特别是Apollo-3BApollo-7B,在多个基准测试中超越了大多数现有的7B模型,甚至能够与30B参数的模型相媲美。Apollo在多个视频理解基准测试中展现出了强大的性能,包括TempCompassMLVUPerception-TestVideo-MMELongVideoBenchApolloBench,在视频理解领域树立了新的标杆。

图片

02视频理解六大驱动力

在多模态大模型里,视频理解一直是一个复杂而神秘的领域。Apollo项目通过一系列深入的研究,揭示了影响视频理解的几个关键因素。

图片

首先,研究者对视频采样方法进行了深入分析,通过训练四个模型,分别均匀采样8163264帧,并测试这些模型在均匀采样和fps采样下的性能,发现每秒帧数(fps)采样在训练中远优于均匀帧采样。另外,研究者还发现在tps(每秒token数)和fps之间存在权衡,在保持fps恒定的情况下,改变tps,每帧8-32token在不同fps下都能取得良好的性能。

图片

此外,他们还探讨了不同的视觉编码器对于视频表示的影响,测试了多种图像和视频编码器及其组合,评估了这些编码器对最终模型性能的影响,最终发现SigLIP-SO400M编码器表现最好。他们还在单编码器的基础上,尝试了不同的编码器组合,发现结合SigLIP-SO400MInternVideo2的编码器组合能够带来最佳的整体性能。

图片

在视频token重采样方面,他们测试了多种token重采样方法,包括mlp上投影+平均池化、2D卷积+平均池化和Perceiver重采样,发现在减少token/frame时,Perceiver重采样显示出优越的性能。

图片

对于视频token集成,他们实验了四种不同的视频token集成方法,发现在不同帧或剪辑产生的视频token之间添加文本或可学习的token足以实现高效的token集成。

图片

他们还评估了不同的训练计划(Training Schedule),包括单阶段、双阶段和多阶段训练,以及在不同阶段解冻或冻结模型的不同部分。发现逐步解冻不同组件的训练方式能够带来更好的性能,特别是在多阶段训练中。

图片

他们还研究了训练数据中文本、图像和视频数据的不同混合比例对模型性能的影响。发现包含约10-14%的文本数据和保持略微视频重的混合是最优的,这有助于缓解灾难性遗忘问题。

图片

03 Scaling Consistency带来计算效率的重大突破

在多模态大模型的研究中,计算成本一直是一个难以逾越的障碍。Apollo项目通过研究发现了一个名为Scaling Consistency的现象,对于减少计算成本和加速研究进程具有重要意义。

研究者选择了21种不同的模型变体,这些变体涵盖了多种设计方面,包括架构、视频采样方法、训练策略和数据混合比例。这些变体使用四种不同的大模型进行训练,分别是Qwen2-0.5BQwen2-1.5BQwen1.5-4BQwen2-7B。研究者分析了这些模型的性能,并计算了它们之间的相关性(R2值),以确定在不同大小的模型之间,性能是否存在可预测的关系。分析结果显示,中等规模的模型(约2-4B参数)的设计决策与更大模型之间的相关性非常高(R2 > 0.9)。例如,4B7B模型之间的R2值为0.938,表明它们之间存在强烈的预测关系。

研究还发现,当模型大小达到约2-4B时,设计决策的转移最为可靠。这个临界点以下的模型(例如0.5B模型)的R2值会迅速下降,且不呈现对数线性关系。Scaling Consistency现象似乎在不同的模型家族之间也是通用的。研究中使用了Qwen1.5Qwen2系列模型,发现即使它们的性能相似,4BQwen1.5-4B模型与更大模型的相关性仍然高于1.5B模型。

图片

研究还考察了数据集大小对模型性能的影响。通过在不同大小的数据集上训练模型,研究者们发现,当数据集大小达到约500K样本时,模型性能的相关性(R2)开始趋于平稳,表明增加数据集大小超过这一点在指导设计决策方面的收益递减。

Scaling Consistency的现象表明,在较小的模型和数据集上做出的设计和训练决策能够有效地转移到更大的模型上。这意味着,研究人员可以在较小的模型上进行实验,然后将这些实验结果应用到更大的模型上,从而节省了大量的计算资源。

04 ApolloBench,高效视频理解Benchmark

面对众多视频问题回答基准的资源密集性和评估效率低下的问题,Apollo项目推出了一个新的基准测试——ApolloBench

研究者们首先分析了现有的视频问题回答基准,发现它们存在资源密集性和冗余问题。研究者们在多个基准上测试了十个开源的LMMs,包括Video-MMETempCompassLongVideoBenchMLVUNExTQAPerceptionTest。测试分为三种设置:视频输入、单帧图像输入和仅文本输入。评估一个3B参数模型需要大量的计算资源,成本高昂,效率低下。通过计算不同基准之间的相关性,发现基准之间存在显著的冗余,这表明它们在评估模型性能时提供的信息有所重叠。

图片

基于上述分析,研究者发布了ApolloBench,一个更有效和高效的基准测试套件。ApolloBench专注于多项选择问题,以确保评估过程的一致性和成本效益。研究者筛选出了那些不能仅通过文本或图像输入正确回答的问题,保留了需要视频感知能力的问题。然后,他们将问题手动分类到五个广泛的时间感知类别:Temporal OCREgocentricSpatialPerceptionReasoning。从这些类别中,研究者们选择了400个最能区分模型性能的问题,并通过熵来验证这些问题的选择。他们而手动验证了每个问题的正确性,以确保所选问题的质量。

ApolloBench上的评估比现有基准快41倍,并且与现有基准高度相关。通过这些方式,ApolloBench作为一个高效的评估工具,帮助研究人员更快地评估和比较不同模型的性能。

论文第一作者Orr Zohar是斯坦福大学Medical AI and ComputeR Vision Lab (MARVL)的博士生,目前在Meta GenAI担任Research Scientist InternMARVL是由斯坦福教授Serena Yeung-Levy领导的实验室。

图片

更多的实验结果、数据集构成、可视化展示详见论文和主页。

编辑:Richard

原文:Apollo: An Exploration of Video Understanding in Large Multimodal Models


Reference

https://marvl.stanford.edu/

https://orrzohar.github.io/

https://ai.stanford.edu/~syyeung/

https://arxiv.org/pdf/2412.10360