关于计算机视觉中的自回归模型，这篇综述一网打尽了

机器之心

2024-12-01 12:24发布于北京机器之心官方账号

AI划重点 · 全文约4934字，阅读需15分钟

1.本文对计算机视觉中的自回归模型进行了全面综述，涵盖了约250篇相关参考文献。

2.自回归模型在图像生成、视频生成、3D生成和多模态生成等任务中展现出巨大的潜力。

3.根据序列表示策略，自回归模型可分为基于像素、基于视觉词元和基于尺度的模型。

4.然而，自回归模型在计算机视觉领域仍面临挑战，如计算复杂度、模式崩溃等。

5.未来工作需要开发能适应多种下游任务的统一自回归模型，以推动其发展和应用。

以上内容由腾讯混元大模型生成，仅供参考

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文是一篇关于自回归模型在视觉领域发展的综述论文，由港大、清华、普林斯顿、杜克、罗切斯特大学、俄亥俄州立、UNC、苹果、字节跳动、香港理工大学等多所高校及研究机构的伙伴联合发布。

随着计算机视觉领域的不断发展，自回归模型作为一种强大的生成模型，在图像生成、视频生成、3D 生成和多模态生成等任务中展现出了巨大的潜力。然而，由于该领域的快速发展，及时、全面地了解自回归模型的研究现状和进展变得至关重要。本文旨在对视觉领域中的自回归模型进行全面综述，为研究人员提供一个清晰的参考框架。

论文标题：Autoregressive Models in Vision: A Survey
论文链接: https://arxiv.org/abs/2411.05902
项目地址：https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey

研究的主要亮点如下：

最新最全的文献综述：本文对视觉领域中的自回归模型进行了全面的文献综述，涵盖了约 250 篇相关参考文献，包括一些新兴领域的相关文献，比如 3D 医疗、具身智能等。通过对这些文献的整理和分析，本文能够为读者提供一个系统的了解自回归模型在视觉领域的发展历程和研究现状的有效帮助。

基于序列表征的分类：本文根据序列表示策略对自回归模型进行了分类，包括基于 pixel、基于 token 和基于 scale 的视觉自回归模型。同时，本文还对不同类型的自回归模型在图像生成、视频生成、3D 生成和多模态生成等任务中的性能进行了比较和分析。通过这些分类和比较，本文能够帮助读者更好地理解不同类型的自回归模型的特点和优势，为选择合适的模型提供参考。

左边图展示的是 3 种主流的用于自回归视觉模型的表征方法。右边图展示的是自回归视觉模型的主要组成：序列表征方法和自回归序列建模方式。

各种领域的应用总结：本文详细介绍了自回归模型在图像生成、视频生成、3D 生成和多模态生成等任务中的应用。通过对这些应用的总结和分析，本文能够为读者展示自回归模型在不同领域的应用潜力和实际效果，为进一步推动自回归模型的应用提供参考。下面是本文的文献分类框架图：

挑战与展望：本文讨论了自回归模型在视觉领域面临的挑战，如计算复杂度、模式崩溃等，并提出了一些潜在的研究方向。通过对这些挑战和展望的讨论，本文能够为读者提供一个思考和探索的方向，促进自回归模型在视觉领域的进一步发展。

2. 视觉自回归模型

基础知识

视觉自回归模型有两个核心的组成部分：序列表示和自回归序列建模方法。首先，让我们来了解这两个关键方面：

序列表示：将视觉数据转化为离散元素序列，如像素、视觉词元等。这种表示方法类似于自然语言处理（NLP）中的文本生成中把词分成词元进行后续处理，为自回归模型在计算机视觉领域的应用奠定了基础。举例来说，对于图像数据，可以将其划分为像素序列或者图像块序列，每个像素或图像块作为序列中的一个元素。这样，就可以利用自回归模型依次预测每个元素，从而实现图像的生成或重建。

自回归序列建模：基于先前生成的元素，通过条件概率依次预测每个元素。具体来说，对于一个序列中的第 t 个元素，自回归模型会根据前面 t-1 个元素的信息来预测第 t 个元素的概率分布。训练目标是最小化负对数似然损失。通过不断调整模型参数，使得模型预测的概率分布尽可能接近真实数据的分布，从而提高模型的性能。

2.1 通用框架分类

了解了自回归模型的基础之后，我们接下来看看不同的通用框架分类。下面我们分别介绍基于像素、基于视觉词元和基于尺度的模型。

2.1.1 基于像素（pixel）的模型：这类模型直接在像素级别表示视觉数据，如 PixelRNN 和 PixelCNN 等。PixelRNN 通过递归神经网络（RNN）捕捉像素间的依赖关系，从图像的左上角开始，依次预测每个像素的值。PixelCNN 则使用卷积神经网络（CNN）来实现像素级别的自回归建模，通过对图像进行卷积操作来获取像素间的局部依赖关系。

但是这类模型在高分辨率图像生成时面临计算成本高和信息冗余的挑战。由于需要对每个像素进行预测，随着图像分辨率的提高，计算量会呈指数增长。同时，像素之间的相关性可能导致信息冗余，影响模型的效率和性能。

2.1.2 基于视觉词元（token）的模型：将图像压缩为离散视觉词元序列，如 VQ-VAE 及其变体。

这类模型先使用编码器将图像映射到潜在空间并量化为离散代码，再用解码器重建图像。在此基础上，采用强大的自回归模型预测下一个离散视觉词元。例如，VQ-VAE 通过向量量化将图像编码为离散的视觉词元序列，然后使用自回归模型对视觉词元序列进行建模，实现图像的生成和重建。但是这类模型存在码本利用率低和采样速度慢的问题。码本中的视觉词元可能没有被充分利用，导致生成的图像质量受限。同时，由于需要依次预测每个视觉词元，采样速度相对较慢。

2.1.3 基于尺度（scale）的模型：以不同尺度的视觉词元图作为自回归单元，如 VAR。通过多尺度量化自动编码器将图像离散化为视觉词元学习不同分辨率的信息，生成过程从粗到细逐步进行。例如，VAR 首先在低分辨率下生成粗糙的视觉词元图，然后逐步细化到高分辨率，从而提高生成图像的质量和效率。相比基于视觉词元的模型，它能更好地保留空间局部性，提高视觉词元生成效率。通过多尺度的建模方式，可以更好地捕捉图像的局部结构和细节信息。

不同的通用框架分类各有特点，而自回归模型与其他生成模型也有着紧密的关系。接下来，我们探讨自回归模型与其他生成模型的关系。

2.3 与其他生成模型的关系

自回归模型与变分自编码器（VAEs）、生成对抗网络（GANs）、归一化流、扩散模型和掩码自编码器（MAEs）等生成模型在不同方面有着联系和区别。

变分自编码器（VAEs）：VAEs 学习将数据映射到低维潜在空间并重建，而自回归模型直接捕捉数据分布。两者结合的方法如 VQ-VAE，能有效利用两者优势进行图像合成。VQ-VAE 首先通过编码器将图像映射到潜在空间，然后使用向量量化将潜在空间离散化为视觉词元序列，最后使用自回归模型对视觉词元序列进行建模，实现图像的生成和重建。

生成对抗网络（GANs）：GANs 生成速度快，但训练不稳定且可能出现模式崩溃。自回归模型采用似然训练，过程稳定，虽采样速度慢，但模型性能随数据和模型规模提升。在图像生成任务中，GANs 可以快速生成逼真的图像，但可能会出现模式崩溃的问题，即生成的图像缺乏多样性。自回归模型则可以通过似然训练保证生成的图像具有较高的质量和多样性。

归一化流（Normalizing Flows）：通过一系列可逆变换将简单分布映射到复杂数据分布，与自回归模型都可通过最大似然估计直接优化。但归一化流需保证可逆性，自回归模型则通过离散化数据和顺序预测更具灵活性。归一化流需要设计可逆的变换函数，这在实际应用中可能会比较困难。而自回归模型可以通过离散化数据和顺序预测的方式，更加灵活地捕捉数据的分布特征。

扩散模型（Diffusion Models）：与自回归模型类似，两类模型都能生成高质量样本，但是两者在生成范式上有根本区别。当前自回归模型已经逐渐在性能上追赶上扩散模型，且展现了很好的scaling到更大模型的潜力。近期研究尝试结合两者的优势，进一步提高生成模型的性能。

掩码自编码器（MAEs）：MAEs 通过随机掩码输入数据并重建来学习数据表示，与自回归模型有相似之处，但训练方式和注意力机制不同。例如，MAEs 在训练时随机掩码一部分输入数据，然后通过重建被掩码的部分来学习数据的表示。自回归模型则是通过顺序预测的方式来学习数据的分布。两者在训练方式和注意力机制上存在差异。

3．视觉自回归模型的应用

自回归模型在图像生成、视频生成、3D 生成和多模态生成等任务中都有着广泛的应用。结合经典的和最新的相关工作，我们做出以下的分类，感兴趣的读者可以在论文中阅读每个子类的详情。

3.1 图像生成

无条件图像生成：像素级生成逐个像素构建图像，如 PixelRNN 和 PixelCNN 等。视觉词元级生成将图像视为视觉词元序列，如 VQ-VAE 及其改进方法。尺度级生成从低到高分辨率逐步生成图像，如 VAR。
文本到图像合成：根据文本条件生成图像，如 DALL・E、CogView 等。近期研究还探索了与扩散模型、大语言模型的结合，以及向新任务的扩展。
图像条件合成：包括图像修复、多视图生成和视觉上下文学习等，如 QueryOTR 用于图像外绘，MIS 用于多视图生成，MAE-VQGAN 和 VICL 用于视觉上下文学习。
图像编辑：分为文本驱动和图像驱动的图像编辑。文本驱动如 VQGAN-CLIP 和 Make-A-Scene，可根据文本输入修改图像。图像驱动如 ControlAR、ControlVAR 等，通过控制机制实现更精确的图像编辑。

3.2 视频生成

无条件视频生成：从无到有创建视频序列，如 Video Pixel Networks、MoCoGAN 等。近期方法如 LVT、VideoGPT 等结合 VQ-VAE 和 Transformer 提高了生成质量。
条件视频生成：根据特定输入生成视频，包括文本到视频合成、视觉条件视频生成和多模态条件视频生成。如 IRC-GAN、CogVideo 等用于文本到视频合成，Convolutional LSTM Network、PredRNN 等用于视觉条件视频生成，MAGE 用于多模态条件视频生成。
具身智能：视频生成在具身智能中用于训练和增强智能体，如学习动作条件视频预测模型、构建通用世界模型等。

3.3 3D 生成

在运动生成、点云生成、场景生成和 3D 医学生成等方面取得进展。如 T2M-GPT 用于运动生成，CanonicalVAE 用于点云生成，Make-A-Scene 用于场景生成，SynthAnatomy 和 BrainSynth 用于 3D 医学生成。

3.4 多模态：

多模态理解框架：通过离散图像视觉词元掩码图像建模方法学习视觉表示，如 BEiT 及其变体。
统一多模态理解和生成框架：将视觉和文本输出生成相结合，如 OFA、CogView 等早期模型，以及 NEXTGPT、SEED 等近期模型。最近还出现了原生多模态自回归模型，如 Chameleon 和 Transfusion。

3. 评估指标

评估视觉自回归模型的性能需要综合考虑多个方面的指标。我们从视觉分词器重建和模型生成的角度分别进行度量：

视觉分词器重建评估：主要关注重建保真度，常用指标包括 PSNR、SSIM、LPIPS 和 rFID 等。例如，PSNR（峰值信噪比）用于衡量重建图像与原始图像之间的像素差异，SSIM（结构相似性指数）则考虑了图像的结构信息和亮度、对比度等因素。

视觉自回归生成评估：包括视觉质量（如负对数似然、Inception Score、Fréchet Inception Distance 等）; 多样性（如 Precision 和 Recall、MODE Score 等）; 语义一致性（如 CLIP Score、R-precision 等）; 时间一致性（如 Warping Errors、CLIPSIM-Temp 等）; 以人为中心的评估（如人类偏好分数、Quality ELO Score 等）。

另外，我们在论文中总结了自回归模型、Diffusion、GAN、MAE 等生成方法在四个常用的图像生成基准上（例如 MSCOCO）的表现，揭示了当前自回归视觉生成方法与 SOTA 方法的差距。

5. 挑战与未来工作

自回归模型在计算机视觉领域虽然取得了一定的成果，但也面临着一些挑战:

5.1 视觉分词器设计：设计能有效压缩图像或视频的视觉分词器是关键挑战，如 VQGAN 及其改进方法，以及利用层次多尺度特性提高压缩效果。例如，可以通过改进向量量化算法、引入注意力机制等方式，提高视觉分词器的性能和压缩效果。

5.2 离散与连续表征的选择：自回归模型传统上采用离散表示，但连续表示在简化视觉数据压缩器训练方面有优势，同时也带来新挑战，如损失函数设计和多模态适应性。例如，可以探索连续表示下的自回归模型，设计合适的损失函数，提高模型在多模态数据上的适应性。

5.3 自回归模型架构中的归纳偏差：探索适合视觉信号的归纳偏差架构，如 VAR 利用层次多尺度视觉词元化，以及双向注意力的优势。例如，可以研究不同的归纳偏差架构对自回归模型性能的影响，寻找最适合视觉信号的架构。

5.4 下游任务：当前视觉自回归模型在下游任务上的研究相对滞后，未来需开发能适应多种下游任务的统一自回归模型。例如，可以将自回归模型应用于目标检测、语义分割等下游任务，探索如何提高模型在这些任务上的性能。

6. 总结

本文对计算机视觉中的自回归模型进行了全面综述，介绍了自回归模型的基础、通用框架分类、与其他生成模型的关系、应用领域、评估指标以及面临的挑战和未来工作。自回归模型在计算机视觉领域具有广阔的应用前景，但仍需进一步研究解决现有问题，以推动其发展和应用。