AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文标题:Autoregressive Models in Vision: A Survey
论文链接: https://arxiv.org/abs/2411.05902
项目地址:https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey
扩散模型 (Diffusion Models):与自回归模型类似,两类模型都能生成高质量样本,但是两者在生成范式上有根本区别。当前自回归模型已经逐渐在性能上追赶上扩散模型,且展现了很好的scaling到更大模型的潜力。近期研究尝试结合两者的优势,进一步提高生成模型的性能。
无条件图像生成:像素级生成逐个像素构建图像,如 PixelRNN 和 PixelCNN 等。视觉词元级生成将图像视为视觉词元序列,如 VQ-VAE 及其改进方法。尺度级生成从低到高分辨率逐步生成图像,如 VAR。
文本到图像合成:根据文本条件生成图像,如 DALL・E、CogView 等。近期研究还探索了与扩散模型、大语言模型的结合,以及向新任务的扩展。
图像条件合成:包括图像修复、多视图生成和视觉上下文学习等,如 QueryOTR 用于图像外绘,MIS 用于多视图生成,MAE-VQGAN 和 VICL 用于视觉上下文学习。
图像编辑:分为文本驱动和图像驱动的图像编辑。文本驱动如 VQGAN-CLIP 和 Make-A-Scene,可根据文本输入修改图像。图像驱动如 ControlAR、ControlVAR 等,通过控制机制实现更精确的图像编辑。
无条件视频生成:从无到有创建视频序列,如 Video Pixel Networks、MoCoGAN 等。近期方法如 LVT、VideoGPT 等结合 VQ-VAE 和 Transformer 提高了生成质量。
条件视频生成:根据特定输入生成视频,包括文本到视频合成、视觉条件视频生成和多模态条件视频生成。如 IRC-GAN、CogVideo 等用于文本到视频合成,Convolutional LSTM Network、PredRNN 等用于视觉条件视频生成,MAGE 用于多模态条件视频生成。
具身智能:视频生成在具身智能中用于训练和增强智能体,如学习动作条件视频预测模型、构建通用世界模型等。
多模态理解框架:通过离散图像视觉词元掩码图像建模方法学习视觉表示,如 BEiT 及其变体。
统一多模态理解和生成框架:将视觉和文本输出生成相结合,如 OFA、CogView 等早期模型,以及 NEXTGPT、SEED 等近期模型。最近还出现了原生多模态自回归模型,如 Chameleon 和 Transfusion。