仅用2.6亿参数的模型实现8.7倍加速,并在图像生成上击败14亿参数的顶尖架构。
字节发布BitDance模型,为多模态人工智能的演进提供了一份极具价值的工程蓝图。
自然语言处理领域的极大成功让研究人员看到了自回归(AR)模型在视觉生成中的潜力,寻找到既能捕捉丰富图像细节又能避免长序列误差累积的视觉Token一直是个难题。
字节跳动、香港中文大学、上海交通大学、中科院、新加坡国立大学联合推出的BitDance巧妙绕开了传统向量量化(VQ)的词表坍缩陷阱,直接将二值化视觉Token的词表大小扩展到2的256次方。
为了在这个天文数字级别的空间里精准抽样,研究团队设计了二值扩散头,把离散的二值Token映射到连续空间的超立方体顶点上进行扩散预测。
引入下一图块扩散机制让模型得以精准并行预测多个Token,在ImageNet基准以及高分辨率文本到图像生成中展现出卓越的效率和画质。
自回归视觉生成的二值化突破
大型语言模型通过下一个Token预测证明了自回归预训练的强大泛化能力。
学术界随之尝试将自回归范式引入视觉生成领域,试图将语言和视觉模型统一起来。
视觉信息极其复杂,传统的向量量化(VQ)分词器在扩大词汇表时经常遭遇瓶颈,导致图像重建质量大幅下降。
连续自回归模型采用变分自编码器(VAEs)来获得极高的重建保真度。
连续潜空间的无约束特性容易在长序列生成中引发严重的误差累积。
视觉自回归生成极其依赖于Token由前向后的串行计算,随着图像分辨率的提高,推理效率面临巨大考验。
BitDance采用了一种简单且可扩展的设计理念。
该架构依托三大核心组件构建,包含大词汇量二值视觉分词器、用于在极离散空间内采样的二值扩散头,以及支持高效多Token预测的下一图块扩散范式。
研究团队从二值量化的最新进展中汲取灵感,将二值表示的熵大幅扩展,词汇表规模达到了惊人的2的256次方。
不妨把视觉Token想象成搭建图像的微小积木。
传统的连续特征像是一块块未经定型的湿润黏土,虽然容易融合,但堆叠过高就容易变形坍塌。
二值化Token则像是一套包含无数种标准形状的精密乐高积木。
巨大的二值潜在空间让模型既能保留细粒度的视觉细节,又借助离散特性有效控制了长序列生成中的误差累积。
为了防止代码本坍缩并最大化信息容量,模型采用了无查找量化(LFQ)技术。
面对计算量爆炸的挑战,研究者引入了分组计算策略,在计算效率和优化精度之间取得了绝佳平衡。
从ImageNet验证集的重建数据来看,扩充Token熵的效果立竿见影。
在32倍下采样率的苛刻条件下,BitDance的二值分词器依然能够取得25.29的峰值信噪比(PSNR),一举超越了连续变分自编码器模型。
连续扩散与离散词表的巧妙结合
庞大的词汇表在提升重建精度的同时,也为采样环节带来了一座难以逾越的高山。
对于一个拥有256个通道的二值Token而言,离散索引的数量呈指数级暴涨。
传统的分类头需要覆盖所有可能的类别,参数量会轻易突破万亿级别,远远超出了现代硬件的承载极限。
以往的折中方案大多假设每个比特位是相互独立的,试图把联合分布拆解成多个单独的二值分类。
此举直接忽视了二值Token内部错综复杂的位间关联,最终导致采样精度缩水,生成画质大打折扣。
BitDance创造性地设计了二值扩散头,彻底打破了分类采样中的参数效率与精度权衡困局。
研究人员没有让模型去庞大的索引库里做单项选择,而是把二值Token当作连续空间中多维超立方体上的顶点。
模型借助修正流(Rectified Flow)的公式,通过扩散目标来联合建模所有比特通道的分布。
寻找目标Token的过程变成了一场在多维空间里的精准导航,预测网络只需顺着引导向量不断修正方向,就能在连续空间中锁定目标位置。
采样到达最后一步时,系统会施加一个硬二值化约束。
连续的预测坐标被直接投影回二值超立方体的顶点上,巧妙利用了Token空间的结构化先验信息。
对比那些在无约束连续空间里“脱缰”的自回归模型,该设计从根源上截断了复利式的误差累积路径。
连续空间里的二值Token在几何形态上呈现出振幅一致但方向各异的有限顶点集合。
严格的靶点向量集合极大降低了扩散头的优化复杂度,带来更快的收敛速度和出色的采样稳定性。只需少量的采样步骤,模型就能捕捉到二值分布的离散本质。
下一图块扩散提升多Token并行预测
图像生成通常被处理为逐个Token预测的线性流水线。
一张高分辨率图像包含海量的Token,传统的计算方式注定要耗费极其漫长的推理时间。利用图像数据内部的局部空间依赖性进行并行计算,成为打破效率瓶颈的必然选项。
局部的图块内部往往存在极强的统计学相关性,理应可以被打包在一起进行联合预测。
此前的并行自回归架构大多深陷于训练与推理目标不匹配的泥潭。模型在训练时要求同时生成一组Token,但在推理采样时却依靠分类头进行独立的逐个采样。
割裂的采样机制破坏了并行生成所需的联合分布建模,最终不可避免地在图像的各个区块内留下不协调的生成伪影。
BitDance提出了下一图块扩散机制,将整个一维Token序列划分为多个不重叠的图块组进行统一处理。
自回归Transformer中引入了块状因果注意力掩码。同属一个图块组内部的Token彼此完全可见,允许模型显式捕获局部空间内的相互作用。
对于跨图块的信息传递,架构依然保留了严格的自回归时序依赖。
二值扩散头在这个环节发挥了无可替代的作用,无缝适配了多Token并行预测的任务需求。
由轻量级扩散变换器(DiT)构成的预测网络,完美贴合了并行自回归目标的联合概率建模需求。
这种表里如一的架构设计,确保了局部图块在高速生成时依然具备极高的结构连贯性。
全面超越现有基准的生图表现
为了全面验证架构潜力,BitDance在多种评估任务中展开了详尽的测试。
在ImageNet类条件图像生成基准中,仅使用基础的自回归光栅扫描顺序,BitDance便交出了一份极其惊艳的答卷。
拥有10亿参数的BitDance-H-1x变体,在未引入额外自监督模型的条件下,取得了1.24的FID核心得分。
优异的数值指标证实了二值扩散范式在图像建模方面的绝对实力。
当引入多Token并行预测机制后,架构的效率优势被彻底激发。
对比目前业界领先的RandAR-XXL模型,参数量仅有2.6亿的BitDance-B-4x变体在FID分数上领先了大约0.5分。
小巧精致的并行模型展现出了远超大尺寸传统架构的生成画质,充分体现了联合概率建模的合理性。
文本到图像(Text-to-Image)的生成任务更加考验模型对复杂多模态指令的理解与执行能力。
研发团队以预训练的Qwen3-14B作为架构基座,同时肩负文本编码与图像生成的双重职责。
为了兼顾重建品质与收敛速度,这里选用了16倍下采样率的视觉分词器,并开启了每次迭代生成16个图块的并行模式。
在庞大语料滋养下的模型经历了预训练(PT)、持续训练(CT)和监督微调(SFT)三个紧密衔接的阶段。
训练初期引入了混合分辨率策略,将512像素作为核心基准的同时,灵活融合256像素与1024像素的图像数据。此项安排极大增进了架构应对多元化分辨率挑战时的稳健性与通用性。
完成监督微调后,团队特别追加了知识蒸馏环节。
通过少量的优质数据微调,模型被迅速过渡到每次64个Token的大规模并行预测模式,进一步压榨出极致的推理速度。
多项权威基准测试的结果证实了上述架构的有效性。
在GenEval上测得0.86分,在DPG-Bench上拿下88.28分,BitDance在一众自动回归模型中傲视群雄。
不仅如此,即便是面对参数量和训练数据规模远超自身的顶级商业闭源模型,BitDance同样展现出了极具竞争力的提示词遵循与文本渲染实力。
在双语支持层面,OneIG的英文和中文评估环境彻底检验了模型的数据效率和泛化潜力。
BitDance用不足4.5亿对的图文语料储备,成功缩短了与动辄调用数十亿级别数据的商业大模型之间的鸿沟。
消融实验的数据更是直观展示了每个模块的无可取代。
在替换为连续变分自编码器后,图像生成的各类核心指标均遭遇滑铁卢,侧面印证了无约束连续Token在生成环节中不可控的风险。
一旦放弃二值扩散头转而使用传统的按位分类头,直接引发的性能暴跌再次重申了比特位独立假设的局限性。
蒸馏环节不仅极速拉升了推演速度,生成的图像依旧保留着精妙入微的高清质感。
面对1024乘1024级别的超高清出图任务,耗时被成功压缩到了惊人的12.4秒。
对比传统逐Token预测的基准模型动辄需要四百多秒的煎熬等待,多倍的效率提升彻底刷新了自回归架构的生图体验。
将无限的图像色彩装进离散有序的二值框架中,再用扩散机制造就并行生成的奇迹。
BitDance以绝妙的设计哲学重新定义了视觉生成效率与精度的天平。
在自回归多模态基础模型加速演进的当下,这样一套以小博大、高效轻盈的方案,为下一代智能图像工厂开启了新的可能性。
参考资料:
https://bitdance.csuhan.com/
https://github.com/shallowdream204/BitDance
https://arxiv.org/pdf/2602.14041
https://huggingface.co/collections/shallowdream204/bitdance
https://bitdance.csuhan.com/gallery.html