FlashAR技术深度解析：如何用0.05%微调数据大幅提升自回归图像模型性能

2026-05-24阅读 0热度 0

回归

大语言模型的突破性进展，将“下一个词预测”这一核心范式成功迁移至视觉生成领域。其基本原理是将图像编码为离散的视觉标记序列，然后以自回归的方式逐个预测生成。从早期的PixelCNN、iGPT，到近期备受关注的Emu3.5、LlamaGen，自回归模型在图像生成质量上已全面对标，并在部分维度超越了扩散模型。

然而，自回归模型存在一个根本性的性能瓶颈：生成速度过慢。标准的光栅扫描解码方式严格遵循从左到右、从上到下的顺序，每一步仅能生成一个标记。生成一张512×512分辨率的图像，需要执行32×32=1024步串行推理，单卡耗时通常超过两分钟。其延迟与图像分辨率呈线性增长，使得GPU强大的并行计算能力无从发挥。在高分辨率或实时交互的应用场景中，这一缺陷严重制约了其实用性。

为攻克这一瓶颈，研究社区提出了多种加速策略，但均存在明显局限：

范式重构方法，如VAR的“下一尺度预测”或NAR的“近邻预测”，虽能大幅减少解码步数，但需要从零开始预训练全新模型，无法继承现有的大规模预训练成果，导致训练成本极其高昂。

离散扩散适配方法，例如Emu3.5原文采用的DiDA，通过后训练将自回归模型转换为支持并行解码的离散扩散模型。但该方法改变了模型原始的预测目标，导致预训练与推理阶段存在目标不一致，通常会显著损害生成质量。我们的复现实验表明，在同等数据量下，Emu3.5经过Block Diffusion后训练后，其生成评估分数会出现明显下滑。

推测解码作为一种无需训练的加速插件，其实际加速效果严重依赖于草稿模型的“接受率”，加速上限存在明显天花板。

这引出了一个关键的研究问题：是否存在一种方法，能够在不重新训练、也不改变模型原始学习目标的前提下，将已训练完备的自回归模型改造为高度并行的生成器，同时完整保留其强大的生成能力？

近期，来自浙江大学与阿德莱德大学的研究团队给出了一个精妙的解决方案：FlashAR。这是一个极其轻量级的后训练加速框架。它无需从头训练，在拥有340亿参数的Emu3.5-Image-34B模型上，仅使用原始训练数据的0.05%（约8万张图像），便将预训练好的自回归模型成功改造为高度并行的生成器Emu3.5-34B-Flash，实现了最高22.9倍的端到端加速。

核心原理：从“串行扫描”到“对角线并行”

传统自回归图像生成严格遵循光栅扫描顺序，每一步仅预测水平方向的下一个标记。对于一张由H×W个标记构成的图像，生成过程需要H×W步。

FlashAR的洞察力在于充分利用图像的二维空间特性。如果模型能同时具备预测“水平方向下一个”和“垂直方向下一个”的能力，那么在每个解码步骤中，两个预测头便可并行工作。由此，解码步数将从H×W急剧减少至H+W-1。以512×512分辨率（16倍下采样）为例，解码步数从1024步降至63步，实现了数量级的效率提升。

核心挑战在于：如何让一个仅训练了水平方向预测的模型，快速掌握垂直方向的预测能力？FlashAR为此设计了三个关键组件。

1. 中间层分支

FlashAR并未将新增的垂直预测头直接连接到预训练模型的最终输出层，而是选择从模型的中间层引出分支，使其与原有的水平预测头并行运作。

这一设计基于直观的模型理解：经过完整预训练后，最终层的特征表示已高度特化，完全适配于水平方向的光栅预测任务。这种“专精”虽带来了强大的原始能力，但也使其难以直接迁移学习一个全新的垂直预测任务。相比之下，中间层的特征通常保留了更丰富、更通用的二维空间结构信息，从此处引出新分支来适配垂直预测，更为自然且高效。

该设计还带来额外优势：从中间层分支后，垂直预测头可与原有分支并行计算，进一步提升了模型整体的推理吞吐量。消融实验证实了这一点：通过对预训练模型不同层的特征进行线性探测评估，发现最终层特征确实不是垂直预测任务的最佳选择，从而验证了中间层分支设计的合理性。

2. 可学习融合门

水平与垂直方向的预测分别建模了图像在二维空间上互补的依赖关系。它们的贡献权重在不同图像位置及生成阶段很可能动态变化。基于此，FlashAR引入了一个轻量级MLP作为“融合门”。该门控网络能在每个空间位置的粒度上，自适应地融合两个方向的预测结果，避免了简单平均可能导致的预测模糊，实现了更智能的融合。

3. 两阶段适配训练

为确保后训练过程的稳定性与数据利用的高效性，FlashAR采用了渐进式的两阶段训练策略：

第一阶段，冻结庞大的预训练骨干网络，仅优化新添加的垂直预测头，使其快速学习有意义的垂直方向预测能力。第二阶段，解冻骨干网络，联合微调垂直头及部分骨干参数，使整个模型更好地适应新的“对角线并行”解码范式。

在推理阶段，FlashAR还部署了硬件感知的优化管线：利用FlexAttention动态编译稀疏的二维近邻注意力掩码，并配合批量化更新KV缓存，确保理论上的并行性能够切实转化为真实的端到端加速收益。

实验验证与性能评估

Emu3.5-Image-34B 加速效果

将FlashAR应用于340亿参数的Emu3.5模型，是对其框架能力的严格检验。

结果令人瞩目：仅使用0.05%的原始训练数据（约8000万标记，8万张图像），FlashAR便将512×512图像的生成时间从130.10秒大幅压缩至5.68秒，实现了22.9倍的加速。更为关键的是，生成质量几乎无损。在GenEval综合基准上，FlashAR的总分仅微降0.19分（从80.48到80.29），而在颜色与位置两个具体子项上，分数甚至超越了原始模型。作为对比，BlockDiffusion方法在相同设置下，生成质量出现了显著下降。

ImageNet 类别条件生成

在ImageNet 256×256的标准测试中，FlashAR在四种不同模型规模上全面超越了现有的后训练加速方法BlockDiffusion。

几个突出亮点值得关注：

FlashAR-L模型的Inception Score达到了289.0，甚至超过了需要从头训练的NAR-L模型（263.9），而FlashAR仅需轻量级后训练。FlashAR-B模型实现了每秒447.2张图像的吞吐量，超越了NAR-B模型（419.7 img/s）。FlashAR仅需25个训练周期，这仅为BlockDiffusion所需训练量的三分之一。

FlashAR 高效性的核心归因

总结而言，FlashAR的成功源于多个核心优势的协同作用：

完全复用现有预训练模型，避免了高昂的从头训练成本。数据利用效率极高，仅需万分之五的原始数据。在实现惊人加速的同时，保持了近乎无损的生成质量，部分指标甚至有所提升。框架通用性强，在不同架构与规模的模型上均验证有效。最终实现了显著且可实际部署的端到端加速。

FlashAR的工作证实了一个重要观点：通过精心设计的轻量级后训练适配，完全可以在几乎不改变模型原始训练目标的前提下，将串行的自回归模型高效改造为高度并行的生成器，并完整继承其强大的预训练能力。这为大规模自回归视觉模型的实用化部署，开辟了一条切实可行的新路径。