2024多模态Diffusion模型权威榜单:BARD-VL开源测评与SOTA技术解析
多模态大模型的竞争正进入新阶段:性能与效率必须兼得。当前,基于自回归范式的视觉语言模型在理解能力上不断突破,但其逐词生成的串行解码机制,已成为制约推理速度与部署成本的核心瓶颈。在文档解析、多模态智能体等需要长文本输出的实际场景中,延迟问题正直接影响模型的可用性。
扩散式解码凭借其并行生成特性,理论上能通过同时细化多个词元来突破效率限制,是长序列生成的理想候选。然而,关键挑战在于:如何将性能顶尖的自回归VLM无损地转换为扩散VLM,并确保其核心能力不流失?这已成为学术界亟待攻克的技术难关。
近期,一项名为BARD的研究为此提供了新思路。这项由上海科学智能研究院、上海创智学院及复旦大学等团队联合完成的工作,提出了一套创新的桥接框架。其目标明确:将预训练成熟的自回归VLM,高效转换为同架构的扩散VLM,从而释放并行解码的潜力。实验表明,基于Qwen3-VL转换而来的BARD-VL模型,在保持甚至超越原模型性能指标的同时,实测解码吞吐量最高提升了3倍。
1、现状与挑战:AR 的瓶颈与 Diffusion 的困境
自回归VLM在各类基准测试中表现卓越,这已成共识。但随着生成序列长度增加,串行解码带来的计算负载与响应延迟,已从理论探讨演变为实际部署的首要障碍。
扩散多模态模型通过并行更新整个文本块,被视为提升推理效率的有效路径。但实践表明,若简单地将成熟的AR模型直接转换为大块扩散模型,模型能力常出现显著衰退。这种性能损失的根源,在于两种范式内在的监督信号不匹配:自回归模型习惯于在清晰前文条件下预测下一个词;而扩散模型则需要从被噪声扰动的状态中恢复出正确的词元序列。
这种根本差异,使得直接进行知识蒸馏的效果常不理想。多模态生成领域因此陷入两难:自回归模型能力强但速度慢,扩散模型速度快却可能牺牲性能。如何实现能力与效率的兼得,已成为模型走向规模化应用的关键。
2、BARD 核心机制:搭建范式迁移的「桥梁」
BARD的巧妙之处在于,它并未选择从零训练原生扩散模型,而是设计了一套系统化的桥接方案,将“能力保持”与“效率提升”两个目标解耦并分别优化。
2.1 渐进式监督块合并
为避免从“逐词生成”直接跳入“大规模并行生成”可能引发的训练不稳定,BARD引入了渐进式策略。具体而言,模型并非一步到位,而是从预训练的AR模型出发,先构建一个并行粒度极小的扩散模型作为起点。随后,按照(4,8,16,32)的序列逐步扩大并行解码的块大小。每一步,模型仅需学习如何将相邻的两个小预测块合并为更大块,显著降低了学习难度,确保了转换过程的平稳性。
2.2 阶段式扩散蒸馏
针对“监督错位”难题,BARD重新设计了蒸馏目标。它未使用原始自回归模型作为教师,而是巧妙地让前一阶段训练好的扩散模型指导当前阶段。由于师生均基于扩散机制,监督信号更为匹配。实验证实,在块大小为32的设置下,这种扩散蒸馏方法在MMMU、RealWorldQA等多个核心评测指标上的提升,显著超越了传统的自回归蒸馏。
2.3 工程优化:迈向实用的长序列训练
除架构创新外,BARD在工程实现上进行了深度优化,以应对长序列训练的实际挑战。
首先是混合噪声调度器。传统掩码扩散模型擅长补全缺失信息,但纠错能力有限。BARD在掩码噪声基础上,额外引入了对可见词元的均匀破坏。这使得模型在训练中同时掌握了“信息补全”与“错误修正”两项技能,显著增强了其在复杂场景下的鲁棒性。
其次是内存友好的训练布局。多模态序列常包含海量视觉词元,对训练显存构成巨大压力。BARD采用了打包序列布局,将输入上下文、干净的响应文本及被噪声干扰的响应文本封装于同一序列中,并通过精心设计的注意力掩码确保信息流正确性。这一优化极大提升了长序列任务的训练效率。
3、实验结果:性能与效率的双重飞跃
研究团队基于高质量数据进行了充分训练,并在7项核心评测上进行了全面验证。
3.1 综合能力对比
具体来看,在40亿参数规模下,BARD-VL相比原版Qwen3-VL 4B,在7项评测中提升了5项。至80亿参数规模,提升更为全面,在7项评测中领先了6项。与同期其他开源扩散VLM横向比较,BARD-VL 8B在该评测集上全面超越了LLaDA-V 8B,其40亿版本也在所有7项评测上超过了Dimple-VL。这表明,桥接转换不仅未损失性能,反而在多个维度实现了超越。
3.2 推理效率分析
关键在于,这些性能提升并非以牺牲速度为代价。下图曲线显示,BARD-VL 4B在很宽的解码吞吐量区间内,均能保持更高的准确率。在一个具体的票据信息抽取示例中,BARD-VL仅需6次扩散迭代即可得到结果,而原始自回归模型则需要35步解码。对于文档理解、表单处理这类天然的长输出任务,这种并行解码带来的效率优势,已非常接近真实部署所期待的改进。
4、结论与展望
BARD工作的核心价值在于,它有力验证了一个观点:高性能的自回归模型与高效的扩散解码范式可以兼得。通过精心设计的桥接框架,能够系统地将AR模型积累的知识迁移至更高效的并行架构中。尽管当前实验主要基于Qwen系列模型,但其展现出的可扩展性与鲁棒性,无疑为未来开发更高效的多模态智能体与长上下文交互系统指明了方向。
这项工作的意义还体现在与垂直领域模型的结合潜力上。例如,团队正在深耕的“炎黄”中华文明大模型,旨在服务于历史、考古等人文社科研究。而此次开源的BARD-VL所代表的扩散底座能力,正可助力此类领域大模型在追求高性能的同时,获得更优的推理效率,从而真正走向复杂的科研与应用场景。对于所有在模型能力与推理成本间寻求平衡的研究者与开发者而言,BARD提供了一条极具参考价值的技术路径。





