港科大联合字节跳动发布MMProLong:长文档多模态模型训练效率超越OCR转录
5月24日,字节跳动Seed团队与香港科技大学联合发布了一项突破性研究,聚焦于多模态大语言模型的长文档训练范式。该工作基于阿里巴巴开源的Qwen2.5-VL,构建了名为MMProLong的新模型,在处理效率上实现了显著跃升。其核心价值在于,它不仅颠覆了多模态模型长文本训练的常规认知,更关键地揭示了数据组织策略本身对模型长上下文能力的决定性作用。
研究精准命中了当前LMM训练的一个关键瓶颈:在处理多模态长文档时,采用精心设计的问答对训练,其效能远超传统的字符识别转录方法。实验数据提供了有力佐证——简单地将文档内容转录为文本进行训练,不仅无法增强模型在长上下文中的信息定位能力,反而会导致性能退化。反之,若采用独立模型(如字节跳动的Seed2.0)生成的长上下文问答对进行训练,模型则能有效学会在庞杂的干扰信息中,精确锁定并提取目标段落。
基于这一数据优化策略,MMProLong在仅128,000个Token的有限训练预算下,展现了卓越的长文本稳定性。即使输入长度扩展至256,000乃至512,000个Token,模型性能也未出现衰减。在MMLongBench和MM-NIAH(大海捞针)等权威基准测试中,其表现显著超越了InternVL3-38B和Gemma3-27B等参数规模更大的开源竞品。更具启发性的是,这种通过数据优化获得的多模态长上下文能力,还展现出优秀的任务迁移性,成功应用于未经专门训练的长视频理解场景。该策略的有效性也在Qwen3-VL-8B模型上得到了复现验证。
此项研究为当前大模型行业的发展提供了另一条极具潜力的技术路径。它证明,实现长上下文能力的跨越式提升,并非必须像DeepSeek那样,从视觉信息压缩或架构重排序等底层技术入手。通过系统性地优化训练数据的结构与质量,而非直接改动模型架构,同样能够达成目标,且往往具备更高的成本效益。这为未来开发支持更长模态、执行更复杂多步骤推理的智能体系统,开辟了新的工程化思路与可能性。