多模态模型难题优先学习指南：克服样本偏置的权威测评

2026-05-16阅读 0热度 0

多模态模型的能力边界持续扩展，但一个根本性挑战依然存在：模型会生成看似合理实则虚构的内容。当输入信息不完整或存在歧义时，模型倾向于用猜测填补空白，凭空生成图像中不存在的物体、细节或事件。这并非随机错误，而是当前主流训练范式下的结构性缺陷——模型易于从海量清晰样本中学习，却难以有效处理那些语义模糊、界定困难的样本，导致其在复杂现实应用中的可信度受损。

如何从根源上抑制这种“幻觉”现象？上海科技大学何旭明教授团队的研究揭示了一个关键思路：核心矛盾或许并非数据规模不足，而是数据内部的难度分布失衡。他们提出的DA-DPO框架，通过在训练中动态聚焦于更易出错的困难样本，为高效提升模型的事实一致性开辟了一条新路径。

精准抑制幻觉，同时保全模型核心能力

实验数据证实，DA-DPO方法在降低幻觉率方面效果显著且稳定。更重要的是，它并未损害模型的整体性能。

研究团队在AMBER、MMHalBench等多个权威评测基准上进行了验证，覆盖图像描述生成、视觉问答等任务。相较于传统方法，DA-DPO在提升输出的事实一致性和降低幻觉指标上表现出明确优势。尤其在物体识别层面，模型减少了凭空捏造的描述；在场景复杂或存在遮挡的情况下，对过度演绎的回答抑制效果更为明显。

关键在于取得平衡。此前的一些去幻觉技术，往往在压制错误的同时也削弱了模型的综合推理与深度理解能力。而在LLaVA-Bench、MME等综合能力评估中，DA-DPO维持甚至提升了模型的通用性能，其在多轮对话和复杂视觉推理任务上的表现尤为稳健。这表明，该方法并非通过让模型变得保守或沉默来规避风险，而是从优化机制入手，在输出的忠实性与智能的灵活性之间找到了更优的平衡点。

对训练过程的动态分析揭示了其内在机理。研究人员将样本按难度分级后观察到，在标准训练中，简单样本获得的“奖励”信号提升速度远快于困难样本，后期差距日益扩大。而DA-DPO的训练曲线显示，困难样本的奖励增长更为显著，简单样本的增长则趋于平缓。量化指标清晰地表明，DA-DPO有效缩小了难易样本间的奖励差距，确保训练资源向困难样本倾斜。这正是该方法能够精准抑制细粒度幻觉，同时保全模型整体能力的根本原因。

将训练权重重新分配给困难样本

整个实验设计基于一个核心发现：现有的多模态偏好数据中，包含了大量易于判断的简单样本。传统训练方法会不自觉地“偏爱”这些简单部分，导致模型对决定其性能上限的困难样本学习不足。

为验证并解决此问题，团队从模型架构、数据构成、评估体系到训练策略，进行了一系列严谨的闭环实验。

在模型选择上，他们采用了LLaVA等不同规模的模型进行测试，以确保方法的普适性，而非针对特定架构的优化。

数据层面融合了自动构造、模型筛选与人工标注三种来源的偏好数据。这旨在证明，样本难度分布失衡是各类数据中的普遍现象，而非特定数据集的个别问题。

接下来的核心挑战是：如何在不引入额外训练开销的前提下，准确评估每个样本的难度？研究团队巧妙地利用了两类现成的预训练模型：以CLIP为代表的对比式模型，从图文相关性角度打分；以LLaVA为代表的生成式模型，则从问答语义一致性角度衡量。通过计算偏好对中“优质回答”与“劣质回答”的得分差异，即可估算样本的区分难度：差值越小，意味着模型越难判断，样本难度越高。最终，融合两类模型的判断，形成一个更鲁棒的综合性难度评分。

在训练阶段，这一难度评分被动态引入DPO框架的关键参数中。参数不再固定，而是根据样本难度自适应调整。因此，困难样本在训练中获得了更高的权重，简单样本的权重则被适当抑制，从而引导模型集中攻克那些更具挑战性的“硬骨头”。

为排除偶然因素，团队进行了大规模的消融实验。例如，对比仅使用单一模型评估难度的效果，证明融合策略更具优势；再如，与直接删除简单样本的“硬过滤”方法对比，发现后者会破坏数据多样性并导致性能不稳定，而DA-DPO的“软加权”策略则能带来更稳健的性能提升。

进一步的“难度分桶”实验还发现，当训练数据以中等难度样本为主体时，幻觉抑制效果达到最佳。这强化了一个比单纯追求数据规模更深刻的洞见：样本难度结构的合理性，对模型性能至关重要。

范式转变：从追求“数据更多”到优化“难度更准”

这项工作的价值，超越了提出一个具体的技术方案。

在理论层面，它通过系统性分析，揭示了过往多模态偏好优化中一个被忽视的盲区：传统方法存在固有的“难度偏置”。模型倾向于学习界限分明的简单样本，而对那些语义复杂、区分细微、更贴近真实应用场景的困难样本学习不足。这正是幻觉问题难以根治的深层原因。DA-DPO将样本难度显式地纳入优化目标，实质上重构了偏好学习的视角，将焦点从“需要更多数据”转向了“需要更合理的数据难度结构”。这对后续研究方向，如自适应采样、困难样本挖掘等，具有明确的启发性。

在工程实践上，DA-DPO的优势在于其高性价比。它不依赖昂贵的新增人工标注，无需训练独立的奖励模型，也避免了复杂的强化学习流程，仅通过利用现有模型评估难度并动态调整训练权重，就实现了性能的稳定提升。这种低成本、易集成的特性，使其在工业级模型部署中具备吸引力。

其应用前景直接关联到AI系统的安全与可信赖性。无论是医疗影像分析中虚构病灶特征，还是自动驾驶系统误判关键路况，多模态幻觉在高风险领域可能引发严重后果。DA-DPO能在不明显削弱模型能力的前提下有效降低幻觉，显著提升了模型在此类关键场景中的可靠性。当然，该方法也存在局限，例如难度评估依赖于预训练模型的质量，在陌生领域可能出现偏差。未来的研究可向领域自适应的难度估计等方向继续深化。

这项研究不仅提供了一条实用的技术路径，更贡献了一个可能影响多模态学习范式的核心观点：在某些情况下，数据“质”的分布，比单纯的“量”更为重要。

在多模态世界中探寻答案的研究者

本研究的第一作者是上海科技大学信息科学与技术学院PLUS Group的硕士研究生Longtian Qiu，师从何旭明教授。他的研究方向集中于少样本学习、视觉—语言预训练等前沿领域。

文章的通讯作者为何旭明教授。他是上海科技大学信息科学与技术学院的副教授、博士生导师，并担任学院副院长。何教授于多伦多大学获得博士学位，曾在加州大学洛杉矶分校从事博士后研究，在澳大利亚国立大学等机构拥有丰富的研究经历。自2016年加入上海科技大学以来，他领导PLUS Lab团队在计算机视觉、机器学习与科学智能等领域持续深耕，特别是在开放世界理解、多模态学习等挑战性课题上产出了一系列重要成果，发表了百余篇顶级会议与期刊论文，并获得了多项学术荣誉与教学奖项。

多模态模型难题优先学习指南：克服样本偏置的权威测评

精准抑制幻觉，同时保全模型核心能力

将训练权重重新分配给困难样本

范式转变：从追求“数据更多”到优化“难度更准”

在多模态世界中探寻答案的研究者

相关阅读

最新教程

最新资讯