多模态模型难题优先学习指南:克服样本偏置的权威测评

2026-05-16阅读 0热度 0
ai

多模态模型的能力边界持续扩展,但一个根本性挑战依然存在:模型会生成看似合理实则虚构的内容。当输入信息不完整或存在歧义时,模型倾向于用猜测填补空白,凭空生成图像中不存在的物体、细节或事件。这并非随机错误,而是当前主流训练范式下的结构性缺陷——模型易于从海量清晰样本中学习,却难以有效处理那些语义模糊、界定困难的样本,导致其在复杂现实应用中的可信度受损。

如何从根源上抑制这种“幻觉”现象?上海科技大学何旭明教授团队的研究揭示了一个关键思路:核心矛盾或许并非数据规模不足,而是数据内部的难度分布失衡。他们提出的DA-DPO框架,通过在训练中动态聚焦于更易出错的困难样本,为高效提升模型的事实一致性开辟了一条新路径。

精准抑制幻觉,同时保全模型核心能力

实验数据证实,DA-DPO方法在降低幻觉率方面效果显著且稳定。更重要的是,它并未损害模型的整体性能。

研究团队在AMBER、MMHalBench等多个权威评测基准上进行了验证,覆盖图像描述生成、视觉问答等任务。相较于传统方法,DA-DPO在提升输出的事实一致性和降低幻觉指标上表现出明确优势。尤其在物体识别层面,模型减少了凭空捏造的描述;在场景复杂或存在遮挡的情况下,对过度演绎的回答抑制效果更为明显。

关键在于取得平衡。此前的一些去幻觉技术,往往在压制错误的同时也削弱了模型的综合推理与深度理解能力。而在LLaVA-Bench、MME等综合能力评估中,DA-DPO维持甚至提升了模型的通用性能,其在多轮对话和复杂视觉推理任务上的表现尤为稳健。这表明,该方法并非通过让模型变得保守或沉默来规避风险,而是从优化机制入手,在输出的忠实性与智能的灵活性之间找到了更优的平衡点。

对训练过程的动态分析揭示了其内在机理。研究人员将样本按难度分级后观察到,在标准训练中,简单样本获得的“奖励”信号提升速度远快于困难样本,后期差距日益扩大。而DA-DPO的训练曲线显示,困难样本的奖励增长更为显著,简单样本的增长则趋于平缓。量化指标清晰地表明,DA-DPO有效缩小了难易样本间的奖励差距,确保训练资源向困难样本倾斜。这正是该方法能够精准抑制细粒度幻觉,同时保全模型整体能力的根本原因。

将训练权重重新分配给困难样本

整个实验设计基于一个核心发现:现有的多模态偏好数据中,包含了大量易于判断的简单样本。传统训练方法会不自觉地“偏爱”这些简单部分,导致模型对决定其性能上限的困难样本学习不足。

为验证并解决此问题,团队从模型架构、数据构成、评估体系到训练策略,进行了一系列严谨的闭环实验。

在模型选择上,他们采用了LLaVA等不同规模的模型进行测试,以确保方法的普适性,而非针对特定架构的优化。

数据层面融合了自动构造、模型筛选与人工标注三种来源的偏好数据。这旨在证明,样本难度分布失衡是各类数据中的普遍现象,而非特定数据集的个别问题。

接下来的核心挑战是:如何在不引入额外训练开销的前提下,准确评估每个样本的难度?研究团队巧妙地利用了两类现成的预训练模型:以CLIP为代表的对比式模型,从图文相关性角度打分;以LLaVA为代表的生成式模型,则从问答语义一致性角度衡量。通过计算偏好对中“优质回答”与“劣质回答”的得分差异,即可估算样本的区分难度:差值越小,意味着模型越难判断,样本难度越高。最终,融合两类模型的判断,形成一个更鲁棒的综合性难度评分。

在训练阶段,这一难度评分被动态引入DPO框架的关键参数中。参数不再固定,而是根据样本难度自适应调整。因此,困难样本在训练中获得了更高的权重,简单样本的权重则被适当抑制,从而引导模型集中攻克那些更具挑战性的“硬骨头”。

为排除偶然因素,团队进行了大规模的消融实验。例如,对比仅使用单一模型评估难度的效果,证明融合策略更具优势;再如,与直接删除简单样本的“硬过滤”方法对比,发现后者会破坏数据多样性并导致性能不稳定,而DA-DPO的“软加权”策略则能带来更稳健的性能提升。

进一步的“难度分桶”实验还发现,当训练数据以中等难度样本为主体时,幻觉抑制效果达到最佳。这强化了一个比单纯追求数据规模更深刻的洞见:样本难度结构的合理性,对模型性能至关重要。

范式转变:从追求“数据更多”到优化“难度更准”

这项工作的价值,超越了提出一个具体的技术方案。

在理论层面,它通过系统性分析,揭示了过往多模态偏好优化中一个被忽视的盲区:传统方法存在固有的“难度偏置”。模型倾向于学习界限分明的简单样本,而对那些语义复杂、区分细微、更贴近真实应用场景的困难样本学习不足。这正是幻觉问题难以根治的深层原因。DA-DPO将样本难度显式地纳入优化目标,实质上重构了偏好学习的视角,将焦点从“需要更多数据”转向了“需要更合理的数据难度结构”。这对后续研究方向,如自适应采样、困难样本挖掘等,具有明确的启发性。

在工程实践上,DA-DPO的优势在于其高性价比。它不依赖昂贵的新增人工标注,无需训练独立的奖励模型,也避免了复杂的强化学习流程,仅通过利用现有模型评估难度并动态调整训练权重,就实现了性能的稳定提升。这种低成本、易集成的特性,使其在工业级模型部署中具备吸引力。

其应用前景直接关联到AI系统的安全与可信赖性。无论是医疗影像分析中虚构病灶特征,还是自动驾驶系统误判关键路况,多模态幻觉在高风险领域可能引发严重后果。DA-DPO能在不明显削弱模型能力的前提下有效降低幻觉,显著提升了模型在此类关键场景中的可靠性。当然,该方法也存在局限,例如难度评估依赖于预训练模型的质量,在陌生领域可能出现偏差。未来的研究可向领域自适应的难度估计等方向继续深化。

这项研究不仅提供了一条实用的技术路径,更贡献了一个可能影响多模态学习范式的核心观点:在某些情况下,数据“质”的分布,比单纯的“量”更为重要。

在多模态世界中探寻答案的研究者

本研究的第一作者是上海科技大学信息科学与技术学院PLUS Group的硕士研究生Longtian Qiu,师从何旭明教授。他的研究方向集中于少样本学习、视觉—语言预训练等前沿领域。

文章的通讯作者为何旭明教授。他是上海科技大学信息科学与技术学院的副教授、博士生导师,并担任学院副院长。何教授于多伦多大学获得博士学位,曾在加州大学洛杉矶分校从事博士后研究,在澳大利亚国立大学等机构拥有丰富的研究经历。自2016年加入上海科技大学以来,他领导PLUS Lab团队在计算机视觉、机器学习与科学智能等领域持续深耕,特别是在开放世界理解、多模态学习等挑战性课题上产出了一系列重要成果,发表了百余篇顶级会议与期刊论文,并获得了多项学术荣誉与教学奖项。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策