多模态模型幻觉新方案：AITuning可靠性测评

2026-06-22阅读 0热度 0

ai 人工智能

先说几个核心判断。

在AI领域，我们一直有个追求：让机器能像人一样，通过视觉和语言自然互动。大型语言模型（LLM）的成功，像ChatGPT这些，确实给了大家很强的信心。紧接着，研究圈把目光投向了多模态助手——也就是既能看懂图，又能听懂话的模型。这些大家伙（我们叫它大型多模态模型，简称LMM）也确实厉害，在图像分类、目标检测、视觉问答（VQA）和图像描述这些任务上，零样本泛化能力让人印象深刻。

但事情没那么简单。随着研究深入，一个棘手的问题浮出水面：幻觉。此前大家主要关注的是“对象幻觉”——也就是模型描述的内容跟图片对不上号。最近我们发现，用户和系统之间的历史对话，也会引发一种更隐蔽的幻觉，我们称之为“对话幻觉”。举个例子，在ScienceQA数据集中，如果前面聊的是“环保”，后面突然问到一个相关但不同的问题，模型就可能被前面的话题带偏，给出一个很离谱的答案（比如把“环保”和“木材”错误关联起来）。这可不是小问题，因为现实场景里，用户哪会只问一次？大家不都是在多轮对话中，一边给反馈、一边追问吗？如果你前脚刚聊完一个话题，后脚模型就“记忆错乱”了，那体验感可就太差了。

面对这个问题，我们做了几件事。首先，我们设计了一个评估基准，叫EvalDial，专门用来量化这种“对话幻觉”。简单说，就是在现有的VQA和图像描述数据集上，给每个测试样本量身定制一些“捣乱”的历史对话。为了模拟真实用户行为，我们还搞了个对抗性问题生成器（AQG），通过黑盒攻击的方法，自动生成跟图片有关、但就是会让模型跑偏的对抗性对话。

然后，我们开始深挖根因。通过对模型输入令牌的注意力分析，我们清晰地看到：问题主要出在模型对历史对话的“预测偏见”，而不是它看不懂图片。换句话说，模型太容易被前面的话牵着鼻子走了。对症下药，我们提出了对抗性指令调整（AIT）。思路很简单但不粗暴：在包含增强视觉指令的数据集上，对模型进行鲁棒性微调，有意识地去削弱这种偏见。在EvalDial的六个数据集上，AIT确实有效——它不仅成功压制了对话幻觉，关键是，在VQA和图像描述任务上的表现不仅没掉下来，有些场景甚至还略有提升。

多模态模型的进展与幻觉问题

1. 多模态模型的成功案例

所谓多模态模型，就是把视觉基础模型（比如目标检测器）跟大语言模型缝合起来。LLaVA、MiniGPT-4、InstructBLIP这些都是代表作。它们在分类、检测、VQA和图像描述等任务上，零样本泛化能力确实很强，几乎是上场就能用。

2. 多模态模型面临的幻觉挑战

但成功背后，阴影也明显。越来越多研究指出，这些模型会“凭空捏造”——生成的内容跟输入图片或文本指令不一致。更麻烦的是，在多轮对话中，这种幻觉会被前置对话“火上浇油”。比如前面聊到“环保”，模型可能就把这个关键词强加到后续问题里，给出一个“答非所问”的答案。这在真实交互中是个大问题，因为你永远不知道用户前面说了什么话，会在后面把模型带偏。

对话幻觉的定义与影响

1. 对话幻觉的概念

直白说，对话幻觉就是：模型在没有历史对话时，能给出靠谱的答案；但加上几轮前置对话后，反而答错了。这种幻觉不限于VQA，在图像描述（Captioning）任务中也可能发生，甚至模型会凭空“看到”一个不存在的物体。

2. 对话幻觉对用户体验的影响

影响是显而易见的。你会对模型失去信任。尤其是在需要连贯推理的多轮对话中，用户可能因为早期聊过某个话题，就在后面的关键节点被错误信息误导。这不仅仅是体验不好，在严肃场景下还可能引发误解甚至错误决策。因此，要构建一个可靠、可信的多模态交互系统，必须解决这个“对话幻觉”问题。

EvalDial：评估对话幻觉的新基准

1. EvalDial基准的构建

EvalDial的逻辑很直接：在现有的VQA和图像描述基准数据上，为每个测试样本人工制造三类历史对话：通用对话（比如“这张图的主色是什么？”）、随机对话（跟图片完全无关）、对抗性对话（跟图片相关，但容易诱导模型出错）。这后一类对抗性对话，正是我们通过AQG（对抗性问题生成器）自动生成的，目的就是模拟真实用户可能出现的、但模型无法预期的干扰行为。

2. 生成对抗性对话的方法

AQG怎么工作？它用了两个核心组件：威胁模型和对抗性目标。威胁模型限定了对话的类型——确保生成的对话既跟图片相关，听起来又很自然。实际操作上，我们用另一个LMM来生成候选对话，然后通过向提示词令牌的嵌入向量里注入随机噪声，进行微扰优化。对抗性目标则使用了NLP中常用的对抗攻击损失函数。整个优化过程就是在不断寻找那些能让模型表现最差的对话组合。

对话幻觉的原因分析

1. 输入令牌注意力分析

要治本，先得搞清楚病因。我们祭出了输入令牌注意力分析，这是目前比较流行的方法。为了量化，我们专门设计了一个指标：对话令牌注意力比率（DTAR）。简单说，DTAR就是前置对话的内容对最终预测答案的贡献占比。

2. 对话令牌注意力比率(DTAR)的应用

分析结果很能说明问题：以LLaVA为例，在那些产生幻觉的例子里，DTAR得分显著高于没有幻觉的例子。这意味着，模型在幻觉发生时，更多地依赖历史对话里的信息，而不是去认真看图。这就是问题的症结——预测偏见。所以，我们需要的，就是一个能抑制这种偏见的训练方法。

对抗性指令调整(AIT)方法介绍

1. 幻觉对话的生成与注入

AIT的解决方案很直接，但设计得挺巧妙。我们在视觉指令数据集里，主动生成并注入上述三类幻觉对话（通用、随机、对抗性），然后把它们前置到原始测试指令之前。比如，一个通用对话可能是“这张图的主颜色是什么？——是蓝色”，然后在后面跟上真正的测试问题。强迫模型在这种“干扰”环境下学习。

2. 掩蔽指令调整的技术细节

关键技巧在于“掩蔽”。在微调时，每轮训练样本，我们会随机选择一定数量的对话轮次来注入这些幻觉对话。然后，在计算交叉熵损失时，我们专门把这些幻觉对话的答案令牌给屏蔽掉——也就是说，模型不需要学会去生成这些“引导性”的答案，只需要学会在它们存在的情况下，依然能对后续的真实问题给出正确回答。这样一来，模型就被训练得对前置对话“免疫”了。

实验验证：AIT方法的有效性

1. AIT在不同数据集上的表现

我们在OKVQA、GQA、IconQA（VQA任务）以及NoCaps、Flickr-30K、WHOOPS（图像描述任务）上做了对比实验。结果很一致：AIT成功降低了对话幻觉。在VQA任务上，准确率下降的幅度远小于其他基线模型；在图像描述任务上，性能要么保持稳定，要么还略有上升。这说明，AIT并没有牺牲通用能力来换取鲁棒性。

2. AIT对抗多轮对话幻觉的能力

在多轮对话的极端场景下，AIT的优势更明显。我们拿GQA数据集做了实验，逐渐增加前置对话的轮次。基线模型LLaVA的表现直线下滑，而AIT在通用对话和随机对话场景下几乎保持了完整性能，甚至在对抗性场景下，性能也只是温和地下降了一点点。这表明，AIT能有效抵御用户在前几轮对话中无意间植入的“误导”，确保后续回答依然忠实可靠。

讨论与可视化

1. AIT方法的影响因素分析

AIT的核心理念，就是通过主动引入干扰、屏蔽干扰答案、强制模型依赖视觉特征和最终指令来进行训练。这套方法能成功，根因还是我们对注意力机制的深入分析——对话幻觉本质上是对历史对话的过度拟合。AIT通过鲁棒性微调，有效打断了这种“死循环”。

2. AIT方法的可视化案例

在EvalDial基准上的测试结果也支撑了这一点。我们发现，在没有AIT优化的情况下，最先进的LMM在VQA任务上的零样本性能最多能下降14.8个百分点，而在图像描述任务上，下滑幅度更大，达到48.4个百分点。这些数字清晰地说明，这个问题的严重性，以及AIT方案的必要性。

结论与未来展望

1. 论文的主要发现

核心结论有三点：第一，现有的指令遵循型LMM很容易受到前置对话的幻觉影响；第二，我们构建的EvalDial和AQG能有效评估和生成这种幻觉；第三，基于注意力分析提出的AIT方法，能在不牺牲甚至提升通用性能的前提下，显著缓解这个顽疾。

2. 对未来多模态模型研究的启示

这项工作揭示了多模态对话系统的一个隐性陷阱，并提出了一套可行的解决方案。DTAR指标让我们能定量地看到模型对历史对话的依赖程度，而AIT则提供了一种鲁棒训练范式。未来，我们可以沿着这个方向继续探索：如何让模型在面对更复杂、更恶意的对抗性攻击时依然保持可靠？如何在保持高性能的同时，让模型真正理解“上下文”，而不是被“上下文”带偏？这些，都将是值得深入的方向。