中科院突破：视觉问答先看图后思考提升诚实性

2026-06-23阅读 0热度 0

中科院

这项研究来自中国科学院沈阳自动化研究所机器人与智能系统国家重点实验室，并联合了中国科学院大学。论文以arXiv预印本形式于2026年6月17日发布，编号为arXiv:2606.19120。

一个让AI“睁眼说瞎话”的训练陷阱

想象你雇了一位新助理，让他帮你回答问题。你给他看一张照片，问他照片里有什么。但在他回答之前，你悄悄把正确答案贴在了他脑门上。他当然能回答正确——但他究竟是真的看了照片，还是仅仅读了自己脑门上的答案？

这个问题，恰恰戳中了当前主流“多模态大语言模型”训练方式的核心困境。这类AI在训练时，采用一种称为“在线自蒸馏”的技术——简单说，就是让模型用自己的答案做练习题，同时用一个“特权版本的自己”来提供密集的逐词纠正信号。这个特权版AI能提前看到标准答案。这一设计在纯文字推理任务上效果显著，但一旦引入图像，麻烦就来了。

当AI在写推理过程时，那个“特权老师”已经知道了正确答案，它会不断用答案来引导每一个词的生成方向。结果，AI学会的是“如何写出一段能和已知答案自圆其说的推理过程”，而不是“如何真正看懂图片再推理出答案”。这就像一个学生在考试前已经知道了答案，然后倒推出一段听起来头头是道的解题过程——漂亮，但不诚实。

研究团队把这个问题称为“快捷路径”（shortcut）：AI走了一条绕开图片的捷径，直接用文字答案来推动推理，导致它对图片的依赖越来越弱。这在日常问答中或许不明显，但一旦遇到“图片内容与常识相反”的情况，AI就会原形毕露——它会根据常识或已知答案来回答，而不是真的看图说话。

要解决这个问题，研究团队提出了一个名为**ViGOS**（Visual Grounding On-Policy Self-Distillation，视觉锚定的在线自蒸馏）的新训练框架。核心思路很直白：**先让AI描述图片，再让它基于描述进行推理**。两个阶段用不同的“老师”来督导，从根本上切断了答案对视觉描述的污染。

一、“特权老师”的双刃剑

要理解ViGOS为什么能解决问题，首先得弄清楚原来的训练方式是怎么运作的，以及问题出在哪里。

在线自蒸馏的基本逻辑可以这样理解：一个学生在做练习题，每写一个字，旁边都有一个“老师版的自己”在看。这个老师事先知道正确答案，会用答案来判断学生每一个字写得是否合适，并给出密集的纠正信号。学生在自己生成的草稿上接受训练，而不是照着老师写好的范文抄——这样就避免了“练习时和考试时用的思路不一样”的问题。

对于纯文字推理，这个设计很自然：知道答案的老师引导学生一步步把推理逻辑写对，本来就是合理的教学方式。文字推理的所有信息都来自题目本身，老师知道答案，所以能在每一步告诉学生“这个方向对，那个方向不对”。

然而，多模态AI的情况完全不同。这类AI同时接收图片和文字两种输入，而文字往往比图片更“容易抓”——毕竟，文字是精确的、线性的，而图片是模糊的、多义的。当一个已经知道正确答案的老师在旁边盯着，AI很容易就学会了：我只要在推理里顺着答案的方向写就行了，不一定要真的仔细分析图片。

研究团队为了量化这个问题，设计了一个叫做“特权答案泄露率”（PALR，Privileged Answer Leakage Rate）的诊断指标。这个指标的工作原理很直观：固定一段AI生成的回答，然后分别用“知道正确答案的老师”和“用错误答案替换后的老师”来给每个词打分。如果两者差距很大，说明老师的纠正信号主要来自答案，而不是来自图片内容。同时也测量“换一张不相关图片后打分变化了多少”，用来衡量图片对纠正信号的贡献。

检测结果令人警醒。在3B参数规模的模型上，推理和答案部分的PALR高达17.26%；在7B规模模型上，更是飙升到26.01%。换句话说，在这个规模下，超过四分之一的密集纠正信号是由答案主导的，而不是由图片主导。这意味着AI正在用答案来反向构造推理，而不是用图片来正向推导答案。

二、把“先看图后推理”写进训练流程

ViGOS的解决思路可以用一个厨师培训的比喻来理解。

传统的厨师培训方式是这样的：学员在烹饪时，旁边有一个知道菜谱最终口味的大厨在盯着，从第一步加盐到最后出锅，大厨都会根据“我知道最后应该是什么味道”来告诉学员每一步做得对不对。问题是，学员可能根本没有认真品尝食材的原味，只是学会了“怎么做出听起来符合大厨预期的菜”。

ViGOS的做法是把烹饪过程拆成两段：**第一段是食材鉴别**，学员先认真观察和描述每种食材的颜色、气味、质地——这个阶段，没有大厨在旁边，也不告诉学员最终做什么菜，只有一个只看食材不管菜谱的“感官老师”在旁边，确保学员真的在描述食材本身。**第二段才是烹饪推理**，基于学员自己写下来的食材描述，知道菜谱的大厨才出现，引导学员完成剩余的烹饪步骤和最终判断。

对应到AI训练，ViGOS的具体做法是：

AI生成的每一段回答被拆分成三个部分——图片描述（d）、推理过程（r）和最终答案（a）。AI被要求用固定的格式来组织回答：先用``标签写图片描述，再用``标签写推理过程，最后给出答案。这三段由不同的“老师”来督导。

在描述阶段，监督AI的是一个**纯图片感知老师**。这个老师的特殊之处在于，它在打分时只能看到图片本身，看不到题目文字，更看不到正确答案。它的唯一职责是确保AI在描述阶段真的在描述图片，而不是在凑合着往答案方向写。

在推理和答案阶段，监督AI的才是**特权推理老师**。这个老师能看到正确答案，引导AI基于图片描述完成推理。关键在于，此时图片描述已经由AI自己写在前面了，特权老师在引导推理时，其实也是在已有描述的基础上操作，而不是从零开始绕开图片。

此外，还有第三种老师——**参考老师**。这个老师只在AI生成的回答格式出错时才介入，比如AI没有写标签、描述段落是空的、或者答案无法解析时。参考老师的作用是把格式拉回正轨，而不是成为默认的主力老师。之所以要有这个设计，是因为如果格式错了，前两个老师的分工就失效了，没有可靠的“描述段落”和“推理段落”可以区分，所以需要一个兜底机制。

这种分段督导的设计，在形式上改变了答案进入训练信号的时机：在原来的设计里，答案从第一个词开始就影响每一步；在ViGOS里，答案只在图片描述已经完成之后才参与指导。研究团队用一个简单的路径公式来描述这个差异——原来是“答案→推理→答案”，ViGOS是“图片→描述→推理→答案”。

三、PALR诊断数据说明了什么

用上面提到的PALR指标来衡量，ViGOS的效果非常清晰。

在3B规模模型上，原来方法的推理和答案段落PALR是17.26%，ViGOS把它压低到了6.33%；在7B规模模型上，从26.01%降到了7.56%。全段回答的PALR也分别从5.59%和7.55%下降到了3.07%和3.72%。

描述段落的PALR在ViGOS下是0.00%——这是“由构造决定的”结果，因为描述段落的监督老师根本看不到答案，所以在这个诊断里，答案对描述段落的纠正信号贡献是零。

研究团队还做了一个有趣的交叉验证。ViLP（一个测试AI在图片内容与常识矛盾时是否仍然遵从图片的基准数据集）的得分，在7B规模模型上，原方法得到的分数远低于3B模型（42.00% vs. 59.50%），说明更大的7B模型反而更依赖常识捷径，对图片的实际遵从度更差。而PALR诊断也显示，7B模型在原方法下的推理段落PALR（26.01%）远高于3B（17.26%）。这两个独立的测量工具指向同一个结论：PALR越高的模型，在图片与常识冲突时越容易跟着常识跑。

研究团队还做了一个词级别的可视化分析。以一道“硬币罐内容物统计”题为例，图片里有一张表格，分别列出11枚银币、36枚金币和16枚其他硬币，问总数是多少。ViGOS训练的模型在描述段落里，“table”（表格）、“two columns”（两列）、“11”、“36”、“16”这些词都变成了以图片驱动为主的蓝色词——说明这些数字和结构信息的生成主要依赖图片内容，而不是答案暗示。而在推理段落里，11+36+16的加法计算过程和最终答案“63”附近则出现了以答案驱动为主的红色词——说明在视觉证据已经写明的前提下，答案引导帮助AI完成了计算和格式输出。这种“描述蓝、计算红”的模式，正是ViGOS设计的预期效果。

四、真实考场上的成绩单

研究团队在两种规模（3B和7B参数）的Qwen2.5-VL模型上进行了实验，对比了三种方案：原始基线模型、普通在线自蒸馏（OPSD）和ViGOS。训练数据和计算预算完全相同，只有训练方法不同。

评测基准涵盖了广泛的多模态推理场景。MM-Vet考察综合视觉-语言能力，包括识别、OCR、空间理解和语言生成；MMMU和MMMU-Pro测试专家级跨学科多模态推理，后者相比前者更强调真正的图像理解，减少了文字推理走捷径的空间；MathVerse和MathVista考察视觉数学推理，需要模型真正理解几何图形、图表和数学公式；MMSI、RealWorldQA和CV-Bench则专注于空间关系、计数、深度判断等视觉接地性能力。

从整体数字来看，ViGOS对原始基线的提升是全面的。3B模型的Pass@5平均分（五次采样中至少有一次正确的比例）从60.86%提升到71.97%，Avg@5平均分（五次采样的平均正确率）从27.91%提升到41.35%。7B模型的Pass@5从68.13%提升到75.60%，Avg@5从45.38%提升到50.99%。

把ViGOS和普通OPSD相比，差距没那么悬殊，但有一些值得关注的模式。在3B模型上，ViGOS在Pass@5上略低于OPSD（两者相差不到两个百分点），但在Avg@5上略好。在7B模型上，ViGOS在Pass@5上超过了OPSD，Avg@5基本相当。最明显的差距出现在需要具体图像理解的任务上：RealWorldQA、MMSI、CV-Bench、MathVista这几个需要真正“看懂图”的基准，ViGOS在3B模型上均优于普通OPSD。

Pass@5和Avg@5这两个指标的意义值得解释一下。Pass@5就像考试允许交五份答卷、取其中最好的一份算分，它衡量的是“模型偶尔能想到正确答案”的能力。Avg@5则是五份答卷的平均分，衡量的是“模型每次都能稳定给出正确答案”的能力。ViGOS在Avg@5上的优势意味着，它的答案不是偶然正确，而是更稳定地依赖图片内容进行推理。

五、真正的考验：图片和常识打架时，AI听谁的

上述八个基准主要测试AI在正常情况下的表现，而ViLP才是专门为“图片与常识冲突”设计的压力测试。

ViLP的测试逻辑是这样的：给AI展示一张图，图里的内容违反了某个常见认知，然后问AI一个需要看图回答的问题，同时在题目中提示了那个常见认知。比如，问题说“自由女神像在纽约”，图片却展示了自由女神像出现在巴黎（背景是埃菲尔铁塔），问AI“根据图片，自由女神像在哪个城市”。正确答案是“巴黎”，因为题目明确要求“根据图片”回答。

ViLP有两个核心指标：Score衡量AI在这些冲突问题上正确率（能否真的遵从图片），Prior衡量AI在非冲突问题上的正确率（有没有因为过度矫正而把常识也扔掉了）。理想的模型应该是Score高、Prior也高——能在需要图片时遵从图片，但不会连正常常识都不用了。

实验结果上，ViGOS在所有ViLP测试设置中都取得了最高的Score。以7B模型为例，原始基线的ViLP-F（带有额外事实提示的版本）Score只有42.00%，普通OPSD提升到58.00%，而ViGOS达到62.67%。ViLP-P（纯问题版本）上，原始基线37.00%、OPSD 57.00%、ViGOS 61.67%。Prior指标方面，ViGOS在7B上的两个设置分别是97.00和91.67，与OPSD基本持平或完全相同，说明ViGOS没有因为强调图片而损失常识推理能力。

从训练过程的动态变化来看，研究团队绘制了训练步骤与ViLP分数的关系图。在训练开始时，普通OPSD和ViGOS的起点相同。训练开始后，两者的Prior都保持高位，但Score的走向截然不同：普通OPSD先升后降，到100步时稳定在约0.63；ViGOS持续上升，到100步时达到约0.71。这个动态模式说明，普通OPSD在训练过程中先帮助模型学到了一些图片理解能力，但随后答案驱动的训练信号逐渐主导，把模型往捷径方向拉；而ViGOS的分段设计持续地保护了图片感知阶段不受答案污染，图片遵从能力在训练过程中稳定积累。

六、拆开每个零件检验

为了弄清楚ViGOS的哪个部分最关键，研究团队做了系统的消融实验——就像把一辆车逐个拆掉零件，看少了哪个零件车就开不走了。

去掉感知损失（即不再用纯图片老师来督导描述段落）之后，ViLP Score从69.84降到67.58，CV-Bench也下降了。这说明感知老师的作用是实质性的：如果描述阶段没有被“只能看图”的老师约束，那么描述内容就有可能受到题目文字和答案的影响，视觉锚定效果就会减弱。

去掉推理损失（即不再用特权推理老师来督导推理和答案段落）之后，整体Pass@5和CV-Bench都下降了，但ViLP Score只是小幅下降。这个模式很有意思：少了推理老师，模型在标准任务上的表现下降（毕竟标准任务需要答案引导来学习推理）；但ViLP上的下降不如预期大——因为没有答案引导的推理老师，答案对模型的“绑架”也随之减弱，模型某种程度上更依赖图片，所以对常识偏差的抵抗力没有明显变差。这个现象恰恰印证了核心论点：答案引导是有用的，但它需要被放在正确的位置上，而不是贯穿整个回答流程。

关于参考老师的设计，实验比较了三种方案：用逆向KL散度（ViGOS采用的方式）、用正向KL散度，以及完全去掉参考老师。完全去掉参考老师的影响最大，ViLP Score从69.84骤降到63.25。这说明格式兜底机制是必要的：当AI生成了格式错误的回答时，如果没有参考老师介入，感知老师和推理老师的分工就会因为没有可靠的段落边界而混乱，结果就是特权答案又通过混乱的段落分配渗入了本应被保护的描述阶段。比较逆向KL和正向KL，前者在CV-Bench和ViLP上都略好，所以ViGOS采用逆向KL作为参考老师的损失函数。参考老师的定位是“格式急救室”，而不是“主治医生”，这一点通过上述实验得到了确认。

七、同一道题同一张答卷

一个合理的质疑是：ViGOS要求AI先写图片描述，这个格式要求本身是不是就让AI更认真地看图了，和训练方式无关？

研究团队用一个“同一格式，不同方法”的对照实验来回答这个问题。他们让原始基线模型、普通OPSD和ViGOS都使用同一种包含图片描述的输出格式，然后比较三者的表现。

结果很清楚地说明了问题。加上描述格式要求后，原始基线模型的表现确实有所提升——在MMSI、RealWorldQA、CV-Bench等几个以视觉为核心的基准上，零样本基线已经达到不错的水平，说明格式本身确实有一定的促进作用。但关键在于，普通OPSD在加上这个格式后，表现反而比没有格式要求的原始基线还要差：在MMSI上从66.40/23.88降到了58.00/20.90，在RealWorldQA上从84.05/53.31降到83.92/46.54，Avg@5的下降尤为明显。

这个反直觉的现象说明：如果强制格式要求，但训练时的密集纠正信号仍然是答案条件化的，那么模型反而会学到一种“形似视觉描述、实为向答案靠拢”的文本策略——格式对了，但内容的视觉依据并没有变强，甚至在Avg@5这个衡量稳定性的指标上更差了。ViGOS则在使用相同格式的情况下，在Pass@5和Avg@5上都超过了原始基线和OPSD，并在ViLP Score上同样取得最佳结果。由此，研究团队得出结论：ViGOS的效果主要来自分段监督的设计，而不是格式提示本身。

八、五个“AI被常识带偏”的真实案例

研究团队在ViLP的定性分析中展示了五个具体的错误案例，清晰地说明了两种训练方法的行为差异。

案例一，地标位置问题：图片展示自由女神像出现在巴黎背景下（埃菲尔铁塔清晰可见），题目提示“自由女神像在纽约”，问AI图中自由女神像在哪个城市。OPSD的推理注意到了巴黎的视觉特征，但最终判断“题目是在考真实位置，所以答案是NYC”。ViGOS则在描述中明确写出“背景可见城市景观和一座塔及一座桥，具有巴黎的特征，埃菲尔铁塔清晰可见”，然后在推理中依据描述得出“Paris”。

案例二，文字冲突问题：图片上显示“1 km = 200 m”，题目提示“1公里等于1000米”，问AI图中显示的换算结果是多少。OPSD读出了图片上的等式，但认为它是错的，最终答案是“1000”。ViGOS描述了图片上的视觉方程式，认识到题目问的是“图片显示的结果”，答案是“200”。

案例三，动物大小先验：图片中大象明显比长颈鹿高，题目提示“长颈鹿很高”，问图中在河边喝水的最高动物是哪个。OPSD依据“长颈鹿颈部比象鼻更长”的先验推断长颈鹿更高，答案是“Giraffe”。ViGOS在描述中注意到“大象在左，长颈鹿在右，两者都在喝水”，在推理中根据图中两者的相对大小判断“大象看起来明显更高”，答案是“Elephant”。

案例四，生物先验问题：图片展示了一条鱼的解剖图，突出显示了类似人类肺部的结构，题目提示“鳃让鱼能在水下呼吸”，问图中帮助鱼呼吸的是什么。OPSD注意到了图片里的肺部结构，但最终判断图片是在“模拟鳃的功能”，答案是“Gills”。ViGOS描述了“鱼体内明显的肺部分支结构”，推理中指出“虽然题目提到了鳃，但图片中突出显示的是肺部”，答案是“Lungs”。

案例五，工具使用先验：图片中一只啄木鸟正在用手锯切割树桩，题目提示“啄木鸟通常用嘴寻找虫子”，问图中啄木鸟用什么来寻找虫子。OPSD认为图片是“不寻常的人工设定”，啄木鸟通常用嘴，所以答案是“Beaks”。ViGOS描述了“啄木鸟用手锯切入树桩，树桩里有大量虫子”，推理得出“图中使用的工具是锯”，答案是“Saw”。

这五个案例呈现了一个一致的规律：OPSD通常能在推理中提到关键的视觉线索，但最终答案仍然被常识或题目提示所主导；ViGOS通过先将视觉证据写成描述，让这些证据在推理阶段已经作为“既成事实”存在于上下文中，从而在最终决策时给了图片更重的权重。

说到底，ViGOS解决的问题看起来是个技术细节，但背后触及了一个更深的问题：当AI同时接收多种类型的信息时，它是否在真正地“用眼睛看”，还是只是在用已知的结论来填充一段听起来有理有据的分析？

目前的研究展示了一个积极的方向：通过在训练时给“看图”和“推理”两个阶段分配不同的监督信号，可以在不大幅牺牲整体性能的前提下，显著提升AI在图片与常识冲突时对图片的遵从度。这对于未来的实际应用非常重要——无论是医学影像诊断、自动驾驶场景理解，还是读图辅助决策，AI都需要真正看懂图片，而不是用常识来凑数。

当然，研究团队也坦承了现有局限：AI生成的图片描述可能不完整或不准确；纯图片感知老师在没有题目文字的情况下可能生成偏泛化的描述；训练时需要同时运行多个“老师”版本的模型，计算开销增加。这些都是未来需要继续改进的方向。

Q&A

Q1：ViGOS和普通的在线自蒸馏训练方法有什么区别？

A：普通在线自蒸馏用一个知道正确答案的“特权老师”来监督AI回答的每一个词，包括描述图片的部分，导致AI在写描述时就受到答案影响，学会了绕开图片走捷径。ViGOS把回答拆成“图片描述”和“推理答案”两段，前者只用一个不知道答案、只能看图的感知老师来监督，后者才用特权老师，从而保证图片描述阶段不受答案污染。

Q2：PALR（特权答案泄露率）是什么，怎么理解它的数值？

A：PALR是研究团队设计的一个诊断指标，用来测量AI训练时的纠正信号有多少比例来自已知答案而非图片内容。检测方法是固定AI生成的回答，然后分别用正确答案和错误答案来给每个词打分，差距越大说明答案影响越大。普通在线自蒸馏在7B模型上推理段落的PALR高达26%，ViGOS把它压低到约7.5%，说明答案对推理段落的“绑架”程度大幅降低。

Q3：ViGOS在图片与常识冲突的任务上为什么比普通方法更好？

A：普通在线自蒸馏训练时，答案从一开始就影响模型的每一步生成，模型学会了写出“和答案自洽的推理”，而不是“基于图片的推理”。当图片和常识冲突时，模型往往会选常识那边。ViGOS通过强制先生成纯图片描述，并用只看图片的老师来监督这一步，让图片内容作为“已写明的事实”进入后续推理上下文，在最终决策时给了图片更高的权重，所以在图片与常识矛盾的测试中表现更好。