北京智源揭示人工智能看图说话错误根本原因与解决方案

2026-06-16阅读 0热度 0

解决方案

由北京智源人工智能研究院（BAAI）、意大利特伦托大学、新加坡管理大学及IQuest Research联合完成的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.08035。需要深入研读的读者可直接通过该编号检索完整论文。

一个孩子解答几何题时，会交替注视图中的角度数值、在草稿纸上推算、再回头确认某条线是否平行——这种在“视觉感知”与“逻辑推理”间灵活切换的能力，对人类而言轻而易举。但对当前最先进的多模态AI大模型来说，这恰恰是一个长期被掩盖的关键缺陷。

研究团队早已注意到一个令人困扰的现象：即使经过精心训练的AI模型，在视觉推理任务上也频繁出错。它们有时会“误读图像”——把图中明明是80度的角描述为其他数值；有时会“逻辑断裂”——前一秒刚确认某个角是80度，下一秒就毫无根据地声称另一个角与之相等。两类错误看似不同，但团队怀疑它们共享同一根源。围绕这个假设，他们展开了一系列深入分析，最终定位到问题症结，并提出了名为DyCo-RL（动态跨模态协调强化学习）的解决方案。

一、AI在视觉推理中频繁“走神”的深层原因

要理解这项研究的具体价值，可以将AI模型的推理过程类比为一个学生在课堂上解题。该学生有两份材料：一张印有图形的试卷（视觉信息），以及自己刚刚写下的解题步骤（文本信息）。解题时需要在这两份材料间频繁切换——有时要低头看图确认数值，有时要盯着推导过程继续运算。

当前训练AI进行视觉推理的主流方法称为“基于可验证奖励的强化学习”（RLVR）。简言之，就是让AI大量刷题，答对给予奖励，答错不给奖励，通过反复练习提升能力。该方法本身没有问题，但它存在一个根本性盲点：只关心AI的最终答案是否正确，完全忽略AI在解题过程中如何分配注意力。

这好比一位教师批改作业，只看最终答案对错，从不审阅解题步骤。如果学生养成了坏习惯——该看图时发呆，该推理时乱翻图——教师无从察觉，更不会纠正。久而久之，这种坏习惯便固化下来，成为答题失误的根源。

研究团队将这种问题定义为“跨模态协调崩溃”。具体而言，AI在生成推理过程中，某些词语（如描述图中角度的词）本应主要“调用图片信息”，另一些词语（如基于前面推导结论的词）本应主要“参考之前生成的文字”。但实际情况是，这两类词语均未恰当地依赖各自该参考的信息源，从而导致推理频繁出错。

二、深入AI内部：用“注意力轨迹”为错误做X光检查

为证明这个假设并非空想，研究团队设计了一套精密的诊断方案，相当于对AI的推理过程进行全程X光扫描。

他们选取了经过标准强化学习训练的Qwen2.5-VL-3B模型，从两个数学视觉推理数据集中收集了200个错误案例。随后，请来多位具备研究生数学水平的标注员，将AI生成的每个词（更确切地说是每个语义片段）打上标签：该词属于“看图描述”还是“基于已有文字推理”？标注结果是否正确？

经过这一流程，每个词被分入四个组之一。“正确的看图词”指那些准确描述图像内容的词，如正确读出了角度数值。“错误的看图词”指那些试图描述图片但说错了的词，比如把60度的角说成80度。“正确的推理词”指那些基于前面推导步骤做出有效逻辑推断的词。“错误的推理词”则是那些逻辑跳跃、自相矛盾或无中生有的词。

接下来，团队分析了每组词的“注意力分配模式”——即这些词在生成时，有多少注意力放在了图片上，有多少放在了之前写下的文字上。结果非常清晰：正确的看图词对图片的注意力显著更高；错误的看图词对图片的注意力反而更低。对称地，正确的推理词更专注于之前的文字，错误的推理词对文字的关注度也更低。

这说明注意力分配与词语是否正确之间存在显著关联。但关联不等于因果——可能是词语本身错了才导致注意力异常，而非注意力异常导致词语出错。为区分这两种可能，团队又进行了一项“手术实验”。

他们定位到那些“该看图但没认真看图”的错误词，在AI生成这些词时人为提升其对图片的注意力；同样地，对于“该看文字但没认真看文字”的错误词，人为增强其对之前文字的注意力。通过调整控制增强强度的参数，团队发现：适度增强确实能纠正AI之前的错误，输出正确答案——恢复率相当可观；而过度增强则会适得其反，破坏原有的注意力平衡。

这一实验确立了因果关系：注意力分配不当是引发推理错误的真实原因，绝非伴随现象。至此，问题根源被锁定，接下来便是如何解决。

三、DyCo-RL：为每个词定制专属的学习信号

研究团队提出的DyCo-RL方案，核心思路可以借助体育教练的比喻来理解。传统训练方式是：一场比赛结束后，根据最终比分对所有队员给出统一评价——赢了都夸，输了都骂。这种方式忽略了每个队员在比赛中的具体表现。DyCo-RL的做法则是：记录每个队员在每个时刻的具体行为，依据各自职责评估其表现，再给予针对性反馈。

DyCo-RL的工作流程分为两个阶段，两阶段紧密衔接，共同完成这种精细化的训练。

第一阶段是“为每个词分配职责”。研究团队需要一种自动化方式来判断：AI在生成某个词时，其主要职责是看图还是推理？他们选用了一种名为Fisher-Rao测地距离的数学工具来完成这一判断。

该工具听起来复杂，但背后的直觉十分简单。当AI生成一个词时，可以观测这个词对图片内部各位置的注意力分布，以及对之前文字各部分的注意力分布。再将该词与上一个词的注意力分布进行比较：如果图片的注意力分布发生了显著重排（比如上一个词主要看左侧，这个词突然开始主要看右侧），说明该词正在从图片中主动提取新信息，应判定为“视觉导向词”。如果文字的注意力分布发生了显著重排，则判定为“文字导向词”。若两者变化均不明显，则视为“中性词”，不做特殊处理。

研究团队特意选择Fisher-Rao距离而非其他常见相似度度量（如KL散度），因为该距离在数学上具有对称性和有界性，对噪声较多的注意力数据更加稳定可靠。后续对比实验也证实了这一选择的优越性。

第二阶段是“根据职责表现调整学习信号”。确定每个词的职责后，DyCo-RL会评估该词是否名副其实。对于判定为视觉导向的词，检查它对图片的实际注意力比例；对于文字导向词，检查它对之前文字的注意力比例。这个“职责履行程度”被量化为一个对齐分数。

在强化学习训练中，AI的学习方向取决于一个称为“优势”的信号——大致可理解为“这个词的表现比平均水平好多少”。传统方法对一个回答中的所有词使用同一优势值。DyCo-RL则将这一统一优势值，依据每个词的对齐分数进行重新加权：对齐分数高的词（职责履行得好）获得更强的学习信号，鼓励AI巩固这类行为；对齐分数低的词获得较弱的学习信号，减少这类错误模式被强化的概率。

这套机制的设计相当精妙：并非简单惩罚错误词或奖励正确词，而是在词语本身正确或错误的基础上，叠加一层“过程质量”的评估。即便某个词的答案最终正确，但生成时注意力分配混乱，也不会获得额外加分；反之，一个词若注意力分配非常合理，即便整体回答最终错误，这种良好行为也会被适当保留。

四、实验验证：七个战场，四种算法，全面碾压

为证明DyCo-RL并非仅在某种特定设置下有效，研究团队设计了一套相当全面的验证体系。

实验在两种规模的模型上进行：参数量30亿的Qwen2.5-VL-3B和70亿的Qwen2.5-VL-7B。训练数据采用ThinkLite-hard-11K数据集，包含11031个复杂推理样本。

更关键的是，研究团队将DyCo-RL作为插件，分别挂载在四种不同的强化学习算法上进行测试。这四种算法代表了当前主流的优化思路：GRPO依赖组内奖励归一化；DAPO引入不对称裁剪和动态采样策略；SAPO采用基于Sigmoid的软门控机制；GSPO在整个轨迹层面计算累积似然比。四种算法的内部机制差异显著，若DyCo-RL在所有四种上均能带来提升，则证明它解决的是一个更底层的共性问题。

评估采用了七个基准测试，覆盖两大领域。数学推理方向包括WeMath、MathVision和MathVerse，分别从不同角度测试视觉数学推理能力。视觉推理方向包括LogicVista、HallusionBench、MME和MMBench，重点测试视觉感知准确性、抗幻觉能力和综合多模态理解能力。

结果相当令人满意。在30亿模型上，GRPO加入DyCo-RL后，七个基准的平均分从44.9提升至46.7；DAPO从44.5提升至46.8；SAPO从45.8提升至47.3；GSPO从44.8提升至46.0。在70亿模型上，提升幅度同样稳定：GRPO从55.6升至58.3，DAPO从52.2升至54.8，SAPO从55.0升至55.8，GSPO从53.4升至56.5。单项最大提升幅度达到13.1分（MMBench上的GRPO+DyCo-RL对比GRPO基线）。

这些提升并非只集中在某一类任务上。DyCo-RL在视觉密集型任务（如HallusionBench和MME）上增强了视觉证据的准确提取，同时在纯数学推理任务上也保持甚至改善了逻辑连贯性。这种“鱼与熊掌兼得”的结果，正是研究团队最期望看到的——它证明了提升视觉感知与保持推理质量并不矛盾，两者可通过更好的协调机制同时实现。

五、拆开来看：每个零件都经过严格检验

为确认DyCo-RL的每个组件都是必要的，研究团队做了一系列拆解实验，相当于把这台机器的零件逐一拆下来看看少了哪个会出问题。

关于“如何为词分配职责”这个问题，团队尝试了四种替代方案并与DyCo-RL进行对比。随机分配（纯粹随机给每个词加权）的结果只有微弱的不稳定提升，说明乱加权基本上等同于加噪声。反向分配（故意颠倒职责，让视觉词去对齐文字注意力，反之亦然）造成了所有方案中最严重的性能下滑——这个反向结果实际上是最有力的证据之一：它说明DyCo-RL的职责判断方向是正确的，因为颠倒方向会让事情变得更糟。基于熵的方案（用单个时刻注意力分布的集中程度来判断职责）比随机稍好，但因它只看单一时刻的快照，无法捕捉注意力的动态变化。基于KL散度的方案（同样比较相邻时刻的注意力分布变化）更接近DyCo-RL的思路，性能也相当不错，但由于KL散度在数学上不对称，在复杂的跨模态场景中不够稳健。最终，使用Fisher-Rao距离的完整DyCo-RL在所有基准上取得了最佳平均成绩。

关于“如何利用职责信息调整学习信号”这个问题，团队测试了两种极端替代方案：对所有词统一使用视觉注意力分数，或统一使用文字注意力分数。结果非常直观：统一使用视觉分数会让视觉任务变好但数学推理变差；统一使用文字分数则结果相反。这说明单纯鼓励模型“多看图”或“多看文字”是不够的，关键在于根据每个词的具体职责动态切换——这正是DyCo-RL的核心设计理念。

团队还测试了“奖励塑形”这种替代路线，即把对齐分数直接加到每个回答的总奖励里，而不是用来调整优势权重。这种方案偶尔能超过基线，但整体不稳定，平均表现比DyCo-RL的优势重加权方案差。原因在于：直接修改奖励会在组归一化之前改变奖励的尺度和方差，导致优势估计引入额外噪声，使训练不稳定。而优势重加权是在基线计算完成之后才注入精细化信号，不会扰动整体的统计稳定性。

六、深入AI内心：DyCo-RL究竟改变了什么

除了基准测试的数字提升，研究团队还专门调查了DyCo-RL在AI内部究竟发生了哪些变化，相当于在数字提升背后找到了机制层面的解释。

团队从MathVerse和MathVision上各采样了200个生成案例，分别来自标准GRPO和加了DyCo-RL的GRPO版本，然后用相同的标注协议标记每个词的职责类型，对比两个模型的内部注意力分配。

结果显示，DyCo-RL训练后的模型，在视觉导向词上对图片的平均注意力比例提高了约0.6个百分点，而对文字的关注度下降了约0.8个百分点；在文字导向词上，对文字的关注提高了约2.1个百分点，对图片的关注下降了约1.4个百分点。这些变化的方向完全符合预期：视觉词变得更“专心看图”，文字词变得更“专心看字”。

更有意思的是时间维度上的变化。标准GRPO训练出来的模型呈现出一种固化的“先感知后推理”模式：视觉导向词主要集中在推理过程的前期（相对位置0到0.4的区间），文字导向词则主要出现在后期。这就像一个学生做题时，先花固定时间看图，然后把图一合不再看，开始纯靠脑子推导——实际上很多时候需要中途回头看图验证。

DyCo-RL打破了这种僵化模式。训练后的模型，视觉导向词在推理中期（0.4到0.6的区间）维持了更高的存在频率，实现了“边推理边回头看图”的效果；与此同时，文字导向词在前期也有更早的出现，整体分布更加均匀。这种“视觉和推理交替穿插”的模式，正是人类解决复杂视觉推理问题时的自然策略。

七、超出预期的泛化能力与客观存在的局限

研究团队还担心一个问题：DyCo-RL的训练数据主要来自视觉数学推理，那么它学到的对齐机制会不会只在这个特定场景下有效，换了别的任务就不灵了？

为验证这一点，他们把训练好的模型拿去测试了五个完全不同类型的任务：A-OKVQA（需要常识的视觉问答）、RealWorldQA（真实世界场景理解）、MMStar（综合多模态评测）、SEED-Bench图像版和ChartQA（图表理解）。在所有五个任务上，DyCo-RL版本都超过了标准GRPO基线，且没有出现明显的过拟合迹象。这说明跨模态协调能力并不只是在数学题上才有用，它是一种更通用的多模态推理能力。

当然，这项研究也有两个清醒的局限。在计算开销上，DyCo-RL在训练时需要为每个生成的词计算Fisher-Rao距离和角色分配，这使得训练吞吐量下降了约27%。不过，这个额外开销完全发生在训练阶段；推理部署时，模型和普通版本完全相同，没有任何速度损失。在规模验证上，所有实验都在30亿和70亿参数规模上进行，对于数百亿甚至千亿参数的更大模型，这套机制是否同样有效，还需要进一步验证。

说到底，这项研究揭示了一个长期被忽视但影响深远的问题：AI在做视觉推理时的注意力分配机制，与最终答案的正确性之间存在真实的因果联系。以往的训练方法只盯着最终答案，相当于只看成绩单、不看学习过程，导致AI养成了一种低效甚至有害的注意力习惯——该看图时没认真看，该专注推理时又心猿意马。DyCo-RL把这个隐藏的过程问题显式化，并将其纳入训练目标，让AI在强化学习过程中同时优化“答对”和“正确地使用注意力”两件事。

这对普通人的生活意味着什么？随着AI越来越多地被用于读取医疗影像、分析卫星图像、辅助课程讲解或处理复杂文档，AI在“视觉感知”和“逻辑推理”之间的协调能力将直接影响这些应用的可靠性。一个看图说话频繁出错的AI助手，不只是令人烦恼，在高风险场景下还可能造成实质性的危害。从这个角度看，这项研究探索的方向——让AI更像人类一样灵活地在看和想之间切换——是让AI真正值得信赖的必要前提之一。

对跨模态协调机制感兴趣、或者想进一步了解DyCo-RL技术细节的读者，可以通过arXiv论文编号2606.08035查阅完整原文，研究代码也已在GitHub公开。

Q&A

Q1：DyCo-RL解决的是什么问题？
A：DyCo-RL解决的是多模态AI模型在做视觉推理时“注意力分配混乱”的问题。具体来说，AI在生成推理文字时，该看图的词没认真看图，该基于已有文字推理的词也没专注于之前的文字，导致视觉幻觉和逻辑不连贯等错误频繁出现。DyCo-RL通过给每个词分配明确职责并相应调整训练信号，让AI学会在视觉感知和文字推理之间更灵活地切换。

Q2：Fisher-Rao距离在DyCo-RL里起什么作用？
A：Fisher-Rao测地距离是DyCo-RL用来判断每个生成词“职责类型”的核心工具。它通过比较AI生成相邻两个词时，对图片内部各位置的注意力分布变化幅度，以及对已有文字各部分的注意力分布变化幅度，来判断这个词主要是在从图片中提取信息还是在整合已有文字推理。选择它而非KL散度等其他方案，是因为它在数学上具有对称性和有界性，对注意力数据中的噪声更加稳健。

Q3：DyCo-RL训练出来的模型推理速度会变慢吗？
A：不会。DyCo-RL的计算开销只发生在训练阶段，训练吞吐量会下降约27%。但一旦训练完成，最终得到的模型和普通版本在结构上完全一致，推理部署时没有任何额外计算，运行速度与基础模型相同。用户在使用DyCo-RL训练的模型时，不会感受到任何性能差异。