北京智源揭示人工智能看图说话错误根本原因与解决方案

2026-06-16阅读 0热度 0
解决方案

由北京智源人工智能研究院(BAAI)、意大利特伦托大学、新加坡管理大学及IQuest Research联合完成的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.08035。需要深入研读的读者可直接通过该编号检索完整论文。

当AI

一个孩子解答几何题时,会交替注视图中的角度数值、在草稿纸上推算、再回头确认某条线是否平行——这种在“视觉感知”与“逻辑推理”间灵活切换的能力,对人类而言轻而易举。但对当前最先进的多模态AI大模型来说,这恰恰是一个长期被掩盖的关键缺陷。

研究团队早已注意到一个令人困扰的现象:即使经过精心训练的AI模型,在视觉推理任务上也频繁出错。它们有时会“误读图像”——把图中明明是80度的角描述为其他数值;有时会“逻辑断裂”——前一秒刚确认某个角是80度,下一秒就毫无根据地声称另一个角与之相等。两类错误看似不同,但团队怀疑它们共享同一根源。围绕这个假设,他们展开了一系列深入分析,最终定位到问题症结,并提出了名为DyCo-RL(动态跨模态协调强化学习)的解决方案。

一、AI在视觉推理中频繁“走神”的深层原因

要理解这项研究的具体价值,可以将AI模型的推理过程类比为一个学生在课堂上解题。该学生有两份材料:一张印有图形的试卷(视觉信息),以及自己刚刚写下的解题步骤(文本信息)。解题时需要在这两份材料间频繁切换——有时要低头看图确认数值,有时要盯着推导过程继续运算。

当前训练AI进行视觉推理的主流方法称为“基于可验证奖励的强化学习”(RLVR)。简言之,就是让AI大量刷题,答对给予奖励,答错不给奖励,通过反复练习提升能力。该方法本身没有问题,但它存在一个根本性盲点:只关心AI的最终答案是否正确,完全忽略AI在解题过程中如何分配注意力。

这好比一位教师批改作业,只看最终答案对错,从不审阅解题步骤。如果学生养成了坏习惯——该看图时发呆,该推理时乱翻图——教师无从察觉,更不会纠正。久而久之,这种坏习惯便固化下来,成为答题失误的根源。

研究团队将这种问题定义为“跨模态协调崩溃”。具体而言,AI在生成推理过程中,某些词语(如描述图中角度的词)本应主要“调用图片信息”,另一些词语(如基于前面推导结论的词)本应主要“参考之前生成的文字”。但实际情况是,这两类词语均未恰当地依赖各自该参考的信息源,从而导致推理频繁出错。

二、深入AI内部:用“注意力轨迹”为错误做X光检查

为证明这个假设并非空想,研究团队设计了一套精密的诊断方案,相当于对AI的推理过程进行全程X光扫描。

他们选取了经过标准强化学习训练的Qwen2.5-VL-3B模型,从两个数学视觉推理数据集中收集了200个错误案例。随后,请来多位具备研究生数学水平的标注员,将AI生成的每个词(更确切地说是每个语义片段)打上标签:该词属于“看图描述”还是“基于已有文字推理”?标注结果是否正确?

经过这一流程,每个词被分入四个组之一。“正确的看图词”指那些准确描述图像内容的词,如正确读出了角度数值。“错误的看图词”指那些试图描述图片但说错了的词,比如把60度的角说成80度。“正确的推理词”指那些基于前面推导步骤做出有效逻辑推断的词。“错误的推理词”则是那些逻辑跳跃、自相矛盾或无中生有的词。

接下来,团队分析了每组词的“注意力分配模式”——即这些词在生成时,有多少注意力放在了图片上,有多少放在了之前写下的文字上。结果非常清晰:正确的看图词对图片的注意力显著更高;错误的看图词对图片的注意力反而更低。对称地,正确的推理词更专注于之前的文字,错误的推理词对文字的关注度也更低。

这说明注意力分配与词语是否正确之间存在显著关联。但关联不等于因果——可能是词语本身错了才导致注意力异常,而非注意力异常导致词语出错。为区分这两种可能,团队又进行了一项“手术实验”。

他们定位到那些“该看图但没认真看图”的错误词,在AI生成这些词时人为提升其对图片的注意力;同样地,对于“该看文字但没认真看文字”的错误词,人为增强其对之前文字的注意力。通过调整控制增强强度的参数,团队发现:适度增强确实能纠正AI之前的错误,输出正确答案——恢复率相当可观;而过度增强则会适得其反,破坏原有的注意力平衡。

这一实验确立了因果关系:注意力分配不当是引发推理错误的真实原因,绝非伴随现象。至此,问题根源被锁定,接下来便是如何解决。

三、DyCo-RL:为每个词定制专属的学习信号

研究团队提出的DyCo-RL方案,核心思路可以借助体育教练的比喻来理解。传统训练方式是:一场比赛结束后,根据最终比分对所有队员给出统一评价——赢了都夸,输了都骂。这种方式忽略了每个队员在比赛中的具体表现。DyCo-RL的做法则是:记录每个队员在每个时刻的具体行为,依据各自职责评估其表现,再给予针对性反馈。

DyCo-RL的工作流程分为两个阶段,两阶段紧密衔接,共同完成这种精细化的训练。

第一阶段是“为每个词分配职责”。研究团队需要一种自动化方式来判断:AI在生成某个词时,其主要职责是看图还是推理?他们选用了一种名为Fisher-Rao测地距离的数学工具来完成这一判断。

该工具听起来复杂,但背后的直觉十分简单。当AI生成一个词时,可以观测这个词对图片内部各位置的注意力分布,以及对之前文字各部分的注意力分布。再将该词与上一个词的注意力分布进行比较:如果图片的注意力分布发生了显著重排(比如上一个词主要看左侧,这个词突然开始主要看右侧),说明该词正在从图片中主动提取新信息,应判定为“视觉导向词”。如果文字的注意力分布发生了显著重排,则判定为“文字导向词”。若两者变化均不明显,则视为“中性词”,不做特殊处理。

研究团队特意选择Fisher-Rao距离而非其他常见相似度度量(如KL散度),因为该距离在数学上具有对称性和有界性,对噪声较多的注意力数据更加稳定可靠。后续对比实验也证实了这一选择的优越性。

第二阶段是“根据职责表现调整学习信号”。确定每个词的职责后,DyCo-RL会评估该词是否名副其实。对于判定为视觉导向的词,检查它对图片的实际注意力比例;对于文字导向词,检查它对之前文字的注意力比例。这个“职责履行程度”被量化为一个对齐分数。

在强化学习训练中,AI的学习方向取决于一个称为“优势”的信号——大致可理解为“这个词的表现比平均水平好多少”。传统方法对一个回答中的所有词使用同一优势值。DyCo-RL则将这一统一优势值,依据每个词的对齐分数进行重新加权:对齐分数高的词(职责履行得好)获得更强的学习信号,鼓励AI巩固这类行为;对齐分数低的词获得较弱的学习信号,减少这类错误模式被强化的概率。

这套机制的设计相当精妙:并非简单惩罚错误词或奖励正确词,而是在词语本身正确或错误的基础上,叠加一层“过程质量”的评估。即便某个词的答案最终正确,但生成时注意力分配混乱,也不会获得额外加分;反之,一个词若注意力分配非常合理,即便整体回答最终错误,这种良好行为也会被适当保留。

四、实验验证:七个战场,四种算法,全面碾压

为证明DyCo-RL并非仅在某种特定设置下有效,研究团队设计了一套相当全面的验证体系。

实验在两种规模的模型上进行:参数量30亿的Qwen2.5-VL-3B和70亿的Qwen2.5-VL-7B。训练数据采用ThinkLite-hard-11K数据集,包含11031个复杂推理样本。

更关键的是,研究团队将DyCo-RL作为插件,分别挂载在四种不同的强化学习算法上进行测试。这四种算法代表了当前主流的优化思路:GRPO依赖组内奖励归一化;DAPO引入不对称裁剪和动态采样策略;SAPO采用基于Sigmoid的软门控机制;GSPO在整个轨迹层面计算累积似然比。四种算法的内部机制差异显著,若DyCo-RL在所有四种上均能带来提升,则证明它解决的是一个更底层的共性问题。

评估采用了七个基准测试,覆盖两大领域。数学推理方向包括WeMath、MathVision和MathVerse,分别从不同角度测试视觉数学推理能力。视觉推理方向包括LogicVista、HallusionBench、MME和MMBench,重点测试视觉感知准确性、抗幻觉能力和综合多模态理解能力。

结果相当令人满意。在30亿模型上,GRPO加入DyCo-RL后,七个基准的平均分从44.9提升至46.7;DAPO从44.5提升至46.8;SAPO从45.8提升至47.3;GSPO从44.8提升至46.0。在70亿模型上,提升幅度同样稳定:GRPO从55.6升至58.3,DAPO从52.2升至54.8,SAPO从55.0升至55.8,GSPO从53.4升至56.5。单项最大提升幅度达到13.1分(MMBench上的GRPO+DyCo-RL对比GRPO基线)。

这些提升并非只集中在某一类任务上。DyCo-RL在视觉密集型任务(如HallusionBench和MME)上增强了视觉证据的准确提取,同时在纯数学推理任务上也保持甚至改善了逻辑连贯性。这种“鱼与熊掌兼得”的结果,正是研究团队最期望看到的——它证明了提升视觉感知与保持推理质量并不矛盾,两者可通过更好的协调机制同时实现。

五、拆开来看:每个零件都经过严格检验

为确认DyCo-RL的每个组件都是必要的,研究团队做了一系列拆解实验,相当于把这台机器的零件逐一拆下来看看少了哪个会出问题。

关于“如何为词分配职责”这个问题,团队尝试了四种替代方案并与DyCo-RL进行对比。随机分配(纯粹随机给每个词加权)的结果只有微弱的不稳定提升,说明乱加权基本上等同于加噪声。反向分配(故意颠倒职责,让视觉词去对齐文字注意力,反之亦然)造成了所有方案中最严重的性能下滑——这个反向结果实际上是最有力的证据之一:它说明DyCo-RL的职责判断方向是正确的,因为颠倒方向会让事情变得更糟。基于熵的方案(用单个时刻注意力分布的集中程度来判断职责)比随机稍好,但因它只看单一时刻的快照,无法捕捉注意力的动态变化。基于KL散度的方案(同样比较相邻时刻的注意力分布变化)更接近DyCo-RL的思路,性能也相当不错,但由于KL散度在数学上不对称,在复杂的跨模态场景中不够稳健。最终,使用Fisher-Rao距离的完整DyCo-RL在所有基准上取得了最佳平均成绩。

关于“如何利用职责信息调整学习信号”这个问题,团队测试了两种极端替代方案:对所有词统一使用视觉注意力分数,或统一使用文字注意力分数。结果非常直观:统一使用视觉分数会让视觉任务变好但数学推理变差;统一使用文字分数则结果相反。这说明单纯鼓励模型“多看图”或“多看文字”是不够的,关键在于根据每个词的具体职责动态切换——这正是DyCo-RL的核心设计理念。

团队还测试了“奖励塑形”这种替代路线,即把对齐分数直接加到每个回答的总奖励里,而不是用来调整优势权重。这种方案偶尔能超过基线,但整体不稳定,平均表现比DyCo-RL的优势重加权方案差。原因在于:直接修改奖励会在组归一化之前改变奖励的尺度和方差,导致优势估计引入额外噪声,使训练不稳定。而优势重加权是在基线计算完成之后才注入精细化信号,不会扰动整体的统计稳定性。

六、深入AI内心:DyCo-RL究竟改变了什么

除了基准测试的数字提升,研究团队还专门调查了DyCo-RL在AI内部究竟发生了哪些变化,相当于在数字提升背后找到了机制层面的解释。

团队从MathVerse和MathVision上各采样了200个生成案例,分别来自标准GRPO和加了DyCo-RL的GRPO版本,然后用相同的标注协议标记每个词的职责类型,对比两个模型的内部注意力分配。

结果显示,DyCo-RL训练后的模型,在视觉导向词上对图片的平均注意力比例提高了约0.6个百分点,而对文字的关注度下降了约0.8个百分点;在文字导向词上,对文字的关注提高了约2.1个百分点,对图片的关注下降了约1.4个百分点。这些变化的方向完全符合预期:视觉词变得更“专心看图”,文字词变得更“专心看字”。

更有意思的是时间维度上的变化。标准GRPO训练出来的模型呈现出一种固化的“先感知后推理”模式:视觉导向词主要集中在推理过程的前期(相对位置0到0.4的区间),文字导向词则主要出现在后期。这就像一个学生做题时,先花固定时间看图,然后把图一合不再看,开始纯靠脑子推导——实际上很多时候需要中途回头看图验证。

DyCo-RL打破了这种僵化模式。训练后的模型,视觉导向词在推理中期(0.4到0.6的区间)维持了更高的存在频率,实现了“边推理边回头看图”的效果;与此同时,文字导向词在前期也有更早的出现,整体分布更加均匀。这种“视觉和推理交替穿插”的模式,正是人类解决复杂视觉推理问题时的自然策略。

七、超出预期的泛化能力与客观存在的局限

研究团队还担心一个问题:DyCo-RL的训练数据主要来自视觉数学推理,那么它学到的对齐机制会不会只在这个特定场景下有效,换了别的任务就不灵了?

为验证这一点,他们把训练好的模型拿去测试了五个完全不同类型的任务:A-OKVQA(需要常识的视觉问答)、RealWorldQA(真实世界场景理解)、MMStar(综合多模态评测)、SEED-Bench图像版和ChartQA(图表理解)。在所有五个任务上,DyCo-RL版本都超过了标准GRPO基线,且没有出现明显的过拟合迹象。这说明跨模态协调能力并不只是在数学题上才有用,它是一种更通用的多模态推理能力。

当然,这项研究也有两个清醒的局限。在计算开销上,DyCo-RL在训练时需要为每个生成的词计算Fisher-Rao距离和角色分配,这使得训练吞吐量下降了约27%。不过,这个额外开销完全发生在训练阶段;推理部署时,模型和普通版本完全相同,没有任何速度损失。在规模验证上,所有实验都在30亿和70亿参数规模上进行,对于数百亿甚至千亿参数的更大模型,这套机制是否同样有效,还需要进一步验证。

说到底,这项研究揭示了一个长期被忽视但影响深远的问题:AI在做视觉推理时的注意力分配机制,与最终答案的正确性之间存在真实的因果联系。以往的训练方法只盯着最终答案,相当于只看成绩单、不看学习过程,导致AI养成了一种低效甚至有害的注意力习惯——该看图时没认真看,该专注推理时又心猿意马。DyCo-RL把这个隐藏的过程问题显式化,并将其纳入训练目标,让AI在强化学习过程中同时优化“答对”和“正确地使用注意力”两件事。

这对普通人的生活意味着什么?随着AI越来越多地被用于读取医疗影像、分析卫星图像、辅助课程讲解或处理复杂文档,AI在“视觉感知”和“逻辑推理”之间的协调能力将直接影响这些应用的可靠性。一个看图说话频繁出错的AI助手,不只是令人烦恼,在高风险场景下还可能造成实质性的危害。从这个角度看,这项研究探索的方向——让AI更像人类一样灵活地在看和想之间切换——是让AI真正值得信赖的必要前提之一。

对跨模态协调机制感兴趣、或者想进一步了解DyCo-RL技术细节的读者,可以通过arXiv论文编号2606.08035查阅完整原文,研究代码也已在GitHub公开。

Q&A

Q1:DyCo-RL解决的是什么问题?
A:DyCo-RL解决的是多模态AI模型在做视觉推理时“注意力分配混乱”的问题。具体来说,AI在生成推理文字时,该看图的词没认真看图,该基于已有文字推理的词也没专注于之前的文字,导致视觉幻觉和逻辑不连贯等错误频繁出现。DyCo-RL通过给每个词分配明确职责并相应调整训练信号,让AI学会在视觉感知和文字推理之间更灵活地切换。

Q2:Fisher-Rao距离在DyCo-RL里起什么作用?
A:Fisher-Rao测地距离是DyCo-RL用来判断每个生成词“职责类型”的核心工具。它通过比较AI生成相邻两个词时,对图片内部各位置的注意力分布变化幅度,以及对已有文字各部分的注意力分布变化幅度,来判断这个词主要是在从图片中提取信息还是在整合已有文字推理。选择它而非KL散度等其他方案,是因为它在数学上具有对称性和有界性,对注意力数据中的噪声更加稳健。

Q3:DyCo-RL训练出来的模型推理速度会变慢吗?
A:不会。DyCo-RL的计算开销只发生在训练阶段,训练吞吐量会下降约27%。但一旦训练完成,最终得到的模型和普通版本在结构上完全一致,推理部署时没有任何额外计算,运行速度与基础模型相同。用户在使用DyCo-RL训练的模型时,不会感受到任何性能差异。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策