阿布扎比AI大学研究揭示：视觉模型为何数不清4个物体？深度解析与优化方向

2026-05-15阅读 0热度 0

阿布扎比

这项研究由阿布扎比穆罕默德·本·扎耶德人工智能大学（MBZUAI）的团队完成，其预印本论文于2026年4月发布在arXiv平台，编号为arXiv:2604.10039。

一个暴露根本缺陷的简单问题

当前顶尖的AI视觉语言模型，已能解读复杂的图表、卫星影像乃至医学扫描。然而，当你展示一张仅包含几个简单圆点的图片，并询问“图中有几个圆？”时，它们的回答往往错得离谱。

MBZUAI的研究团队通过系统性评估发现，即便是最先进的开源视觉语言模型，在完成“清点图中简单形状数量”这项基础任务时，平均准确率也仅在30%至50%区间。部分早期模型的准确率甚至低至10%左右。这引出了一个核心问题：模型的决策究竟是基于真实的视觉感知，还是依赖于从海量文本训练中获得的统计相关性在“猜测”？为了探究根源，团队开发了名为COUNTINGTRICKS的诊断工具，并对模型内部机制进行了深入分析。

视觉语言模型为何在计数上失灵

要理解这一现象，需先厘清视觉语言模型的工作原理。它本质上是两个组件的结合：一个负责将图像转换为数字特征的“视觉编码器”（视觉模块），和一个基于文本统计规律进行推理的“大型语言模型”（语言模块）。视觉模块如同眼睛，语言模块则如同依赖经验进行联想的大脑。

这种架构在需要语义理解的复杂任务上表现出色，例如图像描述或视觉问答。然而，计数是一项高度依赖纯粹空间感知的任务：它要求系统精确识别图像中每个独立物体的位置，并进行逐一枚举。这一过程几乎没有语言统计的捷径可走。但模型的天然倾向，却是最大化利用其强大的语言先验知识来“走捷径”。本研究的核心，正是量化了这种“视觉偷懒”现象。

一套揭示“视觉偷懒”的系统性测试

为系统性地揭示问题，研究团队构建了COUNTINGTRICKS测试套件，包含18000个样本，覆盖32种不同的图像布局场景。

测试设计的关键在于：通过控制图中形状（如圆形）与模型图像处理网格之间的相对位置，来检验AI在不同视觉挑战下的表现。这源于视觉语言模型处理图像的基础方式——它将图像分割为多个小方格（即“分块”），对每个方格单独编码后再尝试整合信息。这类似于将一张地图撕成碎片后再尝试拼凑全貌。

由此产生了一个核心挑战：当一个形状完整地位于单个方格内时，模型最容易识别；但当形状被网格的垂直或水平边界分割，甚至其中心恰好落在四个方格的交叉点上时，模型便难以判断这些“碎片”是否属于同一物体。

COUNTINGTRICKS基于此原理设计了四种核心测试类型：形状完全位于单个方格内；形状被垂直边界分割；形状被水平边界分割；形状中心位于网格交叉点。测试还叠加了形状尺寸变化、随机位置偏移，以及形状尺寸极大或彼此紧邻的极端场景。

此外，测试引入了“语言干扰项”：在提问时故意嵌入一个错误数字提示，例如“图中有几个圆？（注意，图中大约有X个）”。一个真正依赖视觉计数的模型应能抵抗此干扰；而依赖语言经验的模型则极易被带偏。

测试结果：准确率低迷与反直觉发现

团队对10款主流开源视觉语言模型进行了全面评估，模型发布时间横跨2023年至2025年。

结果清晰地揭示了技术局限。表现最差的早期模型平均准确率仅为11.82%，接近随机猜测。表现最佳的模型平均准确率也仅达到50.52%——即每两道题错一道。其他模型的表现介于两者之间。

一个反直觉的发现是：模型参数量的多少与计数能力并非正相关。一个仅30亿参数的模型，其计数准确率可以显著超越某些110亿参数的模型。这表明，决定模型计数性能的关键在于其处理与保留视觉信息（尤其是空间位置信息）的架构设计，而非单纯的模型体积。

测试数据也明确了形状尺寸的影响：形状相对于处理网格越大，AI数得越准。当形状尺寸放大后，所有模型的计数表现均有显著提升。原因很直观：形状足够大时，即使被网格线分割，每个方格内保留的局部信息也足够丰富，使模型更容易识别它们属于同一物体。

相反，当图中形状排列得过于紧密时，所有模型的性能均出现断崖式下跌。这暴露了AI视觉编码器在区分彼此紧邻的独立物体时，存在严重的“实例分离”障碍。

“数字回避”：模型对特定数字的统计性盲区

除了整体准确率低，研究还发现了一个奇特现象，即“数字回避”。模型会系统性地避免预测某些特定数字。

分析显示，模型预测的准确率与图中物体的真实数量呈显著负相关。图中需要计数的物体越多，模型答对的概率就越低，且这种下降趋势是非线性的。

更具揭示性的是针对具体数字的“盲区”。某些模型对于数字7、8、9、11的计数正确率为零。而表现最佳的模型，在计数为2时正确率高达99.3%，近乎完美；但计数为11时，正确率骤降至0%；然而计数为12时，正确率又回升至20.1%。

这种跳跃性表现无法用视觉难度差异解释。研究团队认为，根本原因在于语言训练数据中的“频率偏差”：模型在训练中接触的文本里，某些数字（如5、10、20等“整数”）出现的频率远高于其他数字（如7、11等质数）。因此，模型对这些高频数字产生了统计偏好；对于低频数字，当视觉证据不够强时，模型的“语言直觉”就会失灵，甚至倾向于回避预测这些数字。

换言之，AI在计数时犯错，往往并非因为“看不见”，而是在“语言统计经验”与“视觉证据”的博弈中，前者压制了后者。

追溯信息流：视觉细节在何处丢失

发现问题后，团队深入模型内部，追踪视觉空间信息在哪个处理环节被“丢弃”。

他们在模型的三个关键节点部署了“诊断探针”——分别位于视觉编码器、模态投影层以及大语言模型层。这些探针实质上是轻量级物体检测器，用于评估该节点保留的特征是否还能支撑准确的物体定位。

结果极具说服力。在模态投影层，检测精度最高。但到了大语言模型层，精度值几乎腰斩。另一款模型也呈现同样趋势。

从训练动态看，三个探针的学习情况迥异。投影层的探针学习最快，最终精度最高；视觉编码器层的探针精度次之且会进入平台期；而大语言模型层的探针不仅最终精度最低，训练过程也波动剧烈，表明该层的特征信息极不稳定。

这些数据勾勒出一幅清晰图景：视觉编码器能够清晰地“看到”并编码形状位置信息；模态投影层基本完整地传递了这些信息；然而，当信息进入大语言模型进行最终推理时，大量的空间位置细节就被“稀释”或“覆盖”了。

通过可视化注意力热力图，这一点得到进一步验证。在早期层，热力图能清晰聚焦于目标形状；但经过大语言模型的多层处理后，热力图变得模糊散漫，目标的边界和独立性已难以辨识。

失衡的注意力分配：文本主导推理过程

研究团队进一步量化了模型在生成答案时的“注意力分配”。即，在回答“图中有几个形状”时，模型的计算资源有多少用于分析图像，又有多少用于处理文字指令。

结果令人惊讶：平均而言，模型将约89.3%的“注意力预算”分配给了系统提示和用户问题等文本内容，仅有约10.7%的注意力留给了图像信息。这种极度失衡的资源分配，导致模型在作答时，本质上是在依据文本经验进行“盲猜”，而非真正地分析图像。

尝试通过修改提示词（如加入“请仔细观察图片”）来干预这种行为，效果并不稳定，往往无法从根本上改变模型内部的注意力分配模式。

更值得注意的是，即便模型答对了问题，其注意力也未必真正集中在正确的图像区域上。分析显示，即使在回答正确的案例中，模型注意力与真实物体区域的重合度也仅有42.5%左右。这意味着，许多正确答案可能只是“侥幸猜对”，而非基于可靠视觉分析的结果。

强制干预的尝试：MAS实验的启示

既然问题出在大语言模型阶段对视觉信息的忽视，研究团队尝试设计了一种名为“模态注意力份额”（Modality Attention Share, MAS）的干预机制，旨在从训练层面强制模型分配更多注意力给图像。

该机制类似于设置一个“最低消费”门槛。研究者设定一个注意力阈值，如果模型对图像token的注意力低于该阈值，就会在训练中受到惩罚；若达到阈值，则正常训练。

为验证效果，团队在FSC-147计数数据集上进行了微调实验，对比了三种方式：直接使用预训练模型、标准的指令微调、以及加入了MAS约束的指令微调。

实验结果呈现复杂图景：MAS干预的效果因模型架构和测试数据集而异，在某些场景下能提升性能，在另一些场景下则可能导致下降。这表明，单纯强制增加对图像的注意力权重，并非万能解药。关键在于，不仅要让模型“多看”图，更要改进其“如何看”以及“如何整合”视觉与语言信息的方式。

MAS实验的价值在于证明，注意力分配失衡的问题在技术上是可干预的。但要根本性解决计数等需要精细空间感知的任务，未来可能需要更精细的策略，例如专门针对数字预测施加视觉约束，或设计能引导模型关注正确区域而不仅仅是更多区域的机制。

研究启示与未来方向

这项研究的核心结论是：AI视觉语言模型在计数任务上的失败，主要不是因为它们“看不见”，而是因为在推理时，未能充分利用已编码的视觉信息。

这一发现对于理解AI工作机制具有重要意义。通常，当AI答错一个视觉问题时，人们容易归咎于其“视觉能力”不足。但本研究的探针实验表明，视觉编码器其实能够有效地“看到”并编码物体位置信息。真正的瓶颈在于后续阶段——强大的语言模型在处理信息时，其固有的、基于文本统计规律的推理模式会压倒视觉证据。

这也解释了为何更大的模型不一定数得更准。如果模型的语言部分过于强大，对语言统计规律的依赖更深，这种干扰反而可能更严重。相反，那些在架构设计上特别注重保留视觉信息（例如对高分辨率图像处理更友好）的模型，即使参数量较小，也可能在此类任务上表现更优。

对于用户而言，这项研究提供了一个实用警示：当你让AI执行计数或其他需要精确空间感知的视觉任务时，应对其答案保持审慎。如果任务的准确性至关重要，建议进行人工复核，或考虑使用为此类任务专门优化的工具，而非通用的视觉语言模型。

从更广阔的视角看，这项研究为AI社区提供了一套有价值的诊断框架。它强调，评估AI性能不应止步于最终答案的对错，而应深入模型内部，追踪信息在每一处理环节的流转与损耗。只有精准定位瓶颈所在，才能进行有效的改进。

COUNTINGTRICKS测试套件本身，其价值也超越了“数数”这一具体任务。它所揭示的“视觉证据”与“语言先验”之间的博弈，是当前视觉语言模型在处理任何需要精细空间感知的任务时，所面临的普遍性挑战。这套方法论可被迁移至更多场景，帮助研究者系统性地诊断并提升AI的视觉理解能力。

问答部分

问：视觉语言模型在数数任务上表现到底有多差？
答：根据这项研究，当前主流开源模型在专门设计的计数测试中，平均正确率介于约12%到50%之间。最差的模型正确率仅略高于随机猜测，而最好的模型也仅能答对一半左右的问题。关键在于，许多正确答案可能源于语言经验的“猜测”，而非真正的视觉分析。

问：为什么模型越大，数数不一定越准？
答：研究发现，计数能力的关键决定因素不是参数规模，而是模型处理与保留视觉信息（尤其是空间位置信息）的架构设计方式。某些参数量较小的模型，因其设计更注重视觉细节保留，反而能在计数任务上超越参数量大得多的通用模型。

问：COUNTINGTRICKS测试套件主要测试什么？
答：该套件是一个系统性诊断工具，包含大量测试样本，通过精确控制物体与模型图像处理网格的相对位置、物体大小、密度等变量，来评估模型在不同视觉挑战下的计数能力。它还包含“语言干扰”测试，用以检验模型是依赖视觉还是容易被文本提示带偏。