阿布扎比AI大学研究揭示:视觉模型为何数不清4个物体?深度解析与优化方向
这项研究由阿布扎比穆罕默德·本·扎耶德人工智能大学(MBZUAI)的团队完成,其预印本论文于2026年4月发布在arXiv平台,编号为arXiv:2604.10039。
一个暴露根本缺陷的简单问题
当前顶尖的AI视觉语言模型,已能解读复杂的图表、卫星影像乃至医学扫描。然而,当你展示一张仅包含几个简单圆点的图片,并询问“图中有几个圆?”时,它们的回答往往错得离谱。
MBZUAI的研究团队通过系统性评估发现,即便是最先进的开源视觉语言模型,在完成“清点图中简单形状数量”这项基础任务时,平均准确率也仅在30%至50%区间。部分早期模型的准确率甚至低至10%左右。这引出了一个核心问题:模型的决策究竟是基于真实的视觉感知,还是依赖于从海量文本训练中获得的统计相关性在“猜测”?为了探究根源,团队开发了名为COUNTINGTRICKS的诊断工具,并对模型内部机制进行了深入分析。
视觉语言模型为何在计数上失灵
要理解这一现象,需先厘清视觉语言模型的工作原理。它本质上是两个组件的结合:一个负责将图像转换为数字特征的“视觉编码器”(视觉模块),和一个基于文本统计规律进行推理的“大型语言模型”(语言模块)。视觉模块如同眼睛,语言模块则如同依赖经验进行联想的大脑。
这种架构在需要语义理解的复杂任务上表现出色,例如图像描述或视觉问答。然而,计数是一项高度依赖纯粹空间感知的任务:它要求系统精确识别图像中每个独立物体的位置,并进行逐一枚举。这一过程几乎没有语言统计的捷径可走。但模型的天然倾向,却是最大化利用其强大的语言先验知识来“走捷径”。本研究的核心,正是量化了这种“视觉偷懒”现象。
一套揭示“视觉偷懒”的系统性测试
为系统性地揭示问题,研究团队构建了COUNTINGTRICKS测试套件,包含18000个样本,覆盖32种不同的图像布局场景。
测试设计的关键在于:通过控制图中形状(如圆形)与模型图像处理网格之间的相对位置,来检验AI在不同视觉挑战下的表现。这源于视觉语言模型处理图像的基础方式——它将图像分割为多个小方格(即“分块”),对每个方格单独编码后再尝试整合信息。这类似于将一张地图撕成碎片后再尝试拼凑全貌。
由此产生了一个核心挑战:当一个形状完整地位于单个方格内时,模型最容易识别;但当形状被网格的垂直或水平边界分割,甚至其中心恰好落在四个方格的交叉点上时,模型便难以判断这些“碎片”是否属于同一物体。
COUNTINGTRICKS基于此原理设计了四种核心测试类型:形状完全位于单个方格内;形状被垂直边界分割;形状被水平边界分割;形状中心位于网格交叉点。测试还叠加了形状尺寸变化、随机位置偏移,以及形状尺寸极大或彼此紧邻的极端场景。
此外,测试引入了“语言干扰项”:在提问时故意嵌入一个错误数字提示,例如“图中有几个圆?(注意,图中大约有X个)”。一个真正依赖视觉计数的模型应能抵抗此干扰;而依赖语言经验的模型则极易被带偏。
测试结果:准确率低迷与反直觉发现
团队对10款主流开源视觉语言模型进行了全面评估,模型发布时间横跨2023年至2025年。
结果清晰地揭示了技术局限。表现最差的早期模型平均准确率仅为11.82%,接近随机猜测。表现最佳的模型平均准确率也仅达到50.52%——即每两道题错一道。其他模型的表现介于两者之间。
一个反直觉的发现是:模型参数量的多少与计数能力并非正相关。一个仅30亿参数的模型,其计数准确率可以显著超越某些110亿参数的模型。这表明,决定模型计数性能的关键在于其处理与保留视觉信息(尤其是空间位置信息)的架构设计,而非单纯的模型体积。
测试数据也明确了形状尺寸的影响:形状相对于处理网格越大,AI数得越准。当形状尺寸放大后,所有模型的计数表现均有显著提升。原因很直观:形状足够大时,即使被网格线分割,每个方格内保留的局部信息也足够丰富,使模型更容易识别它们属于同一物体。
相反,当图中形状排列得过于紧密时,所有模型的性能均出现断崖式下跌。这暴露了AI视觉编码器在区分彼此紧邻的独立物体时,存在严重的“实例分离”障碍。
“数字回避”:模型对特定数字的统计性盲区
除了整体准确率低,研究还发现了一个奇特现象,即“数字回避”。模型会系统性地避免预测某些特定数字。
分析显示,模型预测的准确率与图中物体的真实数量呈显著负相关。图中需要计数的物体越多,模型答对的概率就越低,且这种下降趋势是非线性的。
更具揭示性的是针对具体数字的“盲区”。某些模型对于数字7、8、9、11的计数正确率为零。而表现最佳的模型,在计数为2时正确率高达99.3%,近乎完美;但计数为11时,正确率骤降至0%;然而计数为12时,正确率又回升至20.1%。
这种跳跃性表现无法用视觉难度差异解释。研究团队认为,根本原因在于语言训练数据中的“频率偏差”:模型在训练中接触的文本里,某些数字(如5、10、20等“整数”)出现的频率远高于其他数字(如7、11等质数)。因此,模型对这些高频数字产生了统计偏好;对于低频数字,当视觉证据不够强时,模型的“语言直觉”就会失灵,甚至倾向于回避预测这些数字。
换言之,AI在计数时犯错,往往并非因为“看不见”,而是在“语言统计经验”与“视觉证据”的博弈中,前者压制了后者。
追溯信息流:视觉细节在何处丢失
发现问题后,团队深入模型内部,追踪视觉空间信息在哪个处理环节被“丢弃”。
他们在模型的三个关键节点部署了“诊断探针”——分别位于视觉编码器、模态投影层以及大语言模型层。这些探针实质上是轻量级物体检测器,用于评估该节点保留的特征是否还能支撑准确的物体定位。
结果极具说服力。在模态投影层,检测精度最高。但到了大语言模型层,精度值几乎腰斩。另一款模型也呈现同样趋势。
从训练动态看,三个探针的学习情况迥异。投影层的探针学习最快,最终精度最高;视觉编码器层的探针精度次之且会进入平台期;而大语言模型层的探针不仅最终精度最低,训练过程也波动剧烈,表明该层的特征信息极不稳定。
这些数据勾勒出一幅清晰图景:视觉编码器能够清晰地“看到”并编码形状位置信息;模态投影层基本完整地传递了这些信息;然而,当信息进入大语言模型进行最终推理时,大量的空间位置细节就被“稀释”或“覆盖”了。
通过可视化注意力热力图,这一点得到进一步验证。在早期层,热力图能清晰聚焦于目标形状;但经过大语言模型的多层处理后,热力图变得模糊散漫,目标的边界和独立性已难以辨识。
失衡的注意力分配:文本主导推理过程
研究团队进一步量化了模型在生成答案时的“注意力分配”。即,在回答“图中有几个形状”时,模型的计算资源有多少用于分析图像,又有多少用于处理文字指令。
结果令人惊讶:平均而言,模型将约89.3%的“注意力预算”分配给了系统提示和用户问题等文本内容,仅有约10.7%的注意力留给了图像信息。这种极度失衡的资源分配,导致模型在作答时,本质上是在依据文本经验进行“盲猜”,而非真正地分析图像。
尝试通过修改提示词(如加入“请仔细观察图片”)来干预这种行为,效果并不稳定,往往无法从根本上改变模型内部的注意力分配模式。
更值得注意的是,即便模型答对了问题,其注意力也未必真正集中在正确的图像区域上。分析显示,即使在回答正确的案例中,模型注意力与真实物体区域的重合度也仅有42.5%左右。这意味着,许多正确答案可能只是“侥幸猜对”,而非基于可靠视觉分析的结果。
强制干预的尝试:MAS实验的启示
既然问题出在大语言模型阶段对视觉信息的忽视,研究团队尝试设计了一种名为“模态注意力份额”(Modality Attention Share, MAS)的干预机制,旨在从训练层面强制模型分配更多注意力给图像。
该机制类似于设置一个“最低消费”门槛。研究者设定一个注意力阈值,如果模型对图像token的注意力低于该阈值,就会在训练中受到惩罚;若达到阈值,则正常训练。
为验证效果,团队在FSC-147计数数据集上进行了微调实验,对比了三种方式:直接使用预训练模型、标准的指令微调、以及加入了MAS约束的指令微调。
实验结果呈现复杂图景:MAS干预的效果因模型架构和测试数据集而异,在某些场景下能提升性能,在另一些场景下则可能导致下降。这表明,单纯强制增加对图像的注意力权重,并非万能解药。关键在于,不仅要让模型“多看”图,更要改进其“如何看”以及“如何整合”视觉与语言信息的方式。
MAS实验的价值在于证明,注意力分配失衡的问题在技术上是可干预的。但要根本性解决计数等需要精细空间感知的任务,未来可能需要更精细的策略,例如专门针对数字预测施加视觉约束,或设计能引导模型关注正确区域而不仅仅是更多区域的机制。
研究启示与未来方向
这项研究的核心结论是:AI视觉语言模型在计数任务上的失败,主要不是因为它们“看不见”,而是因为在推理时,未能充分利用已编码的视觉信息。
这一发现对于理解AI工作机制具有重要意义。通常,当AI答错一个视觉问题时,人们容易归咎于其“视觉能力”不足。但本研究的探针实验表明,视觉编码器其实能够有效地“看到”并编码物体位置信息。真正的瓶颈在于后续阶段——强大的语言模型在处理信息时,其固有的、基于文本统计规律的推理模式会压倒视觉证据。
这也解释了为何更大的模型不一定数得更准。如果模型的语言部分过于强大,对语言统计规律的依赖更深,这种干扰反而可能更严重。相反,那些在架构设计上特别注重保留视觉信息(例如对高分辨率图像处理更友好)的模型,即使参数量较小,也可能在此类任务上表现更优。
对于用户而言,这项研究提供了一个实用警示:当你让AI执行计数或其他需要精确空间感知的视觉任务时,应对其答案保持审慎。如果任务的准确性至关重要,建议进行人工复核,或考虑使用为此类任务专门优化的工具,而非通用的视觉语言模型。
从更广阔的视角看,这项研究为AI社区提供了一套有价值的诊断框架。它强调,评估AI性能不应止步于最终答案的对错,而应深入模型内部,追踪信息在每一处理环节的流转与损耗。只有精准定位瓶颈所在,才能进行有效的改进。
COUNTINGTRICKS测试套件本身,其价值也超越了“数数”这一具体任务。它所揭示的“视觉证据”与“语言先验”之间的博弈,是当前视觉语言模型在处理任何需要精细空间感知的任务时,所面临的普遍性挑战。这套方法论可被迁移至更多场景,帮助研究者系统性地诊断并提升AI的视觉理解能力。
问答部分
问:视觉语言模型在数数任务上表现到底有多差?
答:根据这项研究,当前主流开源模型在专门设计的计数测试中,平均正确率介于约12%到50%之间。最差的模型正确率仅略高于随机猜测,而最好的模型也仅能答对一半左右的问题。关键在于,许多正确答案可能源于语言经验的“猜测”,而非真正的视觉分析。
问:为什么模型越大,数数不一定越准?
答:研究发现,计数能力的关键决定因素不是参数规模,而是模型处理与保留视觉信息(尤其是空间位置信息)的架构设计方式。某些参数量较小的模型,因其设计更注重视觉细节保留,反而能在计数任务上超越参数量大得多的通用模型。
问:COUNTINGTRICKS测试套件主要测试什么?
答:该套件是一个系统性诊断工具,包含大量测试样本,通过精确控制物体与模型图像处理网格的相对位置、物体大小、密度等变量,来评估模型在不同视觉挑战下的计数能力。它还包含“语言干扰”测试,用以检验模型是依赖视觉还是容易被文本提示带偏。
