阿布扎比AI大学研究揭示:视觉模型为何数不清4个物体?深度解析与优化方向

2026-05-15阅读 0热度 0
阿布扎比

这项研究由阿布扎比穆罕默德·本·扎耶德人工智能大学(MBZUAI)的团队完成,其预印本论文于2026年4月发布在arXiv平台,编号为arXiv:2604.10039。

连数到四都数不清?揭秘阿布扎比人工智能大学发现的AI视觉模型

一个暴露根本缺陷的简单问题

当前顶尖的AI视觉语言模型,已能解读复杂的图表、卫星影像乃至医学扫描。然而,当你展示一张仅包含几个简单圆点的图片,并询问“图中有几个圆?”时,它们的回答往往错得离谱。

MBZUAI的研究团队通过系统性评估发现,即便是最先进的开源视觉语言模型,在完成“清点图中简单形状数量”这项基础任务时,平均准确率也仅在30%至50%区间。部分早期模型的准确率甚至低至10%左右。这引出了一个核心问题:模型的决策究竟是基于真实的视觉感知,还是依赖于从海量文本训练中获得的统计相关性在“猜测”?为了探究根源,团队开发了名为COUNTINGTRICKS的诊断工具,并对模型内部机制进行了深入分析。

视觉语言模型为何在计数上失灵

要理解这一现象,需先厘清视觉语言模型的工作原理。它本质上是两个组件的结合:一个负责将图像转换为数字特征的“视觉编码器”(视觉模块),和一个基于文本统计规律进行推理的“大型语言模型”(语言模块)。视觉模块如同眼睛,语言模块则如同依赖经验进行联想的大脑。

这种架构在需要语义理解的复杂任务上表现出色,例如图像描述或视觉问答。然而,计数是一项高度依赖纯粹空间感知的任务:它要求系统精确识别图像中每个独立物体的位置,并进行逐一枚举。这一过程几乎没有语言统计的捷径可走。但模型的天然倾向,却是最大化利用其强大的语言先验知识来“走捷径”。本研究的核心,正是量化了这种“视觉偷懒”现象。

一套揭示“视觉偷懒”的系统性测试

为系统性地揭示问题,研究团队构建了COUNTINGTRICKS测试套件,包含18000个样本,覆盖32种不同的图像布局场景。

测试设计的关键在于:通过控制图中形状(如圆形)与模型图像处理网格之间的相对位置,来检验AI在不同视觉挑战下的表现。这源于视觉语言模型处理图像的基础方式——它将图像分割为多个小方格(即“分块”),对每个方格单独编码后再尝试整合信息。这类似于将一张地图撕成碎片后再尝试拼凑全貌。

由此产生了一个核心挑战:当一个形状完整地位于单个方格内时,模型最容易识别;但当形状被网格的垂直或水平边界分割,甚至其中心恰好落在四个方格的交叉点上时,模型便难以判断这些“碎片”是否属于同一物体。

COUNTINGTRICKS基于此原理设计了四种核心测试类型:形状完全位于单个方格内;形状被垂直边界分割;形状被水平边界分割;形状中心位于网格交叉点。测试还叠加了形状尺寸变化、随机位置偏移,以及形状尺寸极大或彼此紧邻的极端场景。

此外,测试引入了“语言干扰项”:在提问时故意嵌入一个错误数字提示,例如“图中有几个圆?(注意,图中大约有X个)”。一个真正依赖视觉计数的模型应能抵抗此干扰;而依赖语言经验的模型则极易被带偏。

测试结果:准确率低迷与反直觉发现

团队对10款主流开源视觉语言模型进行了全面评估,模型发布时间横跨2023年至2025年。

结果清晰地揭示了技术局限。表现最差的早期模型平均准确率仅为11.82%,接近随机猜测。表现最佳的模型平均准确率也仅达到50.52%——即每两道题错一道。其他模型的表现介于两者之间。

一个反直觉的发现是:模型参数量的多少与计数能力并非正相关。一个仅30亿参数的模型,其计数准确率可以显著超越某些110亿参数的模型。这表明,决定模型计数性能的关键在于其处理与保留视觉信息(尤其是空间位置信息)的架构设计,而非单纯的模型体积。

测试数据也明确了形状尺寸的影响:形状相对于处理网格越大,AI数得越准。当形状尺寸放大后,所有模型的计数表现均有显著提升。原因很直观:形状足够大时,即使被网格线分割,每个方格内保留的局部信息也足够丰富,使模型更容易识别它们属于同一物体。

相反,当图中形状排列得过于紧密时,所有模型的性能均出现断崖式下跌。这暴露了AI视觉编码器在区分彼此紧邻的独立物体时,存在严重的“实例分离”障碍。

“数字回避”:模型对特定数字的统计性盲区

除了整体准确率低,研究还发现了一个奇特现象,即“数字回避”。模型会系统性地避免预测某些特定数字。

分析显示,模型预测的准确率与图中物体的真实数量呈显著负相关。图中需要计数的物体越多,模型答对的概率就越低,且这种下降趋势是非线性的。

更具揭示性的是针对具体数字的“盲区”。某些模型对于数字7、8、9、11的计数正确率为零。而表现最佳的模型,在计数为2时正确率高达99.3%,近乎完美;但计数为11时,正确率骤降至0%;然而计数为12时,正确率又回升至20.1%。

这种跳跃性表现无法用视觉难度差异解释。研究团队认为,根本原因在于语言训练数据中的“频率偏差”:模型在训练中接触的文本里,某些数字(如5、10、20等“整数”)出现的频率远高于其他数字(如7、11等质数)。因此,模型对这些高频数字产生了统计偏好;对于低频数字,当视觉证据不够强时,模型的“语言直觉”就会失灵,甚至倾向于回避预测这些数字。

换言之,AI在计数时犯错,往往并非因为“看不见”,而是在“语言统计经验”与“视觉证据”的博弈中,前者压制了后者。

追溯信息流:视觉细节在何处丢失

发现问题后,团队深入模型内部,追踪视觉空间信息在哪个处理环节被“丢弃”。

他们在模型的三个关键节点部署了“诊断探针”——分别位于视觉编码器、模态投影层以及大语言模型层。这些探针实质上是轻量级物体检测器,用于评估该节点保留的特征是否还能支撑准确的物体定位。

结果极具说服力。在模态投影层,检测精度最高。但到了大语言模型层,精度值几乎腰斩。另一款模型也呈现同样趋势。

从训练动态看,三个探针的学习情况迥异。投影层的探针学习最快,最终精度最高;视觉编码器层的探针精度次之且会进入平台期;而大语言模型层的探针不仅最终精度最低,训练过程也波动剧烈,表明该层的特征信息极不稳定。

这些数据勾勒出一幅清晰图景:视觉编码器能够清晰地“看到”并编码形状位置信息;模态投影层基本完整地传递了这些信息;然而,当信息进入大语言模型进行最终推理时,大量的空间位置细节就被“稀释”或“覆盖”了。

通过可视化注意力热力图,这一点得到进一步验证。在早期层,热力图能清晰聚焦于目标形状;但经过大语言模型的多层处理后,热力图变得模糊散漫,目标的边界和独立性已难以辨识。

失衡的注意力分配:文本主导推理过程

研究团队进一步量化了模型在生成答案时的“注意力分配”。即,在回答“图中有几个形状”时,模型的计算资源有多少用于分析图像,又有多少用于处理文字指令。

结果令人惊讶:平均而言,模型将约89.3%的“注意力预算”分配给了系统提示和用户问题等文本内容,仅有约10.7%的注意力留给了图像信息。这种极度失衡的资源分配,导致模型在作答时,本质上是在依据文本经验进行“盲猜”,而非真正地分析图像。

尝试通过修改提示词(如加入“请仔细观察图片”)来干预这种行为,效果并不稳定,往往无法从根本上改变模型内部的注意力分配模式。

更值得注意的是,即便模型答对了问题,其注意力也未必真正集中在正确的图像区域上。分析显示,即使在回答正确的案例中,模型注意力与真实物体区域的重合度也仅有42.5%左右。这意味着,许多正确答案可能只是“侥幸猜对”,而非基于可靠视觉分析的结果。

强制干预的尝试:MAS实验的启示

既然问题出在大语言模型阶段对视觉信息的忽视,研究团队尝试设计了一种名为“模态注意力份额”(Modality Attention Share, MAS)的干预机制,旨在从训练层面强制模型分配更多注意力给图像。

该机制类似于设置一个“最低消费”门槛。研究者设定一个注意力阈值,如果模型对图像token的注意力低于该阈值,就会在训练中受到惩罚;若达到阈值,则正常训练。

为验证效果,团队在FSC-147计数数据集上进行了微调实验,对比了三种方式:直接使用预训练模型、标准的指令微调、以及加入了MAS约束的指令微调。

实验结果呈现复杂图景:MAS干预的效果因模型架构和测试数据集而异,在某些场景下能提升性能,在另一些场景下则可能导致下降。这表明,单纯强制增加对图像的注意力权重,并非万能解药。关键在于,不仅要让模型“多看”图,更要改进其“如何看”以及“如何整合”视觉与语言信息的方式。

MAS实验的价值在于证明,注意力分配失衡的问题在技术上是可干预的。但要根本性解决计数等需要精细空间感知的任务,未来可能需要更精细的策略,例如专门针对数字预测施加视觉约束,或设计能引导模型关注正确区域而不仅仅是更多区域的机制。

研究启示与未来方向

这项研究的核心结论是:AI视觉语言模型在计数任务上的失败,主要不是因为它们“看不见”,而是因为在推理时,未能充分利用已编码的视觉信息。

这一发现对于理解AI工作机制具有重要意义。通常,当AI答错一个视觉问题时,人们容易归咎于其“视觉能力”不足。但本研究的探针实验表明,视觉编码器其实能够有效地“看到”并编码物体位置信息。真正的瓶颈在于后续阶段——强大的语言模型在处理信息时,其固有的、基于文本统计规律的推理模式会压倒视觉证据。

这也解释了为何更大的模型不一定数得更准。如果模型的语言部分过于强大,对语言统计规律的依赖更深,这种干扰反而可能更严重。相反,那些在架构设计上特别注重保留视觉信息(例如对高分辨率图像处理更友好)的模型,即使参数量较小,也可能在此类任务上表现更优。

对于用户而言,这项研究提供了一个实用警示:当你让AI执行计数或其他需要精确空间感知的视觉任务时,应对其答案保持审慎。如果任务的准确性至关重要,建议进行人工复核,或考虑使用为此类任务专门优化的工具,而非通用的视觉语言模型。

从更广阔的视角看,这项研究为AI社区提供了一套有价值的诊断框架。它强调,评估AI性能不应止步于最终答案的对错,而应深入模型内部,追踪信息在每一处理环节的流转与损耗。只有精准定位瓶颈所在,才能进行有效的改进。

COUNTINGTRICKS测试套件本身,其价值也超越了“数数”这一具体任务。它所揭示的“视觉证据”与“语言先验”之间的博弈,是当前视觉语言模型在处理任何需要精细空间感知的任务时,所面临的普遍性挑战。这套方法论可被迁移至更多场景,帮助研究者系统性地诊断并提升AI的视觉理解能力。


问答部分

问:视觉语言模型在数数任务上表现到底有多差?
答:根据这项研究,当前主流开源模型在专门设计的计数测试中,平均正确率介于约12%到50%之间。最差的模型正确率仅略高于随机猜测,而最好的模型也仅能答对一半左右的问题。关键在于,许多正确答案可能源于语言经验的“猜测”,而非真正的视觉分析。

问:为什么模型越大,数数不一定越准?
答:研究发现,计数能力的关键决定因素不是参数规模,而是模型处理与保留视觉信息(尤其是空间位置信息)的架构设计方式。某些参数量较小的模型,因其设计更注重视觉细节保留,反而能在计数任务上超越参数量大得多的通用模型。

问:COUNTINGTRICKS测试套件主要测试什么?
答:该套件是一个系统性诊断工具,包含大量测试样本,通过精确控制物体与模型图像处理网格的相对位置、物体大小、密度等变量,来评估模型在不同视觉挑战下的计数能力。它还包含“语言干扰”测试,用以检验模型是依赖视觉还是容易被文本提示带偏。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策