新加坡国立大学AI研究:揭秘大模型为何能同时胡言乱语与精准作答
这项由新加坡国立大学与澳大利亚莫纳什大学合作的研究,已于2026年3月在arXiv预印本平台公开,论文编号为arXiv:2603.15557v1。
你是否在与AI对话时遇到过这种矛盾?它的分析过程充斥着无关甚至错误的陈述,但最终结论却意外正确。这好比一个学生用错误的公式推导,却凑巧得到了标准答案。研究团队将此类现象定义为“计算认知失调”——本质上揭示了AI系统内部存在一种类似“精神分裂”的行为模式。
例如,当你提问“图片里有摩托车吗?”,AI可能先自信地描述:“图片中停着一辆摩托车”,随即转折:“因此最终答案是没有”。这就像一个人先肯定自己看到了某物,紧接着又全盘否定之前的陈述,而最矛盾的是,这个否定答案本身却是准确的。
该现象暴露了当前AI评估体系的核心缺陷:我们过度关注输出结果的正确性,却忽视了其内部推理过程可能完全混乱。在医疗诊断、自动驾驶等高风险应用中,依赖“错误过程相互抵消”而达成的“偶然正确”,其潜在风险是致命的。
为此,研究团队构建了一套全新的诊断框架,相当于为AI进行了一次“认知层析扫描”。他们不再将错误输出视为静态结果,而是将其理解为动态认知流程中的故障节点。这种方法能追踪AI“思考链”上的每个环节,精确识别问题发生在“感知”、“推理”还是“决策”阶段。
具体而言,团队设计了三项核心指标来探测AI的认知状态。第一项是“感知不稳定性”,用于量化AI解读图像时的置信度波动,类似观察一个人描述所见时是否言辞闪烁。第二项是“逻辑冲突”,专门捕捉AI在推理过程中前后矛盾之处。第三项是“决策模糊性”,用于衡量AI做出最终判断时的犹豫程度。
这三项指标共同定义了一个三维的“认知状态空间”,如同绘制了AI思维活动的动态轨迹图。认知正常的AI,其轨迹会稳定集中在图中的安全区域;而一旦开始“胡言乱语”,其轨迹便会漂移至异常区域。通过监测AI在这张地图上的“移动路径”,研究人员即可判断其是否产生了幻觉。
一、破解AI的“认知密码”:从静态检查到动态诊断
传统的AI幻觉检测方法,类似于医生仅凭单一体征做出诊断。本研究指出,AI幻觉并非简单的输出错误,而是一个连贯的认知过程在某个环节发生了断裂。
研究团队描绘了一个理想的AI认知链条:视觉输入 → 感知理解 → 逻辑推理 → 最终输出。其中任一环节都可能失效。他们发现,一个“理性”的AI系统应遵循一项基本原则:若AI已从图像中提取了充分证据并转化为文本描述,那么其最终答案就不应再回溯依赖原始图像信息。
这项原则可以用一个侦查类比来理解:假设你是一名侦探,彻底勘查了案发现场(相当于AI“看”图),并详细记录了所有关键证据(相当于AI生成描述),然后基于这份记录推导出结论(相当于AI给出答案)。如果你的逻辑是严密的,那么即使现场被封锁,仅凭记录也应得出相同结论。
然而,当AI违反这一原则时,问题便产生了。例如,它可能在描述中错误地声称“看到摩托车”,而图中实际只有自行车,却又基于这个错误描述,阴差阳错地得出了“没有摩托车”的正确结论。这就如同两个错误意外抵消,最终蒙对了答案。这种“幸运”的背后,是认知过程的根本性失调。
二、三把“诊断利器”:解读AI的内心世界
为了深入剖析AI的“内心”,研究团队开发了三套精密的度量工具,分别针对认知过程的不同阶段。
首项工具是“感知熵”,它专注于评估AI理解图像时的确定性。研究人员发现,当AI对自身“所见”不确定时,其生成的描述中会高频出现“可能”、“似乎”、“大概”等模糊词汇。这就像一个人看不清远处物体时会说“那好像是一棵树”,而非肯定的“那是一棵树”。统计这类词汇的频率,即可量化AI视觉理解的自信水平。
第二项核心工具是“推理冲突”,它是整个诊断框架的基石。检测方法设计巧妙:先让AI结合图像和描述给出答案,再让同一个AI仅凭文字描述(屏蔽图像)再次作答。如果两次答案存在显著分歧,则表明AI的推理过程存在逻辑断层,并未严格遵循从证据到结论的理性路径。
第三项工具是“决策熵”,它衡量的是AI在最终“拍板”时的确信度。如同人在重大抉择前会反复权衡,AI在输出最终答案时,其内部概率分布反映了它的确信程度。如果它对“是”与“否”选项赋予的概率都接近50%,则说明其决策状态充满矛盾。
这三项工具的组合应用,实现了对AI认知状态的全方位“体检”。更重要的是,它们能有效区分错误根源:问题究竟出在最初的“感知失真”、中间的“推理跳跃”,还是最后的“决策犹豫”。
三、AI的“认知指纹”:不同模型的独特失败模式
研究团队在四个主流AI模型上进行了大规模测试,结果揭示了一个关键发现:不同的AI模型,拥有截然不同的“认知指纹”,其失败模式如同人的思维习惯一样独具特征。
Idefics2模型表现出“结构化失序”的特征。在正常状态下,它的思维轨迹高度稳定且集中,全部紧密聚集在认知地图的某个安全区域内,如同一位严谨的工程师。一旦产生幻觉,其轨迹便会骤然偏离至远处另一个区域,界限分明。这种“非此即彼”的模式,使得问题相对容易被识别。
Lla va模型则展现了“透明挣扎”的特点。当这个模型“出错”时,其内部的冲突与纠结会清晰地反映在所有诊断指标上,就像一个内心活动丰富的演员,所有犹豫和矛盾都表露无遗。这种高度的“心理可见性”,让诊断工作更为直观。
最令研究人员警惕的是Qwen2-VL和DeepSeek模型,它们呈现出“纠缠状态”。这两个模型的正常思维轨迹与异常轨迹在认知地图上大面积地交织混杂,健康区与问题区彼此渗透。这意味着,它们可能在看似流畅的思考中,悄然混入错误内容。这种“自信的谬误”最为隐蔽,也最具风险。
这些发现指出了一个核心结论:不存在通用的幻觉检测方案。每个AI模型的内在机制不同,必须“因模施策”,采取定制化的检测策略。
四、实战检验:从实验室到现实应用
研究团队在多个实际场景中验证了该诊断框架的效能,结果表现突出。在经典的POPE基准测试中,新框架的检测准确率显著超越了传统方法。尤为关键的是,它在保持极低误报率的同时,仍能实现高检出率,这对实际部署至关重要。
研究人员还设计了一项开放式图像描述测试,让AI自由描述图片内容。在这种无标准答案约束的场景下,传统检测方法几乎失效,而新框架依然能准确识别出AI的幻觉内容,证明了其广泛的适用性。
更值得关注的是,该框架展现了强大的鲁棒性。即使在用于校准系统的训练数据中故意掺入高达30%的错误样本,其性能也只是轻微下降。这种抗干扰能力对于应对现实世界中不可避免的“噪声数据”具有重要价值。
另一项发现是,不同AI模型对数据污染的敏感度各异,这恰恰与其认知特征吻合。例如,具有“结构化失序”特性的Idefics2对噪声抵抗力最强;而“透明挣扎”的Lla va则相对更容易受到影响。
五、超越检测:从发现问题到理解问题
这项研究的价值,远不止于更精准地识别AI幻觉。它真正提供了一种理解AI为何出错的全新视角。通过分析AI在认知状态空间中的运行轨迹,研究人员能够回答“为什么出错”,而不仅仅是“是否出错”。
团队提出的“几何信息对偶性”概念,揭示了一个深层规律:AI认知轨迹在几何空间中的异常程度,本质上等同于其在信息论意义上的“意外”程度。简言之,越是偏离常规路径的AI行为,越是小概率的罕见事件。这一发现为从理论上理解AI的内在工作机制开辟了新路径。
这种深度诊断能力,为未来优化AI指明了方向。如果明确某个模型常在“感知”阶段出错,就可以重点增强其视觉理解模块;若问题多出在“推理”环节,则应强化其逻辑处理能力。这种精准定位,使得AI的优化工作能够有的放矢。
研究还表明,AI幻觉的复杂性远超表面。有些看似简单的错误,实则是多个认知阶段连锁故障的结果;而有些表面严重的问题,可能只是单一环节的偶然失误。这种细粒度的分析,极大地深化了我们对AI系统脆弱性的认知。
这项研究为AI安全与可靠性领域开辟了一条新路径。通过将AI的生成过程视为可观测、可诊断的“认知轨迹”,我们有望构建出更加透明、可审计的AI系统。在AI日益深入医疗、金融、司法等关键领域的当下,理解其决策过程,其重要性有时甚至超过决策结果本身。
这项研究提醒我们,AI的“思考”是一个充满状态的复杂过程,而非简单的输入输出黑箱。学会“解读”AI的内心世界,不仅能让我们更早地发现问题,更能指引我们建造出更可靠、更值得信赖的智能系统。在人工智能深度融入社会的进程中,这样的工作显得尤为关键。
Q&A
Q1:什么是AI的“计算认知失调”现象?
A:计算认知失调是指AI在回答问题时,其推理过程出现前后矛盾的现象。例如,AI先肯定“看到了摩托车”,随后又否定自己,得出“没有摩托车”的结论。整个过程如同思维分裂,但讽刺的是,最终的结论有时却是正确的。
Q2:这项研究提出的诊断框架如何检测AI幻觉?
A:该框架运用三套工具进行综合诊断:“感知熵”检测AI解读图像时的确定性;“推理冲突”检验其逻辑过程是否自洽;“决策熵”衡量其最终判断的果断程度。三者共同构成一个三维认知地图,正常AI的思维轨迹集中于安全区,而出现幻觉的AI则会偏离至异常区。
Q3:不同AI模型的认知失败模式有何区别?
A:研究发现主流模型各有独特的“认知指纹”:Idefics2表现为“结构化失序”,正常时极其稳定,出错时偏离显著,界限清晰;Lla va表现为“透明挣扎”,其内部的冲突与不确定会明显暴露在各项指标上;Qwen2-VL和DeepSeek则呈现“纠缠状态”,正常与异常思维轨迹混杂难分,这种“自信的幻觉”最难被察觉。
