大语言模型推理黑箱揭秘：以色列理工与IBM前沿研究

2026-06-14阅读 0热度 0

语言模型

以色列理工学院数据与决策科学系携手IBM研究院联合攻关，于2026年6月以预印本形式发布成果，论文编号为arXiv:2606.05972，读者可通过该编号调阅完整文献。

一、黑箱困局：AI决策时，为何我们无法洞悉其推理依据

患者去医院就诊，医生若诊断“流感”，你至少能追问：“凭什么？”医生会回应：“高烧、全身酸痛、咳嗽这三个症状综合指向流感。”推理链条清晰可溯。

但当你将同一组症状输入某AI诊断系统，它输出“流感”结论后，你问“为什么”，它可能生成一段看似合理的解释——然而这段解释与它实际用于判断的底层逻辑可能毫无关联。AI说出口的，和它内部分析的，截然不同。

这并非无关痛痒的技术细节，而是关乎系统安全的核心挑战。当AI应用于医疗诊断、司法裁决或金融风控，若无法洞察其真实推理路径，一旦出错，我们既难以及时发现，更无法精准纠偏。更危险的是，AI可能依托错误的逻辑撞上正确答案，或携带隐蔽偏见输出貌似合理的结论。

以色列理工学院与IBM研究院的团队决定攻克这一难点。他们的研究起点并非“AI在关注哪些词”或“哪个神经元被激活”，而是追问本质：当AI执行一次分类任务时，它在概念层面经历了怎样的推理脉络？它聚焦了哪些高阶概念？这些概念之间如何相互因果关联？哪些概念最终决定了输出结果？

二、地图隐喻：研究的核心创新点

要理解这项研究的独特之处，不妨借助“地图”类比。

以往分析AI推理，研究者通常从两个截然不同的视角出发。第一种是“现实世界地图”——关注的是真实场景中的因果关系，比如“作者的性别是否影响AI对文章的评价？”或“某症状在现实中是否真正导致某疾病？”此时AI扮演分析工具，用于探索外部世界规律。

第二种是“AI推理地图”——焦点不在外部世界，而在AI系统本身：当AI读取文本、做出判断时，其内部经历了怎样的概念路径？这张图的起点是“输入文字”，终点是“预测结果”，中间经过的是AI在认知层面“感知”到的一系列概念状态。

以色列理工学院与IBM研究院的团队选择绘制第二种地图，而他们使用的绘图工具是因果图（Causal Graph）。

因果图是数学和统计学中描述变量间因果关系的标准化工具。每个节点代表一个变量，每条有向箭头代表一种因果影响。传统上，因果图用于研究现实机制，例如“吸烟→肺癌”的关系链。而本研究的新颖之处在于：将因果图搬进AI的“认知空间”，用以描述AI如何从输入文字出发，经过一系列概念的感知与加工，最终输出预测结论。

简言之，这张因果图描绘的不是世界，而是AI的思维结构。

三、四阶段拼图：从原始文本到思维地图的完整流程

研究团队设计了一套四阶段的自动化流程，如同逐步拼装一幅拼图，每一阶段都为最终那张“AI思维地图”添上关键一块。整个流程中，目标AI模型既是研究对象，也是生成研究数据的工具——研究者让AI解剖AI自身。

阶段一：用AI自己的标准为数据打标签。

传统研究中，研究者手里有一批由人类专家标注的数据，比如“这段病人描述属于流感”。但团队意识到，若要研究AI的推理逻辑，必须以其自身的判断为基准，而非人类专家的判断。原因很清楚：AI与人类可能对同一案例分类不同，而研究的正是AI的分类依据。

因此第一步，将所有文本输入目标AI，让其对每个案例做出分类预测，并用这些AI预测结果替换原始人类标注。从这一刻起，后续所有分析都立足于“AI眼中的世界”，而非“人类眼中的世界”。

阶段二：让AI告知我们它关注哪些概念。

接下来是核心环节：提取“区分性概念”。研究团队将数据分成小批次，每批次包含来自不同类别的样本，然后让AI扮演分析师角色，从这些样本中归纳出能够区分类别的高阶概念。

以医疗诊断为例：AI读完一批关于偏头痛、鼻窦炎和流感的病人描述后，可能会提炼出“发烧”“面部压迫感”“鼻塞”“光敏感度”等概念，因为它们在描述中表现出明显差异。

仅有概念还不够，还需知道对于每个文本案例，AI如何感知这些概念。团队定义了精巧的标注方式：针对每个概念，AI不仅要回答“有或没有”，还要评估“这个概念在文本中存在吗？如果存在，它指向哪些类别？”例如，“头痛”这个概念，在某一描述中可能被AI感知为同时支持偏头痛和鼻窦炎，而在另一描述中则无法起到区分作用。这种精细的多层标注为后续因果分析提供了丰富信息。

系统还会对提取出的概念进行筛选：去掉几乎从不出现的概念（对分析无益），也去掉对所有类别都同等适用、毫无区分力的概念。只有既常见又具判别力的概念才能进入后续分析。

阶段三：用“变脸实验”填补数据空白。

这是整项研究中最具创意的一步，团队称之为“受马尔可夫链蒙特卡洛方法启发的反事实数据扩展”。听起来复杂，核心思路可用一个简单例子说明。

因果分析如同侦探破案。侦探不仅要看到现场已发生的事，还需进行假设实验：如果凶器不是刀而是枪，结果会怎样？如果嫌疑人当时不在场，情况如何变化？这种“如果……会怎样”的思维实验是建立因果关系的关键。

对于AI推理的因果分析，同样需要大量覆盖不同概念组合的样本。但实际采集的数据往往只覆盖了概念空间的一小部分——好比手里只有几块拼图，无法看清全貌。

解决方法：让AI自己生成“变脸版本”的文本。给定一段原始文本，研究团队选择其中一个目标概念，让AI对文字进行改写，使该概念的状态发生变化，同时尽量保持其他概念不变。

举例说明：原始文本“今天我吃了一颗鲜橙色的、软烂的木瓜”，AI将其分类为“不好吃”（因为软烂通常意味着过熟）。研究者选择“软硬度”这个概念，让AI向“好吃”方向改写，于是生成“今天我吃了一颗鲜橙色的、脆爽的木瓜”。新文本经AI重新标注概念状态后，如果“软硬度”确实发生变化，而其他概念（如“颜色”）保持不变，则保留此新样本并加入数据集。

此过程对每个文本、每个概念、每个目标类别方向反复执行，形成一个持续运转的改写机器，不断生产出覆盖各种概念组合的新样本。若某次改写结果不达标（目标概念未变化，或连带改变了太多其他概念），系统将失败原因反馈给AI，允许重试，最多五次。

经此阶段，原本稀疏的数据集变得丰富且覆盖全面，为最终因果分析奠定了坚实基础。

阶段四：用专业算法从数据中解析因果结构。

最后一步，研究团队将扩充后的数据集输入σ-CG因果发现算法。该算法分析各个概念变量之间的统计依赖关系，推断因果方向与结构，最终输出一张有向图——即那张“AI思维地图”。

选择σ-CG算法有其特定原因：它能够处理离散变量（各概念状态是有限取值的类别变量，而非连续数字），并且不强制图中关系为单向无环。这很重要，因为AI推理中不同概念之间可能存在相互影响的循环关系，预先排除这种可能性会使分析失去客观性。在构建图的过程中，团队仅加入两个外部约束：文本节点只能发射箭头、不能接收箭头（它是因果链的起点）；预测结果节点只能接收箭头、不能发射箭头（它是因果链的终点）。

四、三场测试、三个AI：实验设计细节

研究团队选用三个不同的大语言模型验证该方法：谷歌的Gemini-2-Flash、代号gpt-OSS-20B的OpenAI开源模型，以及阿里巴巴的Qwen3-14B。这三个模型被应用于三种不同类型的分类任务。

第一个任务是医疗诊断。数据集LIBERTY包含1448条人工生成的病人描述，每条描述需分类为偏头痛、鼻窦炎或流感。这是一个合成数据集，研究者了解生成数据所用的真实因果结构，因此可验证算法提取的概念是否与实际吻合。

第二个任务是情感分析。采用著名的IMDB电影评论数据集，包含2096条评论，每条需分类为正面或负面。这是一个“野生”数据集，没有预设因果结构，适合考察AI面对真实世界数据时的表现。

第三个任务是“AI评法官”——让AI判断两个AI回答哪个更优。数据集来自Reddit，包含395组问答对，每组有一个用户问题和两个候选回答，AI需选出它认为更好的回答。这个任务极具挑战性，因为不同问题领域（美食、编程、旅行等）所适用的评判标准可能完全不同，无法用统一因果图描述。为此，团队为每个问题单独构建了一张因果图。

五、地图揭示：不同AI的“思维”是否一致？

实验结果带来了几个引人关注的发现。

在医疗诊断任务上，三个AI提取出的概念高度相似。Gemini-2-Flash识别出发烧、面部压迫感、鼻塞、光敏感度四个核心概念；gpt-OSS-20B在这四个之外还识别出疲劳感；Qwen3-14B的结果也类似，多出了一个“系统性疲劳”概念。这些概念与生成数据集时所使用的真实因果结构中的变量基本一一对应。也就是说，在这个结构清晰的合成任务上，三个AI都成功“看穿”了数据背后的真实机制。

然而，尽管关注的概念相似，三者构建的因果图却各不相同。以偏头痛为例，不同模型对“哪个症状是其他症状的原因、哪个症状是预测结果的直接父节点”有着不同判定。这表明，即使面对相同信息，不同AI模型内部的推理结构可能大相径庭。

在情感分析任务上，这种分歧更加明显。三个AI提取的概念集合本身就有显著差异：Qwen3-14B关注“享受感、受众吸引力、期望管理、情感冲击、表演质量”；Gemini-2-Flash关注“享受感、满足感、执行质量、真诚度、聚焦感”；gpt-OSS-20B则关注“推荐意愿、享受感、基调、受众参与度、整体质量”。这些集合部分重叠，但每个AI都有独特的视角与侧重。这表明，面对真实世界的“模糊”任务，不同AI模型确实发展出了不同的内部推理策略。

在“AI评法官”任务上，每个AI对各问题的评判标准也展现出稳定的个性特征。Gemini-2-Flash更看重回答的简洁直接性和实用性；gpt-OSS-20B更关注回答的相关性和深度；Qwen3-14B则对回答的可行性和现实性赋予更多权重。

这些发现对实际应用有重要启示：当为高风险任务（如医疗辅助决策）选择AI模型时，仅比较准确率远远不够，还需了解不同模型各自的推理逻辑是否符合您的价值观和业务需求。

六、验证地图精度：因果图的评估方法

研究团队面临一个棘手问题：如何验证得出的因果图是否真的反映了AI的推理逻辑？毕竟没有人知道AI推理的“标准答案”图长什么样，也没有现成基准可供对比。

团队设计了一套巧妙的间接验证方案，核心思路是“预测性忠实度”检验——如果因果图真的抓住了AI推理中的关键依赖关系，那么图中每个节点的“父节点”集合，应该比其他任何概念组合都更能预测该节点的状态。

具体操作如下：对于因果图中的每个节点（每个概念变量及最终预测结果），团队训练一个简单逻辑回归模型，用该节点的“因果父节点”集合来预测其状态。然后，他们将同样的预测任务交给所有其他可能的子集，比较因果父节点集合的预测准确率与其他组合的平均准确率。

结果令人信服：在所有测试的模型和数据集上，因果图确定的父节点集合的预测准确率，都显著高于其他随机组合的平均水平。进一步地，团队还统计了因果父节点集合在所有可能组合的“准确率排行榜”上的位置，发现在绝大多数情况下，因果父节点集合都跻身准确率最高的前三名。

以其中一组数据为例：在医疗诊断任务上，使用因果图父节点预测诊断结果的准确率为0.67，而使用其他不含父节点集合的概念组合的平均准确率仅为0.59。这0.08的差距在统计上显著，且在100%的交叉验证折次中，因果父节点方案均进入准确率前三。

七、“变脸实验”是否真正有效？

研究团队还专门验证了数据扩展阶段的价值——即那套生成大量“变脸版本”文本的程序是否真的改善了最终结果。

他们设计了三种对比方案：第一种直接用完整原始数据集做因果分析；第二种只用被选作MCMC扩展起点的那部分原始数据（称为“种子数据”）做因果分析；第三种用种子数据加上AI生成的对应事实文本一起做因果分析。

结果显示，“种子数据+对应事实文本”组合在预测准确率上表现最佳，无论是预测最终分类结果还是预测中间概念状态。对应事实数据的加入，为概念空间中原本覆盖不足的区域提供了样本，使因果依赖关系的估计更加准确和稳定。

团队还通过一种称为“KL散度”的统计量追踪数据扩展过程是否真正收敛。KL散度可理解为“当前数据分布与之前数据分布之间的差距”——若该差距随着扩展进行逐渐趋于零，说明扩展过程已达到饱和，继续生成新样本不会再改变数据整体分布。

为确保这种收敛并非数学假象（因为样本数量增加后，每个新样本的影响权重天然变小，KL散度也会自然下降），团队设计了两条理论边界：一条是“完美重叠边界”（每个新样本都与已有样本处于同一概念状态，代表完全无效扩展），另一条是“完全正交边界”（每个新样本都落入全新的、之前从未见过的概念状态，代表最高效探索）。若实际KL散度曲线从靠近“完全正交边界”开始，随着扩展进行逐渐向“完美重叠边界”靠拢，才是真正意义上的有效收敛。

实验结果恰好呈现了这条期望轨迹：早期扩展阶段，AI不断发现新的概念状态组合，KL散度接近正交边界；随着扩展深入，越来越多新样本落入已有概念区域，KL散度逐渐向重叠边界靠拢并趋于稳定。更值得关注的是，当KL散度趋于稳定后，最终的因果图结构也随之稳定——继续扩展数据不再改变因果图中的边结构，说明因果分析已获取了足够的信息。

八、局限性：研究者坦诚承认的不完美

研究团队在论文中列出了几个值得关注的局限性。

概念提取依赖分批处理方式，且每批次的样本组合随机确定。不同的分批方式可能导致AI提取出不同的概念集合，可能遗漏某些重要区分性概念，或使提取出的概念集合缺乏全面性。若计算资源允许，进行多次随机分批提取实验并取综合结果，会比单次实验更可靠。

评估方法目前仅验证了每个节点的“父节点”集合的预测力，并未直接验证更长因果链条的准确性。也就是说，研究只证明了“A直接导致B”这一步可信，但未证明“A通过B再通过C最终导致D”这条完整路径的整体准确性。

整个流程高度依赖目标AI自己完成标注、生成对应事实文本以及判断生成结果是否满足要求。AI的自我评估并不保证完全准确，任何一步的错误都可能传播到后续阶段。团队通过设置严格接受标准来降低这种风险，但无法完全消除。未来工作可考虑引入人工审核或多个AI交叉验证以进一步提升可靠性。

九、这对我们意味着什么

归根结底，这项研究做了一件极有价值的事：它首次让我们能够用一张清晰的概念地图，看清AI在做分类决策时的推理结构。

不再是“AI说它是这样想的”，而是“通过观察AI的行为模式，我们推断出它实际上是这样想的”。这两者之间的区别，如同听一个人描述自己的性格，与观察这个人在不同情境下的真实行为——后者往往更接近真相。

更重要的是，这种理解是可操作的。当你发现某个AI模型的推理图中，“种族”这个概念对最终预测结果有直接的因果影响，你就能意识到该模型可能存在偏见，需要进一步审查。当你发现两个准确率相近的模型在推理结构上截然不同，你就能根据自身的业务需求和价值判断选择更合适的那一个。

这张“AI思维地图”，正将AI系统的选择与使用，从盲目信任转变为知情决策。

Q&A

Q1：因果图在解释AI推理时，与普通的“注意力分析”或“特征重要性”有何本质区别？

A：普通的注意力分析或特征重要性方法只能告诉你AI在做决定时“看”了哪些词或特征，但无法说明这些特征之间的关系，也无法区分相关性与因果性。因果图则更进一步，它描述的是AI感知到的高层概念之间的直接因果影响关系，可以揭示哪些概念是哪些其他概念的“原因”，而不仅仅是“一起出现”。这对于发现AI推理中的偏见或逻辑错误更具实际价值。

Q2：MCMC启发的反事实数据扩展，与普通的数据增强方法有何不同？

A：普通数据增强（如翻转图片、同义词替换）旨在增加样本数量和多样性，但没有明确的目标概念控制。这项研究中的反事实扩展是有目的性的——每次改写都针对一个特定概念，试图改变该概念的状态同时保持其他概念稳定。而且，系统会验证生成的文本是否真的达到了预期的概念状态变化，不符合要求的会被拒绝或重新生成。这种受控、有目标的扩展方式，能够系统性地覆盖原始数据中缺失的概念状态组合。

Q3：这套方法在医疗、法律等高风险场景中实际部署时面临的最大挑战是什么？

A：最大挑战在于方法本身依赖目标AI来生成和验证数据，而AI的自我评估不能保证完全可靠。在高风险场景中，这种“让AI解释AI自己”的内生性问题可能带来系统性偏差——如果AI本身存在某种固定的认知偏差，在生成反事实文本和标注概念时也可能带入同样偏差，导致最终因果图无法准确反映真实推理结构。未来需要引入独立的人工专家审核或多模型交叉验证机制以降低这一风险。