Adobe研究院双重核查机制：杜绝AI谎言，确保大模型每句话皆有据可查

2026-05-15阅读 0热度 0

语言模型

这项研究由Adobe与Adobe Research团队联合完成，以预印本形式发布于2026年4月23日，论文编号为arXiv:2604.21193。

从日常问答到专业领域的辅助决策，大语言模型（LLM）正深度介入我们的信息处理流程。它们通常以高度自信的姿态输出流畅、逻辑自洽的文本，但这种表象之下潜藏着一个根本性风险：模型会生成看似合理实则完全虚构的内容，即“幻觉”（Hallucination）。在医疗诊断、法律分析或科学论证等高精度场景中，这种错误可能导致严重后果。为此，Adobe研究团队提出了DA VinCI框架，旨在为AI的每一句陈述建立可追溯的核查机制。其名称“Dual Attribution and Verification in Claim Inference”既是对达·芬奇（Leonardo da Vinci）跨领域智慧的致敬，也精准概括了其双重归因与验证的核心架构。

DA VinCI的运作逻辑类似于严谨的学术审查：当面对一个AI生成的陈述时，系统首先执行“归因”，即主动寻找支持该陈述的文本证据；随后进入“验证”阶段，由一个独立的推理模型评估证据与陈述的逻辑一致性，并输出一个置信度评分。若评分低于预设阈值，系统将主动返回“信息不足”而非强行给出结论。在FEVER和CLIMATE-FEVER两个标准事实核查数据集上的测试表明，该框架将分类准确率与F1分数提升了5%至20%。

一、AI为什么会“说谎”，而且说得这么自信

理解DA VinCI的价值，需先剖析大语言模型产生“幻觉”的根源。

本质上，大语言模型是一个基于海量文本训练的概率预测引擎。它通过计算上下文关联，生成统计意义上最合理的“下一个词”。这个过程赋予了模型强大的语言生成能力，但也意味着其输出缺乏内在的“事实核查”模块。模型并不“理解”或“确知”其生成内容的真实性，它只是在执行模式匹配与序列预测。因此，当遇到知识盲区或模糊边界时，模型倾向于生成一段符合语言风格、听起来“正确”的文本，而非承认不确定性。

这种缺陷在专业领域被急剧放大。现有解决方案往往将证据检索与真实性验证割裂处理，或只提供结论而不解释依据。DA VinCI的创新在于构建了一个闭环系统：让“寻找什么证据”与“如何验证”两个环节动态交互、相互增强，从而提升最终判断的可靠性与透明度。

二、DA VinCI的两大核心引擎：归因模块与验证模块

DA VinCI的流程设计仿效了严格的新闻核查，分为归因与验证两个协同阶段。

归因模块负责为待核查的陈述定位相关证据。研究团队设计了两种策略以适应不同场景：

“全证据归因”直接使用完整的、人工标注的证据段落。这种方法在证据质量有保障时效果最佳，能提供完整的上下文。

“基于片段的归因”则更贴近现实应用，它通过一个基于RoBERTa的问答模型，从大量候选文本中抽取最相关的片段。这种方法虽能精确定位，但存在因脱离上下文而产生歧义的风险。

验证模块则承担事实判官的角色。它将原始陈述与归因得到的证据拼接，输入一个自然语言推理（NLI）模型。该模型需要判断三者关系：证据是否支持、反驳该陈述，或不足以做出判断。同时，模型会输出一个0到1之间的置信度分数。团队测试了DeBERTa-large、RoBERTa-large等多种主流NLI模型，以评估框架的通用性，而非绑定于单一模型。

三、置信度重校准：给“不确定”一个合法出口

DA VinCI最具实践意义的设计之一是置信度重校准机制。

传统验证模型即使信心不足，也往往被迫输出一个确定性标签。DA VinCI引入了阈值（τ，默认0.6）概念：当模型输出的置信度低于此阈值时，无论其原始标签为何，系统都会将结果重写为“信息不足#”（“#”标识此为校准后结果）。这相当于为系统设置了“诚实底线”，强制其在证据薄弱时保持审慎，优先避免误判。

对于存在多条证据的复杂陈述，系统会汇总各条证据的验证结果，通过多数投票或加权平均得出最终判断，增强了系统的鲁棒性。研究还系统测试了0.7、0.8、0.9等不同阈值，以量化精确率与召回率之间的权衡，为不同风险偏好的应用场景提供配置依据。

四、测试场地：两个专为“核查真假”设计的数据集

为客观评估DA VinCI，研究选用了两个领域内公认的基准数据集。

FEVER数据集包含从维基百科提取的陈述，分为“蕴含”、“矛盾”、“中立”三类，并附有标准证据句子。其类别分布均衡，是测试通用知识核查能力的经典基准。

CLIMATE-FEVER数据集则专注于气候变化这一科学领域，其陈述源自科学文献，标签为“支持”、“反驳”和“信息不足”。该数据集的显著特点是类别极度不均衡，“信息不足”样本占比近65%，这真实反映了专业领域中大量陈述缺乏明确证据的现状，对系统的审慎性提出了更高要求。

两个数据集的组合，全面考验了系统在通用语境与专业领域下的可靠性与适应性。

五、实验结果：DA VinCI的全面表现

通过与“纯验证基线”（即直接验证完整证据，无归因与重校准）对比，DA VinCI带来的增益清晰可见。

在FEVER数据集上，所有测试模型经DA VinCI-Recalibrated处理后，关键指标均获一致提升。以DeBERTa-large为例，准确率从0.42升至0.48，宏观F1分数从0.36提升至0.41，宏观精确率从0.52跃升至0.61。RoBERTa-large-mnli的提升幅度更大，准确率从0.36增至0.44。

在CLIMATE-FEVER数据集上，提升趋势同样显著且跨模型一致。DeBERTa-large的准确率从0.60提升至0.63，加权F1从0.51提升至0.55。尤为重要的是，DA VinCI显著提升了模型的精确率，这意味着当系统做出“支持”或“反驳”的判断时，该判断的可信度更高。这表明框架的增益效果具有普适性，不依赖于某个特定模型的初始性能。

六、消融实验：拆开零件，看看谁最重要

通过消融实验，研究团队剥离了框架的不同组件，以量化每个部分的价值。

全证据归因 vs. 片段归因：实验结果明确显示，提供完整上下文证据远优于仅使用提取的片段。在FEVER数据集上，全证据版本比片段版本在准确率上高出9%到18%。极端案例如RoBERTa-large-snli，使用全证据时宏观F1为0.48，而使用片段时暴跌至0.19。这证实了上下文完整性对于准确推理至关重要。

置信度阈值影响：测试发现，阈值（τ）是平衡精确率与召回率的关键杠杆。提高阈值（如从0.7升至0.9）会提升精确率（减少误报），但会降低召回率（增加漏报）和整体准确率。在FEVER上，阈值0.7提供了最佳平衡；而在类别不均衡的CLIMATE-FEVER上，提高阈值能在不明显损失准确率的前提下，有效提升判断的可靠性。这为实际部署提供了策略选择：高风险场景（如医疗）可采用更高阈值以求稳妥，通用场景则可选择平衡阈值以兼顾覆盖面。

七、这套系统有哪些局限，未来路在何方

DA VinCI展示了清晰的改进路径，但其当前局限也为未来研究指明了方向。

首先，系统性能高度依赖高质量的证据检索。当前实验基于人工标注的理想证据，而在开放域中，检索模块的质量直接决定验证上限。片段归因的较差表现已警示了证据质量不足的风险。

其次，验证模块依赖于静态预训练的NLI模型，其在处理需要多步推理的复杂陈述或高度专业化术语时可能力有不逮。

第三，框架目前仅实现“外部归因”，即追溯外部文本证据，缺乏“内部归因”能力——无法解释模型内部参数或训练数据如何导致了特定输出。

此外，实验目前仅限于英语，阈值需手动调整而非自适应，也是亟待突破的瓶颈。

针对这些局限，可能的演进方向包括：集成更先进的密集检索器（如DPR、E5）以提升证据质量；开发多跳推理模块处理复杂逻辑链；探索基于提示追踪或激活分析的内部归因技术；将框架扩展至多语言及低资源语言环境；以及研究自适应的置信度校准策略。

DA VinCI的核心贡献，在于为AI的可信输出建立了一套可审计的机制。它不旨在让AI变得更“聪明”，而是致力于让其变得更“诚实”和“透明”。实验数据证明，通过归因与验证的闭环设计及置信度重校准，系统能在不牺牲覆盖面的前提下，显著提升判断的可靠性。其模块化架构也意味着，随着底层检索与推理技术的进步，整体性能具备持续迭代的潜力。在AI日益参与关键决策的当下，一个能提供依据并量化把握的AI系统，其价值远胜于一个仅输出答案的“黑箱”。

Q&A

Q1：DA VinCI框架和普通的AI事实核查系统有什么区别？

核心区别在于流程的完整性与透明度。普通系统往往只做终点式的真伪判断。DA VinCI构建了“归因-验证-置信度评估”的闭环：它强制要求为每个陈述寻找证据，依据证据进行推理，并基于置信度决定是给出结论还是承认“不确定”。这种设计使判断过程可追溯、可解释，尤其符合医疗、法律等高风险领域对审计线索的需求。

Q2：DA VinCI中的置信度阈值是什么意思，普通用户需要关心它吗？

置信度阈值是系统决定“何时放弃判断”的临界点。它是一个可配置的安全参数：阈值越高，系统越保守，仅在把握极大时才下结论，但同时会将更多陈述标记为“不确定”。研究显示0.7是通用场景下的较优平衡点。终端用户通常无需直接调整此参数，但理解其存在有助于解读为何系统有时会拒绝回答，这本身即是其审慎性的体现。

Q3：DA VinCI框架目前支持中文或其他语言吗？

目前不支持。该框架的所有开发与评估均在英语数据集（FEVER, CLIMATE-FEVER）上完成。研究团队已明确将多语言与低资源语言扩展列为未来的重点研究方向之一。因此，现阶段其直接应用主要限于英语语境，对其他语言的支持有待后续研究实现。