蚂蚁集团揭AI问答作弊：检索增强系统真假思考

2026-06-16阅读 0热度 0

蚂蚁集团

先给出几项核心判断。目前主流的AI问答系统，尤其是基于检索增强生成（RAG）架构的模型，普遍存在一个被低估的问题：当它表现优异时，我们无法区分它是真正理解了内容，还是仅仅从文档中“拷贝”了答案。

蚂蚁集团研究团队的这项成果恰好揭开了这一层迷雾。论文于2026年6月发布，编号arXiv:2606.05633，感兴趣的读者可按此编号查阅原文。

机器在“阅读理解”时，究竟在做什么？

设想你参加一场开卷考试，允许带一本参考书。考后分数大幅提升。问题在于：这种提升是因为你真正掌握了书中的知识，还是仅仅找到了答案并照抄？

这个看似简单的问题，正是该团队追问的核心。他们聚焦当下AI领域广泛采用的技术——检索增强生成（RAG）系统。这套系统的工作模式就像“开卷考试”：你提问时，AI不仅依赖自身“记忆”，还会先检索一批相关文档，整合后产出答案。为提高效率，工程师通常用一个大型语言模型先将文档“整理”成更精炼的参考材料，再交由另一个较小模型最终作答。负责整理材料的大模型，研究者称之为“编译器”或“改写器”。

在多跳问答这类复杂任务中，加入“改写器”后，系统准确率能提升数十个百分点。学术界普遍认为，这归功于改写器的信息整合能力——它将散乱文档梳理得条理清晰，便于下游模型处理。这个解释听起来合理且令人信服。

然而，研究团队发现了一个被忽略的细节：在改写器处理后的材料中，正确答案本身（即具体的答案字符串）出现的概率高达约80%。这意味着改写器可能不仅仅是梳理逻辑，同时也在将正确答案“搬运”到更显眼的位置。于是，一个严峻的问题浮现：这几十个百分点的提升，究竟有多少来自“信息整合”，又有多少只是因为“答案被直接呈现在眼前”？长期以来，这两方面混淆在一起，从未被清晰分离。

一、一场精心设计的“拆弹实验”

针对这个问题，最直接的方法是将改写材料中的正确答案“藏起来”，观察系统是否会崩溃。如果崩溃，说明系统依赖答案本身；如果不崩溃，则说明它理解了内容。学界之前采用的做法是用一个特殊符号——[MASK]——替换正确答案的文字，然后重新测试。

但研究团队对该方法本身提出质疑。他们发现，在2WikiMultihopQA数据集上，用[MASK]替换答案后，系统得分比原始状态高出4.12分。这乍看像是系统具备“真实理解能力”。然而，换成另外四种替换符号时，结果完全逆转：用[REMOVED]、自然语言“the answer was removed”、普通名词“thing”、一串符号“###”替换答案，四种情况下的得分全部低于原始基准线，范围从负3.33分到负7.81分不等。

这意味着什么？那个看似“稳定”的4.12分残差，根本不是真实理解能力的体现，而是[MASK]符号对模型产生了一种特殊暗示。模型在训练时见过大量含有[MASK]的填空题，看到它后会以某种方式“补全”。换言之，这个诊断工具本身就有缺陷。一把不准的尺子量出的结论，自然不可靠。

因此，团队设计了一套全新的实验方案。核心思路是将一场“考试”设计成一场“受控手术”——并非简单遮住答案看结果，而是通过四种精确的干预手段，在保持其他条件不变的情况下，单独操控“正确答案是否出现”这一个变量。

二、四把手术刀，精准剖开因果

研究团队针对改写器生成的每一份材料，设计了四种干预操作，以测量“答案是否出现”对最终得分的真实影响。

第一种操作叫“移除”：将改写材料中所有出现正确答案的地方，全部替换为[MASK]符号。这直接剥夺了小模型从材料中直接读取答案的机会。第二种操作叫“安慰剂”：不动正确答案，而是找一段字数完全相同的无关内容，用[MASK]替换掉。该操作模拟了“对材料动了手脚”的干扰效果，但未触及答案本身。对比“移除”和“安慰剂”造成的分数差异，就能将“答案消失”的真实影响，从“材料被篡改”的一般性干扰中分离出来。

第三和第四种操作，针对的是改写材料中原本就没有正确答案的题目。研究者此时人工将正确答案“注入”进去：第三种方式是“前置注入”，在材料开头加上一句“注意：正确答案是XXX”；第四种方式是“中段注入”，将同样的信息插入材料中间的某个句子边界处。如果注入后分数提升，说明答案的出现确实有助于小模型；如果插入位置不同导致效果不同，则说明小模型对答案的位置也很敏感。

整个实验在三个不同的阅读模型系列（Qwen2.5、Qwen3.5和GLM）、两个多跳问答数据集（HotpotQA和2WikiMultihopQA）、三种改写器配置上分别进行，共产生十二组完整的对照结果。每组结果均经过1000次自助采样计算置信区间，以确保统计可靠性。

这套设计的精妙之处在于，“移除”和“安慰剂”都会往材料中写入[MASK]符号，因此该符号本身的影响会在两者相减时自动抵消，最终得到的分数差异，就是干干净净的“答案存在与否”的因果效应。

三、真相浮出水面：答案才是那个“幕后推手”

实验结果令人印象深刻，且出奇地一致。

在每一组“移除”实验中，当正确答案从改写材料中消失后，小模型的得分暴跌37到65个百分点。相比之下，“安慰剂”实验中，同样大小的内容被替换掉后，得分变化幅度仅在0到13个百分点之间，有些情况下甚至还略微上升。两者相减，得到的“净因果效应”在每一组实验中都超过25个百分点，范围是负28.2到负64.1。更关键的是，十二组结果的方向完全一致，无一例外。

其中有一组数据特别值得单独说明。在用Qwen3.5-35B这个较强阅读模型的实验中，安慰剂操作的得分变化是略微正数（大约正1.9到正4.2个百分点）——也就是说，换掉那些无关内容，反而还稍微有点帮助。但在同样的条件下，移除正确答案后，得分依然暴跌几十个百分点。这就更有力地说明，崩溃的原因不是“材料被动了手脚”，而是“答案消失了”。

答案注入实验的结果，则揭示了另一面的镜像现象。将正确答案前置注入到那些原本缺少答案的改写材料里，在十二组实验中的十组里，得分出现正向提升，幅度在正0.7到正9.7个百分点之间。但将同样的信息插入材料中段，结果大相径庭——十二组里有九组出现负向或零变化，幅度在负13.3到正5.5之间。这意味着，小模型不仅依赖正确答案的存在，还对答案出现的位置非常敏感：放在最前面最有用，藏在中间则效果大打折扣，甚至适得其反。

这是一个相当重要的发现。它说明，改写器真正做的一件关键事情，就是把答案“摆到显眼位置”，而不仅仅是“把信息组织得更清晰”。

四、排除干扰，确认结论的可靠性

研究团队非常谨慎，他们设计了多重检验来确保这些结论不是技术误差造成的幻觉。

一个最基础的检验是“同一性测试”：对于那些原本就没有正确答案出现在改写材料中的题目，“移除”操作其实什么都没有改变。研究者对这些题目重新跑了一遍阅读模型，发现每道题的得分变化中位数精确地等于零。这就排除了一种可能性：也许只是“再跑一遍模型”这件事本身引入了随机性。结论很清晰——实验里观察到的所有变化，都是真实干预造成的，不是测量误差。

与此同时，团队通过附录里的一系列补充实验，进一步描绘了这个现象的边界。在阅读模型规模上，从Qwen2.5的0.5B版本一路到72B版本，改写器带来的增益在HotpotQA数据集上随模型变强而减弱——0.5B时约有20个百分点的增益，72B时只剩约1个百分点。这说明，改写器对小模型帮助巨大，但对强模型几乎没有额外价值。

在另一个数据集Qasper（学术论文问答数据集，答案更开放灵活）上，同样的改写操作不仅不能稳定提升得分，有时还会拖低。研究者还专门测试了换用更强的改写器（Qwen3-235B）是否能弥补这个缺陷——答案是：稍有改善，但HotpotQA和Qasper之间的根本差距依然存在。这说明，改写器的效果不只取决于它自身有多强，还深刻依赖于数据集的性质和阅读模型的能力。

此外，研究者还做了一个“蒙眼实验”：让改写器在不知道当前问题的情况下整理文档。结果改写器整理出的材料里，答案出现率大约从79%直降到50%左右，且没有任何一条材料以“只写出答案”的极简形式出现（这种极简形式在有问题引导时占约20%-39%）。这证明了，改写器之所以频繁把答案搬运到显眼位置，很大程度上是因为它知道要回答什么问题——它是有意识地在“针对性地提炼答案”，而不只是在做通用的文本清理。

五、数字背后的完整图景

研究中的一张完整结果表格，将十二组核心实验的数字清晰地呈现出来。以其中最显著的案例为例：在使用GLM-4.7作为阅读模型、GLM-5作为改写模型的实验中，仅使用改写器时，移除正确答案导致得分下降65.3个百分点，而安慰剂操作反而让得分微微上升了1.2个百分点，最终的净因果效应高达负64.1个百分点——这几乎等于说，正确答案就是系统得分的全部来源。

在Qwen2.5-7B作为阅读模型的实验中，三种改写配置下的净因果效应分别是负28.2、负32.8和负28.7个百分点，置信区间的上下界都明显不包含零，统计上非常可靠。

回到哨兵符号的对照实验，结果同样一目了然。HotpotQA数据集上，五种替换符号都让得分跌到了原始基准线以下，结论一致。但2WikiMultihopQA数据集上，[MASK]独树一帜地留下了正4.12分的“残差”，而其余四种符号全部反转为负数，从负3.33到负7.81不等。这就是研究者所说的“哨兵脆弱性”——一个依赖单一特殊符号的诊断工具，本身就是不可靠的。

六、这项研究说了什么，又没说什么

研究团队在论文里对自己结论的边界保持了相当清醒的认识。

他们明确指出，这项研究并不是在说“改写器毫无价值”。事实上，改写器可能确实在帮助模型过滤噪音、整理逻辑结构，但这些好处在当前的实验框架里和“答案搬运”效应纠缠在一起，无法干净地分离。研究者所能说的是，在他们测试的条件下，大部分的得分提升，都能被“正确答案是否出现在改写材料里”这一个因素所解释。

同时，他们也指出了局限。实验覆盖的是字符串级别的完全匹配——如果改写器用同义词、换种说法将答案改写到材料里，这套检测方法就追不上了（这被称为“释义性泄露”）。此外，实验只在四个特定的“阅读模型-改写器-数据集”组合上进行，不应被直接推广到所有场景。对于离线的、与查询无关的文档整理场景，研究者认为结论不直接适用，但认为类似的“移除与安慰剂”对照设计，依然是评估这类增益来源的合理思路。

他们也没有提出任何新的改写器设计，或建议用什么方法来“修复”这个问题。正如他们在论文里所说，这项贡献的本质是诊断性的——他们提供了一把经过校准的尺子，让其他研究者能用它来检验自己的结论，而不是提供一个现成的解决方案。

为了让这把尺子能被别人用上，研究团队还随论文公开发布了他们的实验工具，包括干预实验的运行代码和哨兵对照面板，让未来的研究者可以用同一套标准来检验自己的RAG改写器。

说到底，这项研究做的事情，类似于一位考官在“开卷考试”之后，把所有考生的参考书收走，重新考了一遍。结果发现，绝大部分考生的“提升”都消失了。这不一定意味着那本参考书没有价值，但它至少告诉我们：在考场上，“能找到正确答案并抄下来”和“真正理解了知识”，是两件非常不同的事情，而这两件事之前一直被算在一起。

对于真正想在AI问答系统中获得可靠推理能力的开发者来说，这意味着在评估一套改写器的效果时，必须同时追问两个问题：它是否让正确答案更容易出现在材料里？它在答案已经存在的前提下，是否还额外帮到了阅读模型？只有两个问题都有明确的回答，才算是对这套系统有了真正的理解。

对于使用这类系统的普通用户来说，这个研究则提醒我们：一个AI系统在某类任务上表现出色，背后的原因可能远比“它很聪明”要复杂。有时候，它只是恰好在对的位置放了一个对的词，然后另一个更小的AI把它抄了下来。

Q1：RAG改写器（rewriter）究竟是什么，它在AI问答系统里起什么作用？

A：RAG改写器是检索增强问答系统里负责“整理参考材料”的大型语言模型。当用户提问时，系统会先检索一批相关文档，再由改写器把这些散乱文档梳理成一份更精炼的摘要，最后交给较小的阅读模型来生成最终答案。通俗地说，改写器就像一个“助理”，先帮你把参考书里的要点提炼出来，阅读模型再根据这份提炼稿作答。

Q2：蚂蚁集团的研究发现改写器提升了多少分数是靠“搬运答案”而非真正的理解？

A：研究发现，在移除改写材料中的正确答案之后，阅读模型的得分会暴跌37到65个百分点；而移除同等大小的无关内容（安慰剂对照），得分几乎不变甚至略微上升。两者的净差异高达负28到负64个百分点，涵盖了全部十二组实验，方向完全一致。这说明大部分性能提升都依赖于答案字符串本身的出现，而非信息整合质量。

Q3：为什么之前常用的[MASK]替换方法不足以检测这个问题？

A：因为[MASK]符号本身对语言模型具有特殊的激活效果，模型在预训练时大量接触过这种“填空题”格式，看到[MASK]会以某种方式补全内容，导致得分并不真正反映“答案缺失”的状态。蚂蚁集团的研究用四种替代符号做了对照，发现[MASK]留下的“非泄露残差”在其他符号下全部消失甚至反转，证明这是符号本身的伪影，而非真实的理解能力。

蚂蚁集团揭AI问答作弊：检索增强系统真假思考

相关阅读

最新教程

最新资讯