蚂蚁集团揭AI问答作弊:检索增强系统真假思考
先给出几项核心判断。目前主流的AI问答系统,尤其是基于检索增强生成(RAG)架构的模型,普遍存在一个被低估的问题:当它表现优异时,我们无法区分它是真正理解了内容,还是仅仅从文档中“拷贝”了答案。
蚂蚁集团研究团队的这项成果恰好揭开了这一层迷雾。论文于2026年6月发布,编号arXiv:2606.05633,感兴趣的读者可按此编号查阅原文。
机器在“阅读理解”时,究竟在做什么?
设想你参加一场开卷考试,允许带一本参考书。考后分数大幅提升。问题在于:这种提升是因为你真正掌握了书中的知识,还是仅仅找到了答案并照抄?
这个看似简单的问题,正是该团队追问的核心。他们聚焦当下AI领域广泛采用的技术——检索增强生成(RAG)系统。这套系统的工作模式就像“开卷考试”:你提问时,AI不仅依赖自身“记忆”,还会先检索一批相关文档,整合后产出答案。为提高效率,工程师通常用一个大型语言模型先将文档“整理”成更精炼的参考材料,再交由另一个较小模型最终作答。负责整理材料的大模型,研究者称之为“编译器”或“改写器”。
在多跳问答这类复杂任务中,加入“改写器”后,系统准确率能提升数十个百分点。学术界普遍认为,这归功于改写器的信息整合能力——它将散乱文档梳理得条理清晰,便于下游模型处理。这个解释听起来合理且令人信服。
然而,研究团队发现了一个被忽略的细节:在改写器处理后的材料中,正确答案本身(即具体的答案字符串)出现的概率高达约80%。这意味着改写器可能不仅仅是梳理逻辑,同时也在将正确答案“搬运”到更显眼的位置。于是,一个严峻的问题浮现:这几十个百分点的提升,究竟有多少来自“信息整合”,又有多少只是因为“答案被直接呈现在眼前”?长期以来,这两方面混淆在一起,从未被清晰分离。
一、一场精心设计的“拆弹实验”
针对这个问题,最直接的方法是将改写材料中的正确答案“藏起来”,观察系统是否会崩溃。如果崩溃,说明系统依赖答案本身;如果不崩溃,则说明它理解了内容。学界之前采用的做法是用一个特殊符号——[MASK]——替换正确答案的文字,然后重新测试。
但研究团队对该方法本身提出质疑。他们发现,在2WikiMultihopQA数据集上,用[MASK]替换答案后,系统得分比原始状态高出4.12分。这乍看像是系统具备“真实理解能力”。然而,换成另外四种替换符号时,结果完全逆转:用[REMOVED]、自然语言“the answer was removed”、普通名词“thing”、一串符号“###”替换答案,四种情况下的得分全部低于原始基准线,范围从负3.33分到负7.81分不等。
这意味着什么?那个看似“稳定”的4.12分残差,根本不是真实理解能力的体现,而是[MASK]符号对模型产生了一种特殊暗示。模型在训练时见过大量含有[MASK]的填空题,看到它后会以某种方式“补全”。换言之,这个诊断工具本身就有缺陷。一把不准的尺子量出的结论,自然不可靠。
因此,团队设计了一套全新的实验方案。核心思路是将一场“考试”设计成一场“受控手术”——并非简单遮住答案看结果,而是通过四种精确的干预手段,在保持其他条件不变的情况下,单独操控“正确答案是否出现”这一个变量。
二、四把手术刀,精准剖开因果
研究团队针对改写器生成的每一份材料,设计了四种干预操作,以测量“答案是否出现”对最终得分的真实影响。
第一种操作叫“移除”:将改写材料中所有出现正确答案的地方,全部替换为[MASK]符号。这直接剥夺了小模型从材料中直接读取答案的机会。第二种操作叫“安慰剂”:不动正确答案,而是找一段字数完全相同的无关内容,用[MASK]替换掉。该操作模拟了“对材料动了手脚”的干扰效果,但未触及答案本身。对比“移除”和“安慰剂”造成的分数差异,就能将“答案消失”的真实影响,从“材料被篡改”的一般性干扰中分离出来。
第三和第四种操作,针对的是改写材料中原本就没有正确答案的题目。研究者此时人工将正确答案“注入”进去:第三种方式是“前置注入”,在材料开头加上一句“注意:正确答案是XXX”;第四种方式是“中段注入”,将同样的信息插入材料中间的某个句子边界处。如果注入后分数提升,说明答案的出现确实有助于小模型;如果插入位置不同导致效果不同,则说明小模型对答案的位置也很敏感。
整个实验在三个不同的阅读模型系列(Qwen2.5、Qwen3.5和GLM)、两个多跳问答数据集(HotpotQA和2WikiMultihopQA)、三种改写器配置上分别进行,共产生十二组完整的对照结果。每组结果均经过1000次自助采样计算置信区间,以确保统计可靠性。
这套设计的精妙之处在于,“移除”和“安慰剂”都会往材料中写入[MASK]符号,因此该符号本身的影响会在两者相减时自动抵消,最终得到的分数差异,就是干干净净的“答案存在与否”的因果效应。
三、真相浮出水面:答案才是那个“幕后推手”
实验结果令人印象深刻,且出奇地一致。
在每一组“移除”实验中,当正确答案从改写材料中消失后,小模型的得分暴跌37到65个百分点。相比之下,“安慰剂”实验中,同样大小的内容被替换掉后,得分变化幅度仅在0到13个百分点之间,有些情况下甚至还略微上升。两者相减,得到的“净因果效应”在每一组实验中都超过25个百分点,范围是负28.2到负64.1。更关键的是,十二组结果的方向完全一致,无一例外。
其中有一组数据特别值得单独说明。在用Qwen3.5-35B这个较强阅读模型的实验中,安慰剂操作的得分变化是略微正数(大约正1.9到正4.2个百分点)——也就是说,换掉那些无关内容,反而还稍微有点帮助。但在同样的条件下,移除正确答案后,得分依然暴跌几十个百分点。这就更有力地说明,崩溃的原因不是“材料被动了手脚”,而是“答案消失了”。
答案注入实验的结果,则揭示了另一面的镜像现象。将正确答案前置注入到那些原本缺少答案的改写材料里,在十二组实验中的十组里,得分出现正向提升,幅度在正0.7到正9.7个百分点之间。但将同样的信息插入材料中段,结果大相径庭——十二组里有九组出现负向或零变化,幅度在负13.3到正5.5之间。这意味着,小模型不仅依赖正确答案的存在,还对答案出现的位置非常敏感:放在最前面最有用,藏在中间则效果大打折扣,甚至适得其反。
这是一个相当重要的发现。它说明,改写器真正做的一件关键事情,就是把答案“摆到显眼位置”,而不仅仅是“把信息组织得更清晰”。
四、排除干扰,确认结论的可靠性
研究团队非常谨慎,他们设计了多重检验来确保这些结论不是技术误差造成的幻觉。
一个最基础的检验是“同一性测试”:对于那些原本就没有正确答案出现在改写材料中的题目,“移除”操作其实什么都没有改变。研究者对这些题目重新跑了一遍阅读模型,发现每道题的得分变化中位数精确地等于零。这就排除了一种可能性:也许只是“再跑一遍模型”这件事本身引入了随机性。结论很清晰——实验里观察到的所有变化,都是真实干预造成的,不是测量误差。
与此同时,团队通过附录里的一系列补充实验,进一步描绘了这个现象的边界。在阅读模型规模上,从Qwen2.5的0.5B版本一路到72B版本,改写器带来的增益在HotpotQA数据集上随模型变强而减弱——0.5B时约有20个百分点的增益,72B时只剩约1个百分点。这说明,改写器对小模型帮助巨大,但对强模型几乎没有额外价值。
在另一个数据集Qasper(学术论文问答数据集,答案更开放灵活)上,同样的改写操作不仅不能稳定提升得分,有时还会拖低。研究者还专门测试了换用更强的改写器(Qwen3-235B)是否能弥补这个缺陷——答案是:稍有改善,但HotpotQA和Qasper之间的根本差距依然存在。这说明,改写器的效果不只取决于它自身有多强,还深刻依赖于数据集的性质和阅读模型的能力。
此外,研究者还做了一个“蒙眼实验”:让改写器在不知道当前问题的情况下整理文档。结果改写器整理出的材料里,答案出现率大约从79%直降到50%左右,且没有任何一条材料以“只写出答案”的极简形式出现(这种极简形式在有问题引导时占约20%-39%)。这证明了,改写器之所以频繁把答案搬运到显眼位置,很大程度上是因为它知道要回答什么问题——它是有意识地在“针对性地提炼答案”,而不只是在做通用的文本清理。
五、数字背后的完整图景
研究中的一张完整结果表格,将十二组核心实验的数字清晰地呈现出来。以其中最显著的案例为例:在使用GLM-4.7作为阅读模型、GLM-5作为改写模型的实验中,仅使用改写器时,移除正确答案导致得分下降65.3个百分点,而安慰剂操作反而让得分微微上升了1.2个百分点,最终的净因果效应高达负64.1个百分点——这几乎等于说,正确答案就是系统得分的全部来源。
在Qwen2.5-7B作为阅读模型的实验中,三种改写配置下的净因果效应分别是负28.2、负32.8和负28.7个百分点,置信区间的上下界都明显不包含零,统计上非常可靠。
回到哨兵符号的对照实验,结果同样一目了然。HotpotQA数据集上,五种替换符号都让得分跌到了原始基准线以下,结论一致。但2WikiMultihopQA数据集上,[MASK]独树一帜地留下了正4.12分的“残差”,而其余四种符号全部反转为负数,从负3.33到负7.81不等。这就是研究者所说的“哨兵脆弱性”——一个依赖单一特殊符号的诊断工具,本身就是不可靠的。
六、这项研究说了什么,又没说什么
研究团队在论文里对自己结论的边界保持了相当清醒的认识。
他们明确指出,这项研究并不是在说“改写器毫无价值”。事实上,改写器可能确实在帮助模型过滤噪音、整理逻辑结构,但这些好处在当前的实验框架里和“答案搬运”效应纠缠在一起,无法干净地分离。研究者所能说的是,在他们测试的条件下,大部分的得分提升,都能被“正确答案是否出现在改写材料里”这一个因素所解释。
同时,他们也指出了局限。实验覆盖的是字符串级别的完全匹配——如果改写器用同义词、换种说法将答案改写到材料里,这套检测方法就追不上了(这被称为“释义性泄露”)。此外,实验只在四个特定的“阅读模型-改写器-数据集”组合上进行,不应被直接推广到所有场景。对于离线的、与查询无关的文档整理场景,研究者认为结论不直接适用,但认为类似的“移除与安慰剂”对照设计,依然是评估这类增益来源的合理思路。
他们也没有提出任何新的改写器设计,或建议用什么方法来“修复”这个问题。正如他们在论文里所说,这项贡献的本质是诊断性的——他们提供了一把经过校准的尺子,让其他研究者能用它来检验自己的结论,而不是提供一个现成的解决方案。
为了让这把尺子能被别人用上,研究团队还随论文公开发布了他们的实验工具,包括干预实验的运行代码和哨兵对照面板,让未来的研究者可以用同一套标准来检验自己的RAG改写器。
说到底,这项研究做的事情,类似于一位考官在“开卷考试”之后,把所有考生的参考书收走,重新考了一遍。结果发现,绝大部分考生的“提升”都消失了。这不一定意味着那本参考书没有价值,但它至少告诉我们:在考场上,“能找到正确答案并抄下来”和“真正理解了知识”,是两件非常不同的事情,而这两件事之前一直被算在一起。
对于真正想在AI问答系统中获得可靠推理能力的开发者来说,这意味着在评估一套改写器的效果时,必须同时追问两个问题:它是否让正确答案更容易出现在材料里?它在答案已经存在的前提下,是否还额外帮到了阅读模型?只有两个问题都有明确的回答,才算是对这套系统有了真正的理解。
对于使用这类系统的普通用户来说,这个研究则提醒我们:一个AI系统在某类任务上表现出色,背后的原因可能远比“它很聪明”要复杂。有时候,它只是恰好在对的位置放了一个对的词,然后另一个更小的AI把它抄了下来。
Q1:RAG改写器(rewriter)究竟是什么,它在AI问答系统里起什么作用?
A:RAG改写器是检索增强问答系统里负责“整理参考材料”的大型语言模型。当用户提问时,系统会先检索一批相关文档,再由改写器把这些散乱文档梳理成一份更精炼的摘要,最后交给较小的阅读模型来生成最终答案。通俗地说,改写器就像一个“助理”,先帮你把参考书里的要点提炼出来,阅读模型再根据这份提炼稿作答。
Q2:蚂蚁集团的研究发现改写器提升了多少分数是靠“搬运答案”而非真正的理解?
A:研究发现,在移除改写材料中的正确答案之后,阅读模型的得分会暴跌37到65个百分点;而移除同等大小的无关内容(安慰剂对照),得分几乎不变甚至略微上升。两者的净差异高达负28到负64个百分点,涵盖了全部十二组实验,方向完全一致。这说明大部分性能提升都依赖于答案字符串本身的出现,而非信息整合质量。
Q3:为什么之前常用的[MASK]替换方法不足以检测这个问题?
A:因为[MASK]符号本身对语言模型具有特殊的激活效果,模型在预训练时大量接触过这种“填空题”格式,看到[MASK]会以某种方式补全内容,导致得分并不真正反映“答案缺失”的状态。蚂蚁集团的研究用四种替代符号做了对照,发现[MASK]留下的“非泄露残差”在其他符号下全部消失甚至反转,证明这是符号本身的伪影,而非真实的理解能力。
