跨语言深度研究盲点：早稻田大学揭露AI致命缺陷

2026-06-19阅读 0热度 0

多语言

这项由早稻田大学、西北大学、理化学研究所AIP中心、Snowflake公司、犹他大学、杜克-新加坡国立大学医学院及东京大学联合进行的研究，于2026年6月13日以预印本形式在arXiv上发布，论文编号为arXiv:2606.15345。

先从一个思想实验切入。假设你雇佣了一位只懂英语的私家侦探去调查一桩案件，但现场所有关键证据——目击者证词、现场照片说明、警方笔录——全部是日文撰写。这位侦探能成功破案吗？

这个看似荒诞的场景，精准刻画了当前顶级AI研究助手面临的真实困境。这些被称为“深度研究智能体”的AI系统，本质上是擅长搜索的机器侦探：它们自主上网检索、筛选文件，再将线索整合成完整答案。学术界已为这些AI侦探设计了一套标准化能力测试，最权威的当属BrowseComp-Plus。这套题库包含大量需多步网络搜索才能破解的难题，且所有题目与配套证据文件均为英文。

问题在于：现实世界的信息从来不是单语种的。互联网被中文、法语、日语、斯瓦希里语等语言充斥。如果一个AI侦探拿着英文提问，却必须从日文证据中寻找线索，它还能维持原有的破案水准吗？

这正是本次多机构联合研究的核心命题。研究团队构建了一套全新的测试基准——XBCP（Cross-lingual BrowseComp-Plus），专门测量AI系统在证据语言与提问语言不一致时的表现。这是学术界首次针对“跨语言深度研究”场景设计系统性评测基准，填补了这一领域的长期空白。

搭建测试场：如何制造一套多语言侦探考题

研究团队的设计思路相当精妙。他们没有从零编题，而是直接借用了BrowseComp-Plus的现有题库框架。该题库包含830道英文问题及配套的5040份经过人工验证的英文证据文件。团队的任务，是将所有证据文件“翻译成各种语言”，而问题与标准答案则保持英文原样。

具体操作中，他们选择了12种语言。高资源语言（互联网内容丰富，AI对其理解较好）包括中文、英文、法文、德文、日文、韩文、葡萄牙文和西班牙文，共8种。低资源语言（互联网内容稀少，AI掌握程度有限）则选择了斯瓦希里语、沃洛夫语、约鲁巴语和祖鲁语这4种非洲语言。翻译工作由GPT-5.4完成，要求完整翻译标题、内容及专业术语，仅保留网址、电子邮件地址、数学公式和代码块。

翻译与验证流程

翻译完成后，团队聘请了专业双语评审人员核查质量。评审从准确性、流利度和完整性三个维度展开，每项满分5分，对11种非英文语言各抽取200份样本评分。结果显示，所有语言的平均分均高于4.0分，说明翻译质量足以用于受控实验，尽管存在一些细微瑕疵。

整套XBCP测试集包含两种配置。第一种是“跨语言设置”：每道题的所有证据文件被分配至同一种语言，测试AI面对“全日文证据”或“全法文证据”时的表现差异。第二种是“多语言设置”：5040份证据文件被随机均分至12种语言，每种语言分得420份，让AI同时面对一个混杂了多种语言的证据库。这两种配置分别从不同维度考察AI侦探的跨语言能力。

参赛的侦探与搜索工具

研究团队挑选了4位“AI侦探”参与测试，分别为GPT-OSS-20B、GPT-OSS-120B、QWEN3.6-35B-A3B和DeepSeek-V4-Pro。这些名称或许晦涩，但简单来说，它们可被视为四位能力各异的侦探，参数越多，通常推理能力越强。

光有侦探还不够，需要搜索工具——即“检索器”——来协助侦探在海量文件中定位相关证据。团队测试了5种检索器：一种是老派的关键词匹配方法BM25（类似传统图书馆索引卡系统，仅识别文字，不理解含义）；另外四种是现代“语义理解”型检索器，包括QWEN3-Embedding-4B、QWEN3-Embedding-8B、Multilingual-E5-Large和Arctic-Embed-L-2.0。这些语义检索器经过大量多语言数据训练，理论上具备跨语言理解能力，能找出语言不同但语义相近的内容。

每位侦探搭配每一种搜索工具，在三种条件下“破案”：原始英文证据库（作为参照基准）、多语言设置、跨语言设置。评判标准包括答案正确率、证据被找到的比例（召回率）、搜索次数、答案可信度的自我评估准确度（校准误差），以及引用证据的可靠性。

案件结果：数字背后透出的震惊

实验结果用一个词形容：惨烈。

先看最强选手——DeepSeek-V4-Pro——搭配最佳语义检索器QWEN3-Embedding-8B的表现。在原始英文证据库中，其正确率达64.70%，为所有测试组合中的最高成绩。但当证据被翻译成其他语言后，多语言设置下的正确率跌至48.80%，跨语言设置下更是仅有42.29%。换言之，仅仅改变证据的语言，这位最强侦探的破案率就下降了大约15到22个百分点。

其他侦探的情况更不乐观。以GPT-OSS-20B为例，搭配同一检索器，在英文证据库中正确率为32.89%，到了多语言设置就跌至12.05%，跌幅近21个百分点。若使用老派的关键词检索器BM25，情况更为惨淡——原本15.18%的正确率，到多语言设置直降至3.13%，几乎等同于随机猜测。

一个值得关注的关键细节：在多语言设置与跨语言设置之间，大多数侦探的表现差距并不大。这说明问题的核心不在于“证据是一种语言还是多种语言混杂”，而在于“证据语言和问题语言不一致”这件事本身。一旦存在语言不匹配，破案率便大幅下滑。

与此同时，检索器找到正确证据的能力（证据召回率）也同步跳水。以GPT-OSS-120B配QWEN3-Embedding-8B为例，英文环境下证据召回率为48.19%，但在多语言和跨语言设置下都跌至约28%。语义型检索器虽远强于关键词检索器——BM25在翻译后的环境中几乎找不到任何有用证据——但即便最好的语义检索器，也损失了近20个百分点的证据召回能力。

不止失误增多，还变得更盲目自信

除破案率下降外，研究团队还发现了一个更令人不安的现象：当证据是外语时，AI侦探不仅能力下降，还变得更“不知道自己不知道”。

在这项研究中，“校准误差”是衡量AI自我评估准确度的指标。简单来说：AI在给出答案后会附带一个“我有几成把握”的估计。如果它说“我90%确定”，那最终实际答对的概率也应接近90%。但当证据是外语时，AI侦探的校准误差明显增大——它们声称自己很确定，实际却答错了。

以GPT-OSS-120B搭配QWEN3-Embedding-8B为例，在英文证据库下校准误差为42.50%，到了多语言设置飙升至57.78%，跨语言设置下为57.45%。这意味着当证据是翻译版时，这位侦探不仅破案率下降，对自己的错误判断也变得前所未有的自信。

更值得注意的是，面对外语证据，侦探们的搜索次数普遍增加。但额外的搜索努力并未能弥补损失的破案率。仍以GPT-OSS-120B为例，在英文环境下平均搜索25.35次，到了多语言和跨语言环境分别增加到30.01次和30.45次——多搜了近5次，但答对率反而从38.07%跌至14-15%左右。显然，多努力并不等于多收获，额外的搜索只是无用功。

引用证据也出了问题：找到了却没用好

研究还专门检查了AI侦探在撰写最终答案时，是否正确引用了找到的证据文件。这个指标被称为“引用可靠性”，包括引用覆盖率、引用精确度和引用召回率。

结果显示，当证据是外语时，这三个指标全部下降。以DeepSeek-V4-Pro为例，在英文环境下引用覆盖率为88.07%，引用精确度为85.80%；到了多语言设置分别跌至79.64%和79.64%，跨语言设置则进一步下滑至74.46%和70.76%。语言不匹配不仅让侦探找不到证据，即便找到了，它们在写报告时也更容易忘记引用，或错误地引用了不相关的文件。

研究团队深入分析了出错类型，发现了两类主要错误：第一类是“映射失败”——侦探确实找到了正确的证据文件，但最后写答案时却引用了其他不相关的文件；第二类是“根本没找到”——检索器从始至终就没把正确的证据文件找出来，侦探只好引用一些英文的无关文件来凑数。在翻译后的环境中，“根本没找到”这类错误占比明显上升，说明检索器的失败是引用质量下降的主要根源。

终极实验：将答案直接塞给侦探，结果还是不对

为弄清究竟是“找证据”环节出了问题，还是“理解证据并写答案”环节出了状况，研究团队设计了一个终极诊断实验——“神谕检索”。在此实验中，研究人员直接将所有正确的证据文件塞进AI侦探的输入窗口，无需侦探搜索，观察它能否答对。

实验结果令人深思。当正确证据被直接提供时，侦探的表现大幅提升：英文证据条件下，GPT-OSS-20B的正确率从32.89%飙升至90.36%，GPT-OSS-120B从38.07%飙升至94.70%，QWEN3.6-35B-A3B从38.55%飙升至93.86%。这充分证明，“找证据”确实是当前最大的瓶颈——如果搜索问题得以解决，正确率本可很高。

然而，关键发现是：即便将正确证据直接塞给侦探，当这些证据是翻译版时，其表现依然低于英文证据条件。以GPT-OSS-20B为例，“神谕检索+英文证据”正确率为90.36%，“神谕检索+跨语言证据”正确率却仅为77.59%，相差近13个百分点。这13个百分点的差距，已不能用“找不到证据”来解释——证据明明白白摆在眼前，侦探还是答错了。

这揭示了第二个独立的瓶颈：AI侦探在阅读理解非英文证据、将信息与英文问题对应、再用英文写出答案的过程中，本身就存在能力上的损耗。

研究团队还进一步做了一个更细致的对照实验：将问题、系统提示和证据全部换成目标语言（比如全换成日文），观察“完全不需要切换语言”是否会有所帮助。结果出人意料——全部换成目标语言之后，表现反而更差。GPT-OSS-20B在“英文提示+外语证据”下正确率为77.59%，但在“外语提示+外语证据”下仅有71.67%。这说明这些AI模型本质上以英文为“母语”来执行指令，强行使用非英文提示反而让它们更难发挥。改善跨语言性能需要更强的多语言训练，而非将提示语言改为目标语言这类表面操作。

不同语言之间的差距：非洲语言被卡在门外

研究团队还按语言逐一拆解结果，观察不同语言之间的差距有多悬殊。

以QWEN3.6-35B-A3B配QWEN3-Embedding-8B、在跨语言设置下的数据为例，差异确实相当显著。英文（未翻译的参考组）正确率为42.86%。在高资源翻译语言中，表现最好的是德文（27.54%）和法文（26.09%），表现最差的是日文（4.35%）和韩文（10.14%）。在低资源非洲语言中，斯瓦希里语（17.39%）和沃洛夫语（14.49%）尚可，而约鲁巴语和祖鲁语都仅有4.35%。

乍看之下，低资源语言正确率更低，似乎是因为这些语言“太难”。但“神谕检索”数据却讲出了不同的故事：当正确证据被直接提供时，斯瓦希里语的神谕正确率为89.86%，沃洛夫语也是86.96%——这与高资源语言的89.67%平均水平相差无几。这说明低资源语言的低表现，主要是检索器找不到证据所致，而非AI本身无法理解这些语言。一旦证据出现在眼前，AI仍能读懂并作答。

不过，高资源语言之间也存在明显差异，不能简单地用“资源多寡”一概而论。同属高资源语言，法语、德语、葡萄牙语、西班牙语的表现明显好于日语和韩语。研究人员发现，日语的神谕正确率（73.91%）也是高资源语言中最低的，说明在“理解并利用日语证据”这个环节，AI自身也存在独特的困难，并不只是检索问题。

小技巧能帮多少？先思考再搜索

研究团队还测试了一个轻量级的改进策略，其灵感来自学术界的AGENTIR方法：在每次搜索之前，先让侦探将自己的思考过程（正在找什么、已经知道了什么、还缺什么）附加到搜索词中，一起送给检索器。这样做的好处是，检索器能获得更多上下文，从而找到更相关的证据。

这个方法无需重新训练模型，无需改变数据库，只需在查询时多加一段话。结果显示，这个小改动确实有效：在英文证据库下，正确率从32.89%提升到36.14%，证据召回率从42.91%提升到47.77%，同时搜索次数反而略有减少。在翻译后的证据库中也有类似改善，多语言设置下正确率从12.05%提升到14.10%，跨语言设置下从11.93%提升到14.60%。

然而，这个提升在翻译环境下明显小于英文环境。换句话说，侦探的推理思考确实能帮检索器找到更好的证据，但它无法独立弥补语言不匹配带来的根本性障碍。要真正解决跨语言检索的问题，还需要检索器本身的跨语言对齐能力相配合。

再多努力能弥补语言壁垒吗？推理努力的极限

研究团队还做了一个很有实际意义的测试：改变AI侦探的“努力程度”——让它在低、中、高三种模式下分别工作，观察多努力能否弥补语言劣势。

数据显示，努力程度确实重要：在英文环境下，从低努力到高努力，GPT-OSS-20B的正确率从15.18%提升到36.02%；在跨语言环境下，同样从4.94%提升到15.18%。多努力总归有意义。

但问题在于，高努力模式下的跨语言正确率（15.18%），仅仅相当于低努力模式下的英文正确率（15.18%）——而高努力模式需要的搜索次数是低努力模式的14倍以上：高努力跨语言需要28.66次搜索，低努力英文只需2.01次。付出了14倍的计算成本，换来的却只是与低努力英文持平的表现。跨语言的语言壁垒，显然不是靠加班就能跨越的。

归根结底，这项研究揭示了一个清晰的结论：跨语言深度研究面临两道独立的关卡，第一道是“找到证据”，第二道是“用好证据”。当前最好的系统在这两道关卡上双双失守，而且这两个问题不能简单地让AI多搜几次来解决。真正的突破，需要更强的多语言检索对齐、更好的跨语言推理能力，以及一种能意识到“我现在在处理非英文证据，需要特殊策略”的语言感知搜索机制。

说到底，这项研究最直接的意义是给AI行业敲了一记警钟。目前，我们评估AI研究助手的方式几乎全在英文环境下进行。然而，真实世界的信息是多语言的。一个在英文测试中得满分的AI侦探，放到多语言证据面前可能仅剩三成战力。如果我们希望AI助手真正能帮助全球各地的人——无论他们用哪种语言写下知识——就必须正视这个差距，而不是将其视为一个可忽视的边缘问题。对于普通用户而言，这意味着当你用AI工具搜索非英文来源的信息时，需对其给出的答案保持更高警惕，因为它可能正在用错误的证据，或者根本没找到正确证据的情况下，给你一个“自信”的回答。XBCP这套新的测试基准，将为未来的研究者提供一个更接近真实世界的评估工具。

Q&A

Q1：XBCP基准测试和BrowseComp-Plus有什么不同？

A：BrowseComp-Plus是一套全英文的深度研究评测基准，问题和证据文件都是英文。XBCP在此基础上，将证据文件翻译成了12种语言（包括中文、日文、斯瓦希里语等），而问题和标准答案仍保持英文不变，专门用于测试AI在证据语言与问题语言不一致时的表现，填补了跨语言深度研究评测的空白。

Q2：为什么AI在证据是外语时答题正确率会大幅下降？

A：研究发现有两个独立的原因。一是检索器找不到证据——语义检索器虽比关键词检索器好很多，但在翻译后的证据库中召回率仍会损失约20个百分点；二是即便将正确的证据直接给AI，它理解外语证据并和英文问题对应作答的能力本身也存在损耗，在跨语言设置下这部分损失大约在10到13个百分点。

Q3：神谕检索实验说明了什么问题？

A：神谕检索实验将所有正确证据直接塞进AI输入，绕过了搜索环节，以区分“找不到证据”和“理解不了证据”两类问题。结果发现，直接提供证据后正确率大幅提升，证明搜索是当前最大的瓶颈；但即便提供了正确的证据，翻译版证据的正确率仍低于英文证据，这表明AI在理解和利用外语证据方面也存在独立的能力短板，并不仅仅是搜索问题。