跨语言深度研究盲点:早稻田大学揭露AI致命缺陷
这项由早稻田大学、西北大学、理化学研究所AIP中心、Snowflake公司、犹他大学、杜克-新加坡国立大学医学院及东京大学联合进行的研究,于2026年6月13日以预印本形式在arXiv上发布,论文编号为arXiv:2606.15345。
先从一个思想实验切入。假设你雇佣了一位只懂英语的私家侦探去调查一桩案件,但现场所有关键证据——目击者证词、现场照片说明、警方笔录——全部是日文撰写。这位侦探能成功破案吗?
这个看似荒诞的场景,精准刻画了当前顶级AI研究助手面临的真实困境。这些被称为“深度研究智能体”的AI系统,本质上是擅长搜索的机器侦探:它们自主上网检索、筛选文件,再将线索整合成完整答案。学术界已为这些AI侦探设计了一套标准化能力测试,最权威的当属BrowseComp-Plus。这套题库包含大量需多步网络搜索才能破解的难题,且所有题目与配套证据文件均为英文。
问题在于:现实世界的信息从来不是单语种的。互联网被中文、法语、日语、斯瓦希里语等语言充斥。如果一个AI侦探拿着英文提问,却必须从日文证据中寻找线索,它还能维持原有的破案水准吗?
这正是本次多机构联合研究的核心命题。研究团队构建了一套全新的测试基准——XBCP(Cross-lingual BrowseComp-Plus),专门测量AI系统在证据语言与提问语言不一致时的表现。这是学术界首次针对“跨语言深度研究”场景设计系统性评测基准,填补了这一领域的长期空白。
搭建测试场:如何制造一套多语言侦探考题
研究团队的设计思路相当精妙。他们没有从零编题,而是直接借用了BrowseComp-Plus的现有题库框架。该题库包含830道英文问题及配套的5040份经过人工验证的英文证据文件。团队的任务,是将所有证据文件“翻译成各种语言”,而问题与标准答案则保持英文原样。
具体操作中,他们选择了12种语言。高资源语言(互联网内容丰富,AI对其理解较好)包括中文、英文、法文、德文、日文、韩文、葡萄牙文和西班牙文,共8种。低资源语言(互联网内容稀少,AI掌握程度有限)则选择了斯瓦希里语、沃洛夫语、约鲁巴语和祖鲁语这4种非洲语言。翻译工作由GPT-5.4完成,要求完整翻译标题、内容及专业术语,仅保留网址、电子邮件地址、数学公式和代码块。
翻译与验证流程
翻译完成后,团队聘请了专业双语评审人员核查质量。评审从准确性、流利度和完整性三个维度展开,每项满分5分,对11种非英文语言各抽取200份样本评分。结果显示,所有语言的平均分均高于4.0分,说明翻译质量足以用于受控实验,尽管存在一些细微瑕疵。
整套XBCP测试集包含两种配置。第一种是“跨语言设置”:每道题的所有证据文件被分配至同一种语言,测试AI面对“全日文证据”或“全法文证据”时的表现差异。第二种是“多语言设置”:5040份证据文件被随机均分至12种语言,每种语言分得420份,让AI同时面对一个混杂了多种语言的证据库。这两种配置分别从不同维度考察AI侦探的跨语言能力。
参赛的侦探与搜索工具
研究团队挑选了4位“AI侦探”参与测试,分别为GPT-OSS-20B、GPT-OSS-120B、QWEN3.6-35B-A3B和DeepSeek-V4-Pro。这些名称或许晦涩,但简单来说,它们可被视为四位能力各异的侦探,参数越多,通常推理能力越强。
光有侦探还不够,需要搜索工具——即“检索器”——来协助侦探在海量文件中定位相关证据。团队测试了5种检索器:一种是老派的关键词匹配方法BM25(类似传统图书馆索引卡系统,仅识别文字,不理解含义);另外四种是现代“语义理解”型检索器,包括QWEN3-Embedding-4B、QWEN3-Embedding-8B、Multilingual-E5-Large和Arctic-Embed-L-2.0。这些语义检索器经过大量多语言数据训练,理论上具备跨语言理解能力,能找出语言不同但语义相近的内容。
每位侦探搭配每一种搜索工具,在三种条件下“破案”:原始英文证据库(作为参照基准)、多语言设置、跨语言设置。评判标准包括答案正确率、证据被找到的比例(召回率)、搜索次数、答案可信度的自我评估准确度(校准误差),以及引用证据的可靠性。
案件结果:数字背后透出的震惊
实验结果用一个词形容:惨烈。
先看最强选手——DeepSeek-V4-Pro——搭配最佳语义检索器QWEN3-Embedding-8B的表现。在原始英文证据库中,其正确率达64.70%,为所有测试组合中的最高成绩。但当证据被翻译成其他语言后,多语言设置下的正确率跌至48.80%,跨语言设置下更是仅有42.29%。换言之,仅仅改变证据的语言,这位最强侦探的破案率就下降了大约15到22个百分点。
其他侦探的情况更不乐观。以GPT-OSS-20B为例,搭配同一检索器,在英文证据库中正确率为32.89%,到了多语言设置就跌至12.05%,跌幅近21个百分点。若使用老派的关键词检索器BM25,情况更为惨淡——原本15.18%的正确率,到多语言设置直降至3.13%,几乎等同于随机猜测。
一个值得关注的关键细节:在多语言设置与跨语言设置之间,大多数侦探的表现差距并不大。这说明问题的核心不在于“证据是一种语言还是多种语言混杂”,而在于“证据语言和问题语言不一致”这件事本身。一旦存在语言不匹配,破案率便大幅下滑。
与此同时,检索器找到正确证据的能力(证据召回率)也同步跳水。以GPT-OSS-120B配QWEN3-Embedding-8B为例,英文环境下证据召回率为48.19%,但在多语言和跨语言设置下都跌至约28%。语义型检索器虽远强于关键词检索器——BM25在翻译后的环境中几乎找不到任何有用证据——但即便最好的语义检索器,也损失了近20个百分点的证据召回能力。
不止失误增多,还变得更盲目自信
除破案率下降外,研究团队还发现了一个更令人不安的现象:当证据是外语时,AI侦探不仅能力下降,还变得更“不知道自己不知道”。
在这项研究中,“校准误差”是衡量AI自我评估准确度的指标。简单来说:AI在给出答案后会附带一个“我有几成把握”的估计。如果它说“我90%确定”,那最终实际答对的概率也应接近90%。但当证据是外语时,AI侦探的校准误差明显增大——它们声称自己很确定,实际却答错了。
以GPT-OSS-120B搭配QWEN3-Embedding-8B为例,在英文证据库下校准误差为42.50%,到了多语言设置飙升至57.78%,跨语言设置下为57.45%。这意味着当证据是翻译版时,这位侦探不仅破案率下降,对自己的错误判断也变得前所未有的自信。
更值得注意的是,面对外语证据,侦探们的搜索次数普遍增加。但额外的搜索努力并未能弥补损失的破案率。仍以GPT-OSS-120B为例,在英文环境下平均搜索25.35次,到了多语言和跨语言环境分别增加到30.01次和30.45次——多搜了近5次,但答对率反而从38.07%跌至14-15%左右。显然,多努力并不等于多收获,额外的搜索只是无用功。
引用证据也出了问题:找到了却没用好
研究还专门检查了AI侦探在撰写最终答案时,是否正确引用了找到的证据文件。这个指标被称为“引用可靠性”,包括引用覆盖率、引用精确度和引用召回率。
结果显示,当证据是外语时,这三个指标全部下降。以DeepSeek-V4-Pro为例,在英文环境下引用覆盖率为88.07%,引用精确度为85.80%;到了多语言设置分别跌至79.64%和79.64%,跨语言设置则进一步下滑至74.46%和70.76%。语言不匹配不仅让侦探找不到证据,即便找到了,它们在写报告时也更容易忘记引用,或错误地引用了不相关的文件。
研究团队深入分析了出错类型,发现了两类主要错误:第一类是“映射失败”——侦探确实找到了正确的证据文件,但最后写答案时却引用了其他不相关的文件;第二类是“根本没找到”——检索器从始至终就没把正确的证据文件找出来,侦探只好引用一些英文的无关文件来凑数。在翻译后的环境中,“根本没找到”这类错误占比明显上升,说明检索器的失败是引用质量下降的主要根源。
终极实验:将答案直接塞给侦探,结果还是不对
为弄清究竟是“找证据”环节出了问题,还是“理解证据并写答案”环节出了状况,研究团队设计了一个终极诊断实验——“神谕检索”。在此实验中,研究人员直接将所有正确的证据文件塞进AI侦探的输入窗口,无需侦探搜索,观察它能否答对。
实验结果令人深思。当正确证据被直接提供时,侦探的表现大幅提升:英文证据条件下,GPT-OSS-20B的正确率从32.89%飙升至90.36%,GPT-OSS-120B从38.07%飙升至94.70%,QWEN3.6-35B-A3B从38.55%飙升至93.86%。这充分证明,“找证据”确实是当前最大的瓶颈——如果搜索问题得以解决,正确率本可很高。
然而,关键发现是:即便将正确证据直接塞给侦探,当这些证据是翻译版时,其表现依然低于英文证据条件。以GPT-OSS-20B为例,“神谕检索+英文证据”正确率为90.36%,“神谕检索+跨语言证据”正确率却仅为77.59%,相差近13个百分点。这13个百分点的差距,已不能用“找不到证据”来解释——证据明明白白摆在眼前,侦探还是答错了。
这揭示了第二个独立的瓶颈:AI侦探在阅读理解非英文证据、将信息与英文问题对应、再用英文写出答案的过程中,本身就存在能力上的损耗。
研究团队还进一步做了一个更细致的对照实验:将问题、系统提示和证据全部换成目标语言(比如全换成日文),观察“完全不需要切换语言”是否会有所帮助。结果出人意料——全部换成目标语言之后,表现反而更差。GPT-OSS-20B在“英文提示+外语证据”下正确率为77.59%,但在“外语提示+外语证据”下仅有71.67%。这说明这些AI模型本质上以英文为“母语”来执行指令,强行使用非英文提示反而让它们更难发挥。改善跨语言性能需要更强的多语言训练,而非将提示语言改为目标语言这类表面操作。
不同语言之间的差距:非洲语言被卡在门外
研究团队还按语言逐一拆解结果,观察不同语言之间的差距有多悬殊。
以QWEN3.6-35B-A3B配QWEN3-Embedding-8B、在跨语言设置下的数据为例,差异确实相当显著。英文(未翻译的参考组)正确率为42.86%。在高资源翻译语言中,表现最好的是德文(27.54%)和法文(26.09%),表现最差的是日文(4.35%)和韩文(10.14%)。在低资源非洲语言中,斯瓦希里语(17.39%)和沃洛夫语(14.49%)尚可,而约鲁巴语和祖鲁语都仅有4.35%。
乍看之下,低资源语言正确率更低,似乎是因为这些语言“太难”。但“神谕检索”数据却讲出了不同的故事:当正确证据被直接提供时,斯瓦希里语的神谕正确率为89.86%,沃洛夫语也是86.96%——这与高资源语言的89.67%平均水平相差无几。这说明低资源语言的低表现,主要是检索器找不到证据所致,而非AI本身无法理解这些语言。一旦证据出现在眼前,AI仍能读懂并作答。
不过,高资源语言之间也存在明显差异,不能简单地用“资源多寡”一概而论。同属高资源语言,法语、德语、葡萄牙语、西班牙语的表现明显好于日语和韩语。研究人员发现,日语的神谕正确率(73.91%)也是高资源语言中最低的,说明在“理解并利用日语证据”这个环节,AI自身也存在独特的困难,并不只是检索问题。
小技巧能帮多少?先思考再搜索
研究团队还测试了一个轻量级的改进策略,其灵感来自学术界的AGENTIR方法:在每次搜索之前,先让侦探将自己的思考过程(正在找什么、已经知道了什么、还缺什么)附加到搜索词中,一起送给检索器。这样做的好处是,检索器能获得更多上下文,从而找到更相关的证据。
这个方法无需重新训练模型,无需改变数据库,只需在查询时多加一段话。结果显示,这个小改动确实有效:在英文证据库下,正确率从32.89%提升到36.14%,证据召回率从42.91%提升到47.77%,同时搜索次数反而略有减少。在翻译后的证据库中也有类似改善,多语言设置下正确率从12.05%提升到14.10%,跨语言设置下从11.93%提升到14.60%。
然而,这个提升在翻译环境下明显小于英文环境。换句话说,侦探的推理思考确实能帮检索器找到更好的证据,但它无法独立弥补语言不匹配带来的根本性障碍。要真正解决跨语言检索的问题,还需要检索器本身的跨语言对齐能力相配合。
再多努力能弥补语言壁垒吗?推理努力的极限
研究团队还做了一个很有实际意义的测试:改变AI侦探的“努力程度”——让它在低、中、高三种模式下分别工作,观察多努力能否弥补语言劣势。
数据显示,努力程度确实重要:在英文环境下,从低努力到高努力,GPT-OSS-20B的正确率从15.18%提升到36.02%;在跨语言环境下,同样从4.94%提升到15.18%。多努力总归有意义。
但问题在于,高努力模式下的跨语言正确率(15.18%),仅仅相当于低努力模式下的英文正确率(15.18%)——而高努力模式需要的搜索次数是低努力模式的14倍以上:高努力跨语言需要28.66次搜索,低努力英文只需2.01次。付出了14倍的计算成本,换来的却只是与低努力英文持平的表现。跨语言的语言壁垒,显然不是靠加班就能跨越的。
归根结底,这项研究揭示了一个清晰的结论:跨语言深度研究面临两道独立的关卡,第一道是“找到证据”,第二道是“用好证据”。当前最好的系统在这两道关卡上双双失守,而且这两个问题不能简单地让AI多搜几次来解决。真正的突破,需要更强的多语言检索对齐、更好的跨语言推理能力,以及一种能意识到“我现在在处理非英文证据,需要特殊策略”的语言感知搜索机制。
说到底,这项研究最直接的意义是给AI行业敲了一记警钟。目前,我们评估AI研究助手的方式几乎全在英文环境下进行。然而,真实世界的信息是多语言的。一个在英文测试中得满分的AI侦探,放到多语言证据面前可能仅剩三成战力。如果我们希望AI助手真正能帮助全球各地的人——无论他们用哪种语言写下知识——就必须正视这个差距,而不是将其视为一个可忽视的边缘问题。对于普通用户而言,这意味着当你用AI工具搜索非英文来源的信息时,需对其给出的答案保持更高警惕,因为它可能正在用错误的证据,或者根本没找到正确证据的情况下,给你一个“自信”的回答。XBCP这套新的测试基准,将为未来的研究者提供一个更接近真实世界的评估工具。
Q&A
Q1:XBCP基准测试和BrowseComp-Plus有什么不同?
A:BrowseComp-Plus是一套全英文的深度研究评测基准,问题和证据文件都是英文。XBCP在此基础上,将证据文件翻译成了12种语言(包括中文、日文、斯瓦希里语等),而问题和标准答案仍保持英文不变,专门用于测试AI在证据语言与问题语言不一致时的表现,填补了跨语言深度研究评测的空白。
Q2:为什么AI在证据是外语时答题正确率会大幅下降?
A:研究发现有两个独立的原因。一是检索器找不到证据——语义检索器虽比关键词检索器好很多,但在翻译后的证据库中召回率仍会损失约20个百分点;二是即便将正确的证据直接给AI,它理解外语证据并和英文问题对应作答的能力本身也存在损耗,在跨语言设置下这部分损失大约在10到13个百分点。
Q3:神谕检索实验说明了什么问题?
A:神谕检索实验将所有正确证据直接塞进AI输入,绕过了搜索环节,以区分“找不到证据”和“理解不了证据”两类问题。结果发现,直接提供证据后正确率大幅提升,证明搜索是当前最大的瓶颈;但即便提供了正确的证据,翻译版证据的正确率仍低于英文证据,这表明AI在理解和利用外语证据方面也存在独立的能力短板,并不仅仅是搜索问题。
