AI假文献骗局:顶尖科学家中招,生物医学研究危机
那么,这项研究究竟揭示了什么?背后的动因是什么?面对这场正在蔓延的危机,我们又该如何应对?接下来,我们把这位一线研究者的核心观点和判断提炼出来,逐一展开讨论。
虚假引文渗透各类文献,98.4%的问题论文未被更正或撤稿
先从一个关键起点说起:Maxim Topaz为何会聚焦这个方向?
一切源于他亲历的一次“险情”。当时,他借助AI聊天工具为一篇即将投稿的评论文章进行语言润色。作为AI研究者,他自然清楚AI存在“幻觉”问题,因此特意仔细核查了所有引文。结果呢?期刊编辑仍然发现了一条不存在的文献——AI悄无声息地植入了一条虚假信息,而他此前的核查完全没有察觉。
这件事让他意识到,问题的严重性远超预期。连专业人士都会中招,普通研究人员更是防不胜防。更关键的是,此前从未有人系统统计过,这些虚假引文最终有多少混入了经过同行评审、正式发表的文献中。而参考文献是整个科学体系的基石,一旦这块基石不可靠,整个科研大厦都会摇摇欲坠。
为了填补这一研究空白,他的团队启动了大规模调研。他们共核查了247万篇开放获取的生物医学论文,涉及超过1.25亿条参考文献。结果触目惊心:虚假引文如今已遍布各类生物医学文献;自2024年至今,引文造假率飙升超过12倍。而在调查进行时,98.4%含造假引文的论文,既未被更正,也未被撤稿。
简单来说,问题的严重程度和整改的滞后性,都远远超出行业此前的预判。
2024年1月至2026年2月,PubMed Central每万篇论文中伪造参考文献的季度发生率。图片来源:文章《伪造引用:对250万篇生物医学论文的核查分析》
团队是如何实现如此大规模核查的?这得益于Maxim Topaz的跨学科背景——临床医学与数据科学的结合。临床知识帮助团队判断哪些问题会产生实际影响,并区分正常引文格式与恶意造假;数据科学技术则让自动化核验成为可能。但最大的技术挑战是误判:面对近1亿条参考文献,哪怕极低的误判率也会产生海量错误预警。最终,团队搭建了包含大语言模型初筛在内的多层级流程,并引入独立人工审核,系统准确率达到91%。
综述论文是引文造假重灾区,将误导医生和政策制定者
一个引人注目的发现是,引文造假率从2024年年中开始急剧攀升。时间节点很有指向性:大型语言模型在2023年底至2024年开始全面普及,而生物医学论文从投稿到发表通常需要100到200天。因此,借助AI辅助撰写的论文从2024年年中开始大量出现在数据库中,恰与造假率骤增的转折点高度吻合。
当然,不能把所有问题都归于单一原因。论文代写产业链的泛滥、期刊评审流程的漏洞,都推高了造假比例。但客观来说,AI让编造引文变得前所未有地容易,而现有的审核机制原本就没有针对这类造假设计排查手段。
那么,AI生成的虚假引文和以往人为编造的有什么本质区别?
过去的引文问题多是粗心导致的疏漏,比如页码写错、观点引用有误,但被引用的文章本身是真实存在的。而现在,AI生成的引文对应的文献完全是子虚乌有。这些假引文格式规范,署上真实且业内知名的研究者姓名,贴合论文主题,发表日期也设置得合情合理,足以蒙混过初步检查,常规的同行评审很难识破。
这意味着,问题已经从“引文内容有误”演变为“引用文献根本不存在”。这不再是证据质量下降,而是直接切断了科学论证的证据链。
团队在核查中发现了不少极端案例。例如,某开放获取肿瘤学期刊上一篇文章,30条参考文献中有18条是造假内容,且假引文精准匹配研究方向,作者全是该领域真实专家,发表时间集中在2024-2025年。更让人担忧的是批量造假:在某期刊一年内刊发的11篇论文中,反复出现两位相同署名作者,包含15条虚假引文,涉及多个互不相关的前沿研究领域。而这些问题论文一直留在公开文献库中,继续被其他论文引用,没有任何标注警示,行业也未对此提出质疑。
还有一个值得警惕的趋势:综述类论文的引文造假率比其他类型论文高出57%。原因不难理解:综述的参考文献列表更长,虚假引文更容易浑水摸鱼;撰写综述需要梳理大量文献,这也是研究者最常借助AI辅助的环节。而综述处于整个科研证据链的上游:系统评价依托综述撰写,临床诊疗指南又以系统评价为依据。这57%的差距带来的危害远比数字本身更大——综述中的造假内容不会止步于此,而是会层层传导,最终影响临床医生和政策制定者依赖的核心证据体系。
若业界不及时管控,文献库污染恐将难以逆转
虚假引文会如何影响实际临床决策?虽然团队并没有追踪患者的实际诊疗结果,无法量化直接造成的医疗伤害,但现有证据表明,科研证据体系存在结构性风险,且这一风险确实被医学界低估了。已经有系统评价发现,医学论文中约四分之一的参考文献存在各类错误,这说明参考文献核验并非同行评审的常规环节。连普通的引文错误都无法全面排查,想要识破精心伪装的人工智能造假引文,自然难上加难。
那么,行业应该做些什么?团队提出了四项改进建议。在所有建议中,最紧迫却也最难落地的是:期刊出版商需在同行评审启动前,将自动化引文核验纳入论文投稿流程。技术已经成熟,障碍在于体制与成本——出版商需要投入资金,调整沿用已久的工作流程。而难度最大的,是对已发表文献开展回溯清理,这需要高昂成本,且没有任何一家机构愿意全权负责。
说到底,当下最该立刻推进的是在投稿环节落实事前引文核验,而最难完成的是清理早已被污染的存量学术文献。
作为率先系统性揭露这一危机的学者,Maxim Topaz对行业未来3至5年最大的担忧是形成恶性循环:一篇含虚假引文的论文发表后,会被后续新论文继续引用,甚至用于训练新一代AI模型,让造假内容不断传播、放大。若不及时管控,文献库被污染的速度会远远超过清理修复的速度。
他呼吁全球科研界、出版商和监管机构立刻落实一项举措:将自动化引文核验定为同行评审前的标准流程。问题的根源是未经核查的AI生成内容流入永久学术文献。我们并非要禁止使用AI工具,而是要把核验环节嵌入整个工作流程。AI本身并非隐患,真正的风险是任由未经审核的AI产出内容,堂而皇之地进入学术体系。
