AI假文献引发科研危机:柳叶刀作者独家披露顶尖科学家受骗经历

2026-06-16阅读 0热度 0
人工智能

每经记者|林姿辰 每经编辑|黄博文

2026年5月,《柳叶刀》刊发的一篇通讯稿,在我国医学科研界引发强烈震动。该文直指一个日趋严重的学术伦理问题:AI驱动的参考文献造假。

研究团队对PubMed Central收录的近250万篇生物医学论文实施系统性筛查,数据触目惊心。结果显示,过去数年间,参考文献的伪造率飙升逾12倍。2023年,每万篇论文中仅发现约4条虚构引用;到2026年初,这一数字已激增至56.9条。

更具讽刺意味的是,这项研究的牵头人Maxim Topaz,身为哥伦比亚大学护理学院副教授、医疗AI研究员,同时跻身全球排名前2%的顶尖科学家,竟也曾在撰写评论文章时,被一款AI工具生成的虚假文献“误导”。

由此引出一个核心追问:学术界该如何有效应对?带着这一议题,《每日经济新闻》记者(NBD)对Maxim Topaz教授进行了专访。

哥伦比亚大学护理学院副教授、医疗AI研究员Maxim Topaz 图片来源:受访者提供

NBD:是什么契机让您开始关注生物医学论文中的引文造假问题?

Maxim Topaz:一切源于我一次“惊险”的个人经历。当时,我借助AI聊天工具为一篇拟投稿的期刊评论进行润色。我本人就是做AI研究的,深知AI存在“幻觉”问题,因此在提交前特意核对了所有引文。但即便经过多轮修改和自我检查,期刊编辑还是对我的一篇参考文献提出了质疑。原来,那个AI工具悄悄嵌入了一条虚假文献,而我的核查完全没发现。

这件事让我深受触动。比失误更值得警惕的是背后的隐患:连我这个天天和AI打交道的专业人士都会中招,普通研究者恐怕更难幸免。于是,我萌生了做个系统调研的想法。此前,从未有人统计过,那些由AI生成的虚假引文,究竟有多少最终流入了经过同行评审并正式发表的文献里。要知道,参考文献是整个科学体系的基石。一旦引文失去可信度,整个科研大厦都可能摇摇欲坠。我们团队正是为了填补这个研究空白,才开展了此次大规模的调研。

NBD:您同时任职于哥伦比亚大学护理学院与数据科学研究所,这种跨学科背景对搭建这套自动化引文核验系统起到了哪些关键作用?团队在研发过程中遇到的最大技术难题是什么?

Maxim Topaz:临床医学与数据科学两大领域的专业知识,可以说缺一不可。临床医学知识帮助我们判断哪些问题会造成实际影响,并掌握不同细分领域正规引文的特点,从而区分普通错误和恶意造假;而数据科学技术则让大规模自动化核验成为可能,彻底摆脱了人工核查的局限。

研发过程中,最大的技术难题是误判问题。我们这次需要核验的参考文献超过9700万条。哪怕是极低的误判率,也会产生海量的错误预警。因此,团队面临的核心挑战是如何精准地区分开蓄意造假、无心笔误,以及标题简写等正常的格式问题。

对此,我们搭建了一个多层级核验流程,其中包含大语言模型初筛环节,并邀请了独立的审核人员对结果进行校验。最终,系统的准确率达到了91%。在海量数据面前,打造一套可靠、可信的核验系统,是整个项目最难攻克的一关。

NBD:本次核查覆盖约250万篇生物医学论文、1.25亿条参考文献,为何要选择开展如此大规模的分析?业内此前对引文造假的认知,和你们调研得出的实际情况存在多大差距?

Maxim Topaz:之所以开展如此大规模的分析,是因为单篇论文的引文造假发生率本身就不高,仅凭几个案例根本无法得出可靠结论。我们这次共核查了2471758篇开放获取论文、超过1.25亿条参考文献,只有这样,才能统计出造假问题的整体发生率,更重要的是梳理出它的长期变化趋势。

行业过往的认知与现实情况相差极大。此前,大家普遍认为引文造假只是个别作者品行不端,或者是写作疏忽导致的小众问题。但数据显示,虚假引文如今已遍布各类生物医学文献;自2023年至今,引文造假率涨幅超过了12倍。更令人担忧的是,在我们进行核查时,98.4%存在造假引文的论文既没有被更正,也没有被撤稿。简而言之,这个问题的严重程度和整改的滞后性,都远远超出了行业以往的预判。

2023年1月至2026年2月,PubMed Central每万篇论文的伪造参考文献季度发生率 图片来源:文章《伪造引用:对250万篇生物医学论文的核查分析》

NBD:为何引文造假率从2024年年中开始急剧攀升?在您看来,主要诱因是AI、论文代写产业链,还是期刊评审流程存在漏洞?

Maxim Topaz:时间节点很有指向性。大型语言模型在2022年末至2023年开始全面普及,而生物医学论文从投稿到发表通常需要100到200天。因此,借助AI辅助撰写的论文,从2024年年中起开始大量出现在美国国立医学图书馆数据库中。这也正好是造假率骤增的转折点。

需要说明的是,本次研究仅证实了问题的存在,并未直接界定成因。论文代写产业泛滥、期刊索引规则与评审机制的变化,同样推高了造假比例,而且各类因素相互叠加。正是因为期刊缺乏有效的核验环节,AI生成或代写产业链产出的虚假引文才得以顺利发表。

因此,不能把问题归咎于单一原因。客观来讲,AI让编造引文变得轻而易举,而现行的审核机制原本就没有针对这类造假设计排查手段。

NBD:和以往人为编造的引文相比,AI生成的虚假引文有哪些核心差异?又会带来哪些更广泛的影响?

Maxim Topaz:二者最本质的区别在于错误类型。过去的引文问题多是粗心导致的疏漏,比如页码写错、文献观点引用有误,但被引用的文章本身是真实存在的。

如今,AI生成的引文对应的文献完全是子虚乌有。这些假引文格式规范,署上真实且业内知名的研究者姓名,贴合论文主题,发表日期也设置得合情合理,足以蒙混过初步检查,常规的同行评审也往往难以识破。

其深远危害在于,引文本是科研人员验证研究结论的核心依据,如今大规模造假已成为现实。问题从“引文内容有误”演变为“引用文献根本不存在”,这不再是证据质量下降,而是直接切断了科学论证的证据链。

NBD:在核查过程中,你们发现过最极端、最令人震惊的引文造假案例是什么?看到这些案例时,您有何感受?

Maxim Topaz:最典型的案例是2025年某开放获取肿瘤学期刊上的一篇论文,聚焦于一个细分的外科领域。在该论文经核验的30条参考文献中,有18条是造假内容。这些假引文精准匹配论文的研究方向,作者均是该领域的真实专家,发表时间也集中在2023至2024年。

还有一个现象同样值得警惕。在某期刊一年内刊发的11篇论文中,反复出现两位相同的署名作者,这些论文包含15条虚假引文,且涉及多个互不相关的前沿研究领域。

比起单篇的问题论文,我更担忧这类批量造假的现象。更让人不安的是,这些问题论文一直留在公开文献库中,还会被其他论文继续引用,却没有任何标注警示、更正说明,行业也未对此提出质疑。

NBD:综述类论文的引文造假率比其他类型论文高出57%,而综述又是临床诊疗指南的制定基础。为何综述类论文尤其容易遭到AI驱动的引文造假侵袭?

Maxim Topaz:多重因素叠加,让综述论文成了造假重灾区。首先,综述的参考文献列表篇幅更长,虚假引文更容易浑水摸鱼;其次,撰写综述需要梳理、归纳大量文献,这也是研究者最常借助AI辅助的环节,而这个工作场景恰恰极易催生虚假引文。

此外,综述处于整个科研证据链的上游:各类系统评价依托综述撰写,临床诊疗指南又以系统评价为依据。我们的数据显示,综述论文每万篇的引文造假数为16.7条,其他类型论文为10.6条。这57%的差距带来的危害远比数字本身更大。综述中的造假内容不会止步于此,还会层层传导,最终影响临床医生和政策制定者依赖的核心证据体系。

我国医学科研已深度参与全球学术体系 图片来源:每经记者据公开资料制图

NBD:虚假引文会如何误导临床决策、威胁患者安全?医学界是否低估了这类现实风险?

Maxim Topaz:虚假引文会沿着完整的证据链产生负面影响。临床诊疗指南依托系统评价制定,目前已有证据证实,部分代写论文已被纳入撰写指南所用的系统评价中。如果一份指南引用的论文本身含有大量虚假引文,那么它提出的治疗方案就失去了应有的科学支撑。

需要明确的是,我们并未追踪患者的实际诊疗结果,因此无法量化虚假引文直接造成的医疗伤害,也不会妄下此类论断。但现有科研证据体系存在结构性风险,而且这一风险确实被医学界低估了。

已有系统评价发现,医学论文中约四分之一的参考文献存在各类错误。这足以说明,参考文献核验并非同行评审的常规环节。连普通的引文错误都无法全面排查,想要识破精心伪装的AI造假引文,自然是难上加难。

NBD:你们的研究为行业提出了四项改进建议。在您看来,目前哪一项建议最为紧迫,却又最难落地?主要阻碍是什么?

Maxim Topaz:当下最紧迫的是第一条建议,即期刊出版商需在同行评审启动前,将自动化引文核验纳入论文投稿流程。目前相关技术已经成熟,落地的障碍并非技术问题,而是体制与成本问题。出版商需要投入资金、调整沿用已久的工作流程,这也是该建议看似可行、推进起来却阻力重重的原因。

而落地难度最大的,是对已发表文献开展回溯清理。对数百万篇存量论文逐一筛查、发布更正内容,需要高昂的成本;而且没有任何一家机构愿意全权负责这项工作,同时学界也缺乏动力去复盘、修正已经刊发的论文。

总结来说,当下最该立刻推进的,是在投稿环节落实事前的引文核验;而最难完成的,是清理早已被污染的存量学术文献。

NBD:作为率先系统性揭露生物医学领域引文造假危机的学者,未来3至5年,您对整个行业最大的担忧是什么?您呼吁全球科研界、期刊出版商及监管机构立刻采取哪一项行动?

Maxim Topaz:我最大的担忧是形成一种恶性循环。一篇含有虚假引文的论文发表后,会被后续的新论文继续引用,甚至被用于训练新一代AI模型,进而让造假内容不断传播、放大。若不及时管控,文献库被污染的速度会远远超过清理修复的速度。

在这里,我向全球科研界、出版商和监管机构呼吁,立刻落实一项举措:将自动化引文核验定为同行评审前的标准流程。

直白来讲,问题的根源是未经核查的AI生成内容流入了永久的学术文献。我们并非要禁止使用AI工具,而是要把核验环节嵌入整个工作流程。AI本身并非隐患,真正的风险是任由未经审核的AI产出内容,并堂而皇之地进入学术体系。

策划|何强 郭荣村 金喆

统筹|易启江

记者|林姿辰

编辑|黄博文

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策