柳叶刀作者亲述AI假文献骗局 科研危机
2026年5月,《柳叶刀》刊登的一则通讯稿,在医学研究圈内引发震动。内容简明,结论却令人警醒:生物医学论文中伪造的参考文献数量激增,且已逼近失控状态。
研究者对PubMed Central数据库中近250万篇生物医学论文进行系统性筛查,一条陡峭的增长曲线浮现眼前。过去数年间,参考文献造假率飙升逾12倍。2023年,每万篇论文内仅发现4条伪造参考文献;到2026年初,这一数值已攀升至56.9条。换算下来,每175篇论文中,就潜伏着一条凭空捏造的引文。
值得注意的是,这项研究的牵头人Maxim Topaz,正是哥伦比亚大学护理学院副教授,日常工作与人工智能深度绑定。即便如此,这位专家亦未能幸免。他在撰写评论文章时,被AI工具悄无声息地嵌入了一条完全不存在的参考文献,反复自查后依然未能察觉。
一位终日钻研AI算法的专家,尚且会被AI“误导”。普通研究者的处境,可想而知。
《每日经济新闻》随后与Topaz展开深度对话,从他个人的“惊险遭遇”出发,直指整个学术体系正面临的引文诚信危机。
虚假引文四处渗透,98.4%的问题论文“无人处理”
谈及为何聚焦这一课题,Topaz分享了一次亲身经历。当时他借助AI工具为一篇评论稿件进行润色,历经多轮修改与个人复核后,仍未察觉AI悄然植入的那条虚假文献。期刊编辑的质疑让他心有余悸:连专业人士都难以防范,普通研究者岂非毫无招架之力?
更关键的是,此前从未有人做过系统性统计:这些AI炮制的假引文,究竟有多少已成功混入正式发表的文献数据库?学术研究的根基,正是引文索引体系。若该体系本身出现系统性造假,所有科学论证的可信度都将被动摇。
谈及团队的技术路线,Topaz的回答言简意赅:临床医学知识与大数据的结合,两者缺一不可。前者用于判断哪些问题真正具备危害性,并识别不同细分领域的正规引文范式;后者则为大规模自动化核验提供了技术基础。
技术层面最大的挑战,在于误判率控制。此次系统需要核验的参考文献总量超过9700万条——即便误判率低至千分之一,也会衍生出海量错误警报。如何从庞杂数据中精准剥离恶意造假、无意笔误与正常格式差异?团队最终构建了一套多层过滤流程,涵盖大语言模型初筛与人工复核环节,最终将准确率锁定在91%。
为何要进行如此大规模的调研?Topaz的解释直截了当:单篇论文中的引文造假发生率本就偏低,仅凭零散案例根本无法提炼出可靠结论。他们此次核查了247万篇开放获取论文、超过1.25亿条参考文献——唯有如此体量的样本,才能勾勒出真实的趋势曲线。
调研结果远超业内预期。此前学界普遍认为,引文造假多为个别作者品行不端或写作疏漏。但数据揭示:虚假引文如今已广泛渗透至各类生物医学文献,且自2023年以来,造假率激增12倍。更令人细思极恐的是,在核查进行期间,98.4%存在引文造假问题的论文,既未发布更正声明,也未被正式撤稿。
综述论文成为重灾区,虚假引文层层传导最终危及临床决策
造假率为何自2024年年中开始急剧攀升?时间节点指向性极其明确。
大型语言模型在2022年末至2023年期间实现全面普及,而生物医学论文从投稿到正式发表通常需要100至200天的周期。这意味着,自2024年年中起,借助AI辅助撰写的论文开始大量入库。而这一时间窗口,恰好与造假率飙升的曲线高度重合。
当然,Topaz并未将所有责任归咎于AI。论文代写产业链、期刊索引规则与评审机制的变化,均在共同推高造假率。核心症结在于:期刊缺乏有效的引文核验环节,AI生成或代写而来的虚假引文,才能如此轻易地“顺利过关”。
相较于以往人为编造的引文,AI生成的假引文存在一个本质区别:过去的问题多源于粗心疏忽,比如页码错误、观点引用偏差——但被引用的文章本身是真实存在的。而AI炮制的假引文,对应的文献则完全子虚乌有。这些假引文格式规范、署上知名研究者的真实姓名、精准贴合论文主题,发表时间也设置得合情合理,常规同行评审根本无力识破。
问题的性质已经发生根本转变。过去是“证据质量下降”,如今则是“证据链直接断裂”。
最极端的案例是什么?2025年,某开放获取肿瘤学期刊上,一篇聚焦细分外科领域的论文,30条参考文献中有18条系伪造。这些假引文连作者署名都是该领域真实的专家,发表时间集中在2023至2024年。另一个案例更令人不安:某期刊一年内发表的11篇论文中,反复出现两位相同的署名作者,这些论文共包含15条虚假引文,涉及多个互不相关的前沿研究领域。
Topaz反复强调:批量造假的危害远高于单篇问题论文。更棘手的是,这些论文至今仍公开置于文献库中,持续被后续论文引用,且没有任何警示标识、更正说明或行业质疑。
顺着这一话题,记者抛出了一个更尖锐的问题:综述类论文的引文造假率,比其他类型论文高出57%。而综述正是临床诊疗指南的制定基础。为什么综述特别容易“中招”?
原因并不复杂:综述的参考文献列表更长,假引文更容易混入其中;且综述本身的工作性质就是梳理、归纳大量文献,研究者最常借助AI辅助完成——而这一使用场景,恰恰最容易催生虚假引文。
更关键的是,综述处于整个科研证据链的上游。系统评价依托综述,临床诊疗指南又以系统评价为依据。综述每万篇的引文造假数为16.7条,其他类型论文为10.6条——这57%的差距所带来的危害,远不止数字本身。造假绝不会止步于综述,它会层层传导,最终侵蚀临床医生与政策制定者赖以决策的核心证据体系。
若不及时干预,文献库污染恐将不可逆转
虚假引文为何会威胁患者安全?答案就藏在证据链之中。
临床诊疗指南依托系统评价,而系统评价又基于大量原始论文。已有证据表明,部分代写论文已被纳入指南所使用的系统评价。若一份指南引用的论文本身含有大量虚假引文,其提出的治疗方案,便失去了应有的科学支撑。
当然,Topaz并未直接断言虚假引文已造成具体的医疗伤害——他们并未追踪过患者的实际诊疗结果。但问题在于,现有科研证据体系已经暴露出结构性风险,且这一风险被医学界严重低估。已有系统评价发现,医学论文中约四分之一的参考文献存在各类错误——连普通错误都无法全面排查,想要识破精心伪造的AI假引文,更是难上加难。
那么,应当如何应对?Topaz团队提出了四项改进建议。其中,最紧迫也最难落地的,分别是哪两条?
最紧迫的,是第一条:期刊出版商应在同行评审启动之前,将自动化引文核验纳入论文投稿流程。技术已经成熟,障碍不在技术本身,而在体制与成本——出版商需要投入资金,调整沿用已久的工作流程。这听起来可行,但推进起来阻力重重。
落地难度最大的,则是对已发表文献的回溯清理。数百万篇存量论文,逐一筛查、发布更正,成本高到离谱,且没有任何一家机构愿意全权负责。学界也缺乏动力去复盘已经刊发的论文。
说得更直接一点:最应立即推进的是“事前核验”,最难完成的是“事后清理”。
最后,记者问了一个宏观问题:作为率先系统性揭露引文造假危机的学者,未来3到5年,你最担忧的是什么?
Topaz的回答是:恶性循环。
一篇含有虚假引文的论文被发表后,会被后续新论文继续引用,甚至被用于训练新一代AI模型——造假内容不断传播、放大,而文献库被污染的速度,远远快于清理修复的速度。
他向全球科研界、出版商与监管机构的呼吁十分明确:立刻将自动化引文核验设为同行评审前的标准流程。
问题的根源,不是AI本身,而是未经核验的AI生成内容流入永久学术文献。AI不是隐患,真正的风险在于:任由未审核的AI产出内容,堂而皇之地进入学术体系。


