柳叶刀作者亲述AI假文献骗局科研危机

2026-06-18阅读 0热度 0

科学

2026年5月，《柳叶刀》刊登的一则通讯稿，在医学研究圈内引发震动。内容简明，结论却令人警醒：生物医学论文中伪造的参考文献数量激增，且已逼近失控状态。

研究者对PubMed Central数据库中近250万篇生物医学论文进行系统性筛查，一条陡峭的增长曲线浮现眼前。过去数年间，参考文献造假率飙升逾12倍。2023年，每万篇论文内仅发现4条伪造参考文献；到2026年初，这一数值已攀升至56.9条。换算下来，每175篇论文中，就潜伏着一条凭空捏造的引文。

值得注意的是，这项研究的牵头人Maxim Topaz，正是哥伦比亚大学护理学院副教授，日常工作与人工智能深度绑定。即便如此，这位专家亦未能幸免。他在撰写评论文章时，被AI工具悄无声息地嵌入了一条完全不存在的参考文献，反复自查后依然未能察觉。

一位终日钻研AI算法的专家，尚且会被AI“误导”。普通研究者的处境，可想而知。

《每日经济新闻》随后与Topaz展开深度对话，从他个人的“惊险遭遇”出发，直指整个学术体系正面临的引文诚信危机。

虚假引文四处渗透，98.4%的问题论文“无人处理”

谈及为何聚焦这一课题，Topaz分享了一次亲身经历。当时他借助AI工具为一篇评论稿件进行润色，历经多轮修改与个人复核后，仍未察觉AI悄然植入的那条虚假文献。期刊编辑的质疑让他心有余悸：连专业人士都难以防范，普通研究者岂非毫无招架之力？

更关键的是，此前从未有人做过系统性统计：这些AI炮制的假引文，究竟有多少已成功混入正式发表的文献数据库？学术研究的根基，正是引文索引体系。若该体系本身出现系统性造假，所有科学论证的可信度都将被动摇。

谈及团队的技术路线，Topaz的回答言简意赅：临床医学知识与大数据的结合，两者缺一不可。前者用于判断哪些问题真正具备危害性，并识别不同细分领域的正规引文范式；后者则为大规模自动化核验提供了技术基础。

技术层面最大的挑战，在于误判率控制。此次系统需要核验的参考文献总量超过9700万条——即便误判率低至千分之一，也会衍生出海量错误警报。如何从庞杂数据中精准剥离恶意造假、无意笔误与正常格式差异？团队最终构建了一套多层过滤流程，涵盖大语言模型初筛与人工复核环节，最终将准确率锁定在91%。

为何要进行如此大规模的调研？Topaz的解释直截了当：单篇论文中的引文造假发生率本就偏低，仅凭零散案例根本无法提炼出可靠结论。他们此次核查了247万篇开放获取论文、超过1.25亿条参考文献——唯有如此体量的样本，才能勾勒出真实的趋势曲线。

调研结果远超业内预期。此前学界普遍认为，引文造假多为个别作者品行不端或写作疏漏。但数据揭示：虚假引文如今已广泛渗透至各类生物医学文献，且自2023年以来，造假率激增12倍。更令人细思极恐的是，在核查进行期间，98.4%存在引文造假问题的论文，既未发布更正声明，也未被正式撤稿。

综述论文成为重灾区，虚假引文层层传导最终危及临床决策

造假率为何自2024年年中开始急剧攀升？时间节点指向性极其明确。

大型语言模型在2022年末至2023年期间实现全面普及，而生物医学论文从投稿到正式发表通常需要100至200天的周期。这意味着，自2024年年中起，借助AI辅助撰写的论文开始大量入库。而这一时间窗口，恰好与造假率飙升的曲线高度重合。

当然，Topaz并未将所有责任归咎于AI。论文代写产业链、期刊索引规则与评审机制的变化，均在共同推高造假率。核心症结在于：期刊缺乏有效的引文核验环节，AI生成或代写而来的虚假引文，才能如此轻易地“顺利过关”。

相较于以往人为编造的引文，AI生成的假引文存在一个本质区别：过去的问题多源于粗心疏忽，比如页码错误、观点引用偏差——但被引用的文章本身是真实存在的。而AI炮制的假引文，对应的文献则完全子虚乌有。这些假引文格式规范、署上知名研究者的真实姓名、精准贴合论文主题，发表时间也设置得合情合理，常规同行评审根本无力识破。

问题的性质已经发生根本转变。过去是“证据质量下降”，如今则是“证据链直接断裂”。

最极端的案例是什么？2025年，某开放获取肿瘤学期刊上，一篇聚焦细分外科领域的论文，30条参考文献中有18条系伪造。这些假引文连作者署名都是该领域真实的专家，发表时间集中在2023至2024年。另一个案例更令人不安：某期刊一年内发表的11篇论文中，反复出现两位相同的署名作者，这些论文共包含15条虚假引文，涉及多个互不相关的前沿研究领域。

Topaz反复强调：批量造假的危害远高于单篇问题论文。更棘手的是，这些论文至今仍公开置于文献库中，持续被后续论文引用，且没有任何警示标识、更正说明或行业质疑。

顺着这一话题，记者抛出了一个更尖锐的问题：综述类论文的引文造假率，比其他类型论文高出57%。而综述正是临床诊疗指南的制定基础。为什么综述特别容易“中招”？

原因并不复杂：综述的参考文献列表更长，假引文更容易混入其中；且综述本身的工作性质就是梳理、归纳大量文献，研究者最常借助AI辅助完成——而这一使用场景，恰恰最容易催生虚假引文。

更关键的是，综述处于整个科研证据链的上游。系统评价依托综述，临床诊疗指南又以系统评价为依据。综述每万篇的引文造假数为16.7条，其他类型论文为10.6条——这57%的差距所带来的危害，远不止数字本身。造假绝不会止步于综述，它会层层传导，最终侵蚀临床医生与政策制定者赖以决策的核心证据体系。

若不及时干预，文献库污染恐将不可逆转

虚假引文为何会威胁患者安全？答案就藏在证据链之中。

临床诊疗指南依托系统评价，而系统评价又基于大量原始论文。已有证据表明，部分代写论文已被纳入指南所使用的系统评价。若一份指南引用的论文本身含有大量虚假引文，其提出的治疗方案，便失去了应有的科学支撑。

当然，Topaz并未直接断言虚假引文已造成具体的医疗伤害——他们并未追踪过患者的实际诊疗结果。但问题在于，现有科研证据体系已经暴露出结构性风险，且这一风险被医学界严重低估。已有系统评价发现，医学论文中约四分之一的参考文献存在各类错误——连普通错误都无法全面排查，想要识破精心伪造的AI假引文，更是难上加难。

那么，应当如何应对？Topaz团队提出了四项改进建议。其中，最紧迫也最难落地的，分别是哪两条？

最紧迫的，是第一条：期刊出版商应在同行评审启动之前，将自动化引文核验纳入论文投稿流程。技术已经成熟，障碍不在技术本身，而在体制与成本——出版商需要投入资金，调整沿用已久的工作流程。这听起来可行，但推进起来阻力重重。

落地难度最大的，则是对已发表文献的回溯清理。数百万篇存量论文，逐一筛查、发布更正，成本高到离谱，且没有任何一家机构愿意全权负责。学界也缺乏动力去复盘已经刊发的论文。

说得更直接一点：最应立即推进的是“事前核验”，最难完成的是“事后清理”。

最后，记者问了一个宏观问题：作为率先系统性揭露引文造假危机的学者，未来3到5年，你最担忧的是什么？

Topaz的回答是：恶性循环。

一篇含有虚假引文的论文被发表后，会被后续新论文继续引用，甚至被用于训练新一代AI模型——造假内容不断传播、放大，而文献库被污染的速度，远远快于清理修复的速度。

他向全球科研界、出版商与监管机构的呼吁十分明确：立刻将自动化引文核验设为同行评审前的标准流程。

问题的根源，不是AI本身，而是未经核验的AI生成内容流入永久学术文献。AI不是隐患，真正的风险在于：任由未审核的AI产出内容，堂而皇之地进入学术体系。

柳叶刀作者亲述AI假文献骗局科研危机

虚假引文四处渗透，98.4%的问题论文“无人处理”

综述论文成为重灾区，虚假引文层层传导最终危及临床决策

若不及时干预，文献库污染恐将不可逆转

相关阅读

最新教程

最新资讯