AI催生虚假参考文献?医学论文诚信危机深度解析
最近,《柳叶刀》期刊上发布了一项引人深思的研究。哥伦比亚大学等机构的研究团队,对公共文献库PubMed Central中近两年半发表的247万篇生物医学论文进行了一次“地毯式”核查,结果发现了一个令人不安的趋势:论文中虚假参考文献的出现率,正在以前所未有的速度飙升。
这项迄今为止规模最大的引文分析报告显示,在核查的9710万条参考文献中,有4046条被判定为伪造,分布在2810篇论文里。判定标准很明确:如果一条参考文献标注的标题,在PubMed、Crossref、OpenAlex和谷歌学术这四大主流数据库中都找不到,那它就被认定为“不存在”的文献。
数据背后的惊人跃升
趋势变化比想象中更为剧烈。2024年全年,虚假参考文献的比例还相对稳定,大约每万篇论文中间出现4条伪造文献。然而,从2024年年中开始,这个数字就像坐上了火箭:到2025年底,已经攀升至每万篇51.3条;而到了2026年的前七周,更是达到了每万篇56.9条。这意味着,相比2024年的基准值,虚假参考文献的增长率超过了十二倍。
AI:难以忽视的推手
研究团队将这一现象的激增,与2024年末开始普及的ChatGPT等大语言模型联系了起来。这里有个时间差需要考虑:一篇论文从投稿到发表,通常需要100到200天。因此,人工智能生成的内容,直到2024年年中才开始在PubMed Central的数据库中大量浮现。当然,研究人员也指出,这并非唯一的原因,代写论文产业的泛滥、文献索引规则的变动等其他因素同样难辞其咎。
更棘手的是,这些虚假参考文献的“伪装”能力极强。它们的内容往往贴合论文主题,格式规范,署名的研究者也真实存在,发表年份看起来也合情合理。在一篇被抽检的泌尿外科学论文中,30条参考文献里竟然有18条是伪造的,而且全部精准地指向了细分的外科研究方向,几乎可以假乱真。
系统性问题与潜在危害
研究还发现了代写团伙批量操作的痕迹。在同一外科期刊的11篇论文中,出现了两名相同的作者,涉及CRISPR诊断、肠道微生物组等不同领域,累计存在15条虚假参考文献。这显然不是孤立的个案,而是一种有组织的“污染”。
目前的情况是,98.4%的问题论文,其出版商尚未采取任何处理措施。其中,综述类论文受到的冲击最为严重,其参考文献伪造率比其他类型的论文高出57%。这一点尤其值得警惕,因为综述文章往往是制定临床诊疗指南的重要依据。一旦指南引用了含有虚假参考文献的论文,那么支撑诊疗决策的整个证据链条的可靠性都将受到根本性的动摇。
应对之策与现有挑战
面对这场“信任危机”,科研界的应对显得有些参差不齐。预印本平台arXiv已经加大了对稿件中使用大语言模型生成不实内容的惩处力度,违规作者可能会面临长达一年的禁发处罚。然而,即便是顶尖的学术会议也未能幸免。对2025年神经信息处理系统大会录用论文的分析显示,即便是这样的顶级人工智能会议,也难以有效甄别出伪造的引文。
开源自动引文核查系统CiteAudit被视为目前可行的技术应对手段之一。但相关测试也暴露了一个颇具讽刺意味的问题:商用的大语言模型,很难识别出由它们自身“创造”出来的虚假参考文献。
为此,研究团队提出了四项改进建议:在同行评审前开展自动化的参考文献核验;在论文数据库中增设科研诚信相关的元数据;对已发表的论文开展回溯筛查;以及在科研诚信数据库中单独设立“虚假参考文献”这一分类。值得一提的是,在这项研究本身的过程中,研究人员也使用了Claude模型来辅助代码编写和语法校对——这或许也暗示了,如何在利用工具与防范风险之间找到平衡,将是整个学术界必须长期面对的课题。

