AI虚假参考文献治理:多措并举的最佳方案
学术出版界近期曝出一项令人担忧的发现。arXiv——全球知名的预印本平台——与其团队完成了一次系统性审查:他们逐一核对了250万篇论文、1.11亿条参考文献,结果发现仅在2025年一年内,arXiv、bioRxiv、SSRN和PubMed Central四个主要平台上,累计出现了近15万条由人工智能生成的虚假参考文献。这并非偶发事件,而是直接动摇了科研成果的可信度与科学知识获取的公正性。
按照学术规范,一篇论文所引用的文献应当经得起检验,每条参考文献都应是经过同行评议的可靠知识锚点。但生成式AI工具在论文写作中的普及,使越来越多的人发现:自己引用的某些文献可能根本不存在。更棘手的是,有时连论文本身、研究数据甚至作者身份都是伪造的。这次大规模审查证实了这一点——虚假文献并非孤立出现在少数不严谨的学者身上,而是广泛散布于大量不同论文中。换言之,每篇问题论文通常只掺杂少量假条目,但这种“少量”却覆盖了极广的范围。这揭示了一个普遍现象:利用AI辅助写作时,多数人并未对其输出内容进行事实核查。
生成式AI工具最擅长生成那些表面合情合理、读起来天衣无缝,但实际上一查全是虚构的内容。原理很简单:它们基于海量数据集训练,学习各种模式,然后靠这些模式预测下一个词并生成新内容。但问题在于——它们有时会依据模式“创造”内容,而非依据真实事实。这种被创造出的内容,业内称为“幻觉内容”。别以为它只出现在学术论文中,政府工作报告、法律文件甚至知名媒体的新闻稿里都曾出现过。之前也有科学家研究过AI产生的幻觉内容,但要么是在实验室条件下的小规模实验,要么只聚焦于狭窄领域。真正大规模、系统性的评估——尤其是科学文献中幻觉内容的规模与影响——始终是个空白。
本次研究采用了一种巧妙方法:对比生成式AI工具大规模普及前后的“未匹配引用率”。结果显示,虚假文献引用在2024年年中之后出现急剧攀升,这一时间点与AI辅助写作的爆发期高度吻合。更值得注意的是,在职业生涯早期的科学家和小型研究团队的论文中,虚假文献引用的比例明显更高——这或许表明,那些最需要快速产出成果的群体,也最容易被AI带偏。
另一个令人担忧的发现是,当前的学术质量审查机制相当脆弱。预印本审核、期刊编辑审稿和同行评议,理论上应是虚假文献的第一道防线,但数据表明,它们只能拦截极少数假货。以arXiv为例,尽管审核流程中已经发现了一些问题,但预计仍有78.8%的虚假引文成功蒙混过关,最终出现在平台上。换句话说,AI生成的幻觉内容正在大规模渗透进知识生产体系。如果不及时干预,后果将从误导未来的科学发现,逐步蔓延至影响政策制定和公众对科学的信任。
面对这一系统性风险,已有平台开始采取实质性行动。例如arXiv直接规定:只要有明确证据证明论文中存在来自生成式AI工具的幻觉内容,作者将被禁止投稿一年;期满后若想重新投稿,必须通过同行评议,且首次投稿还需有担保人。同时,平台也在开发技术工具应对这一问题。但研究人员强调,治本之道仍在于确立学者本身的核心责任。AI只能是辅助工具,学者必须对自己论文中每一条引文的真实性负责。此外,期刊编辑、同行评议人和平台审核人员也需要接受系统性培训,提升识别虚假文献的能力。在AI技术迅猛发展的当下,守住知识真实性的底线,需要整个学术界协同努力。