AI学术革命:退学博士如何用AI工具重塑科研效率

2026-05-26阅读 0热度 0
ai

2026年的春夏之交,中国学术圈和文学圈接连经历了两场“地震”。

学术圈的震中,是一位名叫“耿同学讲故事”的B站up主。短短36天,他连续实名举报了5位985高校的院长级学者论文造假,被点名的无一例外,都是手握国家杰出青年科学基金、“长江学者”等重磅头衔的资深人物。

文学圈的震中,则是一位网名“抒情的森林”的普通网友。从2024年10月开始,他通过逐字逐句的文本对比,在一年多时间里,点名了近40位作家涉嫌抄袭——从86岁的杨本芬,到贾平凹、贾浅浅父女,再到蒋方舟等中生代与青年作者,几乎覆盖了文坛的老中青三代。

一个是生物医学领域的退学博士,一个是普通的读书人;一个挥舞着AI图片查重和统计学工具,一个依靠肉眼比对和查重软件。两个看似普通的个体,凭借各自的“武器”,正在撼动两个领域的固有权威。

这听起来像两个“愤青”的打假故事。但仔细琢磨,背后折射出的东西更值得深思:在AI时代,当普通人也能轻易获取强大的技术工具,监督权正从少数人的特权,悄然交还给每一个会使用工具的个体。

当然,更深层的问题也随之浮出水面:当一个体系需要依靠一位退学博士来纠错时,它本身到底该从何处着手改进?

打假门槛低了

这场风暴最令人震惊之处,并非耿同学本人有多厉害,而是他所用的方法,门槛竟然出奇地低。

回望中国学术圈,过去的学术打假几乎是少数人的“专利”。要么你是同领域的顶尖学者,具备深厚的专业壁垒;要么得像饶毅教授那样,既有学界影响力,又有揭露问题的勇气。对于普通人而言,连读懂《自然》(Nature)这类顶级期刊的文章都颇为吃力,更别提从中找出数据造假的蛛丝马迹了。造假者因此占尽了便宜:专业壁垒让外行无从下手,学术共同体的“熟人社会”让内行可能选择沉默,而期刊审稿人有限的精力也只能基于信任进行评审。这三重高门槛,让学术造假长期成为一种“低成本、高回报”的冒险。

耿同学的打法,彻底碘伏了这套逻辑。他根本不与你纠缠高深的生物学机制,也不需要拥有在《自然》发过论文的“资格”。他的武器,是AI辅助的图片与数据查重技术。

他的操作流程已被技术圈拆解,核心其实只有三步:将一篇论文的PDF拆解为文本、表格和图片,然后将数据交给AI进行审查。

具体来说,他重点瞄准三个突破口:

第一,检查数据末尾数字的分布是否过于集中。真实的实验数据因测量误差存在,小数点后一位乃至两位的分布应是随机的;而造假数据则常常出现大量“5”、“0”,或某个数字完全消失的诡异情况。

第二,审视不同量表间的数据是否存在雷同。例如,基因表达量的数据序列与肿瘤体积的数据序列本应毫不相干,但如果出现多个数值完全一致,那就极不自然。

第三,利用视觉大模型检查图片是否被篡改或重复使用。

耿同学有句话说得极为精妙。在揭露中山大学邝栋明论文造假时,他评论道:“这不仅是学术界的耻辱,更是造假界的耻辱。连随机数生成器都不会用的人,也配学术造假?”

数据造假之所以败露,根源往往不是造假者技术高超,而是太过敷衍。中山大学康铁邦论文中被质疑的实验图片,被网友形容为“像是从不同论文里直接复制粘贴的”。上海大学苏佳灿的论文数据中,竟有一组数据直接呈等差数列,“人为编造痕迹明显”。就连同济大学王平那篇发表在《自然》上的论文,196只小鼠的体重数据里,也出现了一个末位为“0”的离群值,这在统计学上是极不自然的。

耿同学对此的概括一针见血:“编造者甚至没有花心思和时间去做一组随机数据,而是完全随心所欲地乱填。如果用心去编,其实我是看不出来的。”

这恰恰说明,技术工具逼出了造假者的真实水平。一个在造假时都懒得花心思的人,足以表明在这个生态里,造假或许已成某种常规操作,没人觉得会被发现。

本质上,耿同学只是将学术争议,从高深的学术辩论,降维成了简单的数据判断题。他无需争论学科内的复杂知识,只是从大多数具备基本观察与推理能力的人都能发现的问题入手:这组数据的末位分布符合统计学规律吗?这两张图片的相似度是多少?这组数据有没有在其他表格中间出现过?

这些问题,算法都能给出答案,而且答案往往只有“是”或“否”,几乎没有灰色地带。

不得不说,耿同学的这套打法,已经成了一种可复制、甚至人人都能上手的工具。只要有心,谁都可以试一试。

文学圈的回响

如果说耿同学的故事是“技术赋能”的1.0版本,那么“抒情的森林”的故事就是2.0版本——它同样印证了技术正将监督权从中心推向边缘,只不过使用的工具不同。

抒情的森林是谁?从公开信息看,他是一位普通的读书博主。自2024年10月起,他陆续公开了数十位作家已出版作品中,与其他作家高度相似的语句和段落,引发了舆论剧震。

他在一次采访中坦陈:“我从0人关注开始发帖,很少下判断,只呈现文本对比。直到今天,我更多的也只是展示事实本身,将判断交给看帖子的人。”

过去,界定抄袭需要专家意见、法律程序和大量的专业辩论。而现在,抒情的森林只用了最基础的“文本比对”——这是任何一个识字、会使用搜索引擎的人都能独立完成的操作。

例如,他将贾平凹的《三十未立》与美国作家华盛顿·欧文《英国的农村生活》中的段落并列排在一起,让读者直观看到两段文字几乎完全相同。这种简单的技术工具,让传统上依赖专家权威才能裁定的事情,变成了任何人都能参与的“直观判断题”。

在这一点上,耿同学和抒情的森林可谓殊途同归。一个依靠AI图片比对和统计学分析,把高深的学术论文变成了数据题;另一个依靠文本比对和互联网搜索,把模糊的抄袭争议变成了直观对照题。

面对“你是不是为了流量”的质疑,抒情的森林的回应同样值得品味。他说:“我无法阻止别人的质疑,甚至欢迎别人的质疑,但大家凡事不要代入过甚,以己度人,流于诛心之论。讲话尽量有理有据,至少我自己是这样要求自己的。你质疑的,有根据吗?”

用证据说话,君子论迹不论心。当证据足够清晰时,动机就成了无关紧要的变量。

风暴背后

技术的发展让普通人拥有了质疑权威的能力,很多人将此称为“技术平权”。这无疑是积极的一面。但这场风暴另一个值得深思的问题是:为什么“耿同学”和“抒情的森林”所做的事,本该是体制本身应尽的职责?

耿同学本人对此有一个非常坦率的观察:“这段时间做打假以来,没有任何一篇问题论文,是官方自己去找出来的。这是迄今为止让我感到最失望的一点。”

他公开承认,自己发布的每一篇造假论文,“都不是我自己闲着没事去扒拉的,而是我认识的朋友或者热心网友先发现了,再转发给我的”。也就是说,最先发现问题的人,压根不是那些本应在审核机制中把关的人。

抒情的森林也遭遇了类似的现象——被他点名的近40位作家,除了86岁的杨本芬发文致歉,绝大多数选择了沉默。学术圈几乎上演着同一剧本:除了饶毅等极少数人发声,那些平时活跃的院长们、“杰青”们集体失声。没人说这是污蔑,因为证据就摆在那里;也没人出来否认,因为承认就等于默认自己与他们同属一个体系。

在一个健康的体系里,学术论文有无问题,理应由学术共同体的内部审核机制来保障;文学作品是否抄袭,理应由出版行业自律和作者诚信来维系。但现在,这些本该由体制完成的工作,却要依靠两位“志愿者”用业余时间来完成,这远远不够。

耿同学的视频引发风暴后,同济大学的王平已被免去院长职务,专业技术岗位等级降低两级,涉事论文第一作者被解除聘用关系。南开大学、中山大学、上海大学等也已纷纷成立调查组。

5月17日,耿同学再次发布视频,喊话四所高校的五位“杰青”,要求他们先自查整改,否则将再次举报。据他透露,这几篇被质疑的论文均涉及《自然》正刊或子刊。他对《三联生活周刊》表示,第一条打假视频发出后,他已收到超过100条打假举报。

这意味着,我们目前所看到的,可能只是冰山一角。

对于这场风暴,我们不能止步于揪出几个造假者。它理应催生更深层的变革。例如,监督机制的现代化。《自然》出版社的母公司早在2025年就已开始使用AI进行论文审查——没错,就是用AI来查造假。事实证明,基础的审查技术方案已经相当成熟,统计学检验、AI图片比对、数据查重,哪一样是今天的技术做不到的?问题恐怕不在于“能不能做”,而在于“愿不愿意做”。

再比如,当前的科研评价体系是否需要变革?当论文数量、项目经费、人才“帽子”与资源分配深度绑定时,学术研究容易被异化成一场“绩效竞赛”,许多造假正是源于此,毕竟其背后牵动着巨大的利益。

技术赋予了每一个普通人力量,但技术永远不能替代制度。耿同学和抒情的森林,只是那个抛出问题、揭开盖子的人。他们扔下的雷,最终还需要由体制本身来接住。

但这一次,我们再也无法假装看不见了。因为AI时代已经到来。你可以继续造假,但你要面对的不再只是一个博主的质疑,而是全世界无数人手中的AI工具;你可以继续抄袭,但你要面对的不再是几位专家的评判,而是全网任何人都能参与的“文本比对”。在你决定造假或抄袭的那一刻,或许就该问问自己:你真的,经受得起这种审视吗?

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策