AI科研助手陷“地图困境”：港科大研究揭原地打转真相

2026-06-02阅读 0热度 0

探索者

从实际表现来看，AI科研助手的落地确实令人振奋。它们不仅能协助检索文献、归纳摘要，更能自主生成研究假设、设计实验路线，甚至撰写完整的学术论文初稿。这种场景看似科幻，却已是正在发生的现实。面对这一技术跃迁，一个关键问题随之浮现：这些AI工具究竟是在帮助科学家拓展知识疆界，还是仅仅在已被充分探索的老路上循环往复？

香港科技大学研究团队对此展开了系统性的实证分析。他们并未止步于“AI生成的想法听起来有道理”这一表层印象，而是设计了一套严谨的评估流程：定量考察AI生成的科研想法到底有多“新”？与人类科学家的真实研究相比，探索范围是更广还是更窄？最终结论既出人意料，又在情理之中：当前的AI科研助手更像一位精通已知地图的整理者，而非甘愿踏入未知荒野的开拓者。

一、科研助手大测评：实验规模与设计架构

为验证“AI科研助手能否突破科学边界”，香港科技大学团队选择了大规模、系统性的对比实验这一最具说服力的路径。

研究团队首先构建了一套庞大的学术文献库，涵盖机器学习三大顶会——ICLR、NeurIPS、ICML——共34698篇论文，时间跨度为2019至2025年，每篇均含标题、摘要、关键词及引用关系。随后，他们采用“文献耦合”方法，将论文按共同引用关系划分为不同研究领域。文献耦合的逻辑是：若两篇论文频繁引用相同的参考文献，则它们研究的问题大概率存在关联——如同两人常去同一家书店购书，其阅读偏好往往相近。最终，研究团队识别出19个活跃领域，涵盖强化学习、图神经网络、AI公平性、在线算法、组合优化等热门方向。

实验核心环节如下：团队从2022至2025年的文献中，为每个领域反复随机抽取“种子文献”——每次抽取5篇，其中1篇为核心论文，其余4篇为相关文献——然后将这5篇论文输入AI科研助手，要求其基于此提出新的科研想法。此过程重复2140次，覆盖所有研究领域。

更关键的是，团队并未局限于单一AI工具，而是同时测试了四种代表性框架，并分别搭配六种大型语言模型运行。四种框架包括：最直接的零样本生成（AI直接基于文献输出想法）、AIScientist（通过反复自我审视与修改打磨想法）、ResearchAgent（将想法生成拆解为问题发现、方法设计、实验规划三个阶段，各阶段由另一AI打分评估）、以及AgentLaboratory（让扮演“博士后”和“博士生”角色的不同AI通过对话共同制定研究计划）。六种语言模型来自Qwen、Llama、Gemma系列，参数规模从0.8亿到350亿不等。

整个实验共生成51360次尝试，其中37802次成功产出有效科研想法。这一样本量足以保证统计可靠性。值得注意的是，所有AI助手的提示词中均明确要求提出“新颖、高影响力、与现有工作不同”的想法——换言之，研究者已充分鼓励AI大胆探索，但最终结果仍耐人寻味。

二、AI总在“地图中心”徘徊，而人类喜欢往边缘走

拿到37802个AI生成的科研想法后，团队的首要问题是：这些想法在知识空间中的分布，与人类科学家的论文相比，是更集中还是更分散？

为回答此问题，团队将每个AI想法和每篇人类论文都转化为数学向量——可理解为在一张无形的“知识地图”上标注每篇文章的坐标。两篇文章在地图上的距离越近，代表研究内容越相似；越远则代表差异越大。

结果一目了然。在同一研究领域内，AI生成想法之间的相似度在0.82至0.84之间；而人类论文之间的相似度仅为0.77。这一差距虽看似不大，但在学术研究语境下，它意味着AI想法高度聚集于知识地图的某些热门区域，而人类研究则更分散地探索更广阔的范围。

更令人深思的是，四种不同框架生成的AI想法之间相似度高达0.81至0.84——几乎与同一框架内部生成的想法相似。这意味着，无论采用自我反思、多阶段验证还是多智能体对话，最终产出的想法都指向大致相同的概念区域。换言之，更复杂、更“高端”的AI框架并未显著拓宽探索范围。

团队还采用另一种测量方式交叉验证：计算每篇文章与其所在研究领域“重心”的距离。结果一致——AI生成想法距离领域重心的平均距离为0.091，而人类论文为0.121。AI想法更紧密地围绕领域核心，而人类研究则更倾向在边缘地带乃至相邻领域游走。

用一个形象的比喻：这如同城市探索活动。人类探险者喜欢向城市边缘甚至隔壁城市进发，尽管可能迷路，却能发现意外风景。而AI探险者则倾向于反复拍摄市中心最热闹的广场——那里安全、有据可循，每张照片都美观，但实际已看过无数次。

三、AI不愿离开“出发点”，人类却在不断前进

第一个发现揭示了AI想法的高度集中性；第二个问题则进一步追问：AI生成的想法与最初输入的5篇“种子论文”相比，是否走出了足够远的距离？

团队为每组种子论文找到了对应的“人类跟进研究”——即后续引用了这5篇种子论文中至少两篇的人类论文。这批人类跟进研究代表了科学界在相同起点下实际走向的方向。

对比结果同样清晰。AI生成想法与种子论文之间的相似度为0.92，而人类跟进研究与相同种子论文之间的相似度仅为0.88。这意味着AI想法距离出发点更近，人类研究走得更远。更有趣的是，AI想法与人类跟进研究之间的相似度最低，仅为0.82——说明AI和人类在阅读相同文献后，选择了差异较大的前进方向。

团队还采用主成分分析（将多维数据投影至二维平面以便直观观察数据分布）进行可视化。在每个案例中，都能看到相同模式：5篇种子论文聚集于某处，AI生成想法紧密围绕其周围形成密集小圈子，而人类跟进研究则散落在更远位置，有时甚至位于图的另一角落。

这折射出科学进步的一个深刻事实：真正推动科学前进的，往往不是沿现有方向走得更稳更快，而是某天有人回头质疑“我们为何要这样走？有没有完全不同的路？”这种提问需要离开舒适区的勇气，而当前AI系统似乎更擅长在舒适区内精耕细作。

四、AI想法扎堆的地方，引用数往往更低

在确认AI想法更集中后，团队追问第三个问题：AI青睐的知识区域，在科学上是否真的更有价值？

由于AI生成想法本身缺乏真实引用数据，团队采用间接测量方法：找出与AI生成想法高度相似（相似度超过0.9）的真实人类论文，然后查看这些论文的引用量，并与同年、同领域平均引用量进行比较。若AI偏好的方向确实有价值，则相似论文的引用量应高于平均水平；反之则说明AI偏好的方向影响力较低。

在2359个成功匹配的“AI想法—人类论文”对中，与AI想法最相似的人类论文平均获得50.4次引用，而同年同领域平均引用量为54.9次。差距为4.47次，虽看似不大，但统计检验表明此差异并非偶然（置信区间为负6.41至负2.53，p值小于0.001）。在四个AI框架中，有三个（零样本生成、ResearchAgent、AgentLaboratory）均呈现显著低于平均引用量的模式；仅AIScientist的差异未达统计显著性。

此发现意味着：AI倾向于聚集的知识区域，恰恰是科学影响力相对较低的地方。当然，这并非表明AI所选方向毫无价值，但确实暗示了一个令人警醒的模式——AI在“安全地带”产出了大量想法，而这些地带恰好不是科学突破最易发生的地方。

五、AI改的是“怎么做”，而不是“做什么”

团队的第四个分析维度最为细腻：当AI生成想法与种子文献确实存在差异时，这种差异主要体现在哪里——是提出了全新的研究问题，还是仅仅更换了解决方案？

为回答此问题，团队对每个AI想法和每篇种子论文进行了结构化拆解：提取出“研究问题”（该项工作想解决什么问题）和“技术方法”（采用何种手段解决）两个核心要素。然后计算AI想法中的研究问题和技术方法与种子文献中的对应要素的相似度——若相似度超过0.87，则认为该元素已在种子文献中存在；低于此阈值，才视为真正新引入。

结果呈现显著不对称性。在研究问题层面，85.1%的AI生成想法提出的研究问题在种子文献中已存在——AI几乎未提出全新的“要研究什么”。但在技术方法层面，情况稍好：仅62.6%的AI想法采用了种子文献中已有的技术方法，即约四成AI想法在方法层面引入了新元素。

这意味着AI的“创新”主要发生在“换种方式做同一件事”，而非“换个问题来做”。借用地图探索的比喻：AI更像在说“我们去老地方，但这次换条路走”，而非“我们去一个从未去过的地方”。

此模式在四个框架中保持一致，仅程度略有差异。AIScientist在方法层面引入新元素最多，而ResearchAgent最保守。但无论哪个框架，研究问题层面的创新均极为稀少——无新研究问题的比例从79%到88.4%不等。

六、为什么AI会“原地打转”：背后的深层原因

将上述四个发现串联起来，一幅完整图景浮现而出：当前AI科研助手是极为出色的“局部延伸者”，却非真正意义上的“方向开拓者”。

这并非因为AI未被要求创新。恰恰相反，实验中的每个框架均明确要求AI提出“新颖、不同于现有工作、从未见过”的想法。AgentLaboratory的提示词甚至直接要求“你的想法应非常创新，与任何以前见过的东西都不同”。但这些语言层面的鞭策并未真正改变AI输出的知识分布。

原因可能在于AI系统的底层工作方式。大型语言模型在海量文本上训练，擅长识别和复现已有文本中的模式，擅长将不同已知概念组合。这如同一位博览群书的学者——他能融会贯通书中知识，讲起来头头是道，但真正“发现一个从未有人想到过的新问题”，则需要一种不同能力：愿意质疑现有框架本身，愿意在没有地图的地方出发。当前AI系统在此方面存在根本局限。

而且，这一局限并不随AI规模或复杂度的增加而自动消失。从0.8亿参数的小模型到350亿参数的大模型，从简单的单次生成到多轮自我反思、多智能体对话，探索广度并未显著扩大。更强大的AI并未带来更广阔的科学探索，而是带来了更精致、更连贯的“已知方向延伸”。

归根结底，这项研究提醒我们区分两件不同的事：产生听起来合理的科研想法，与拓展科学探索的边界。前者AI已做得相当不错，后者目前仍主要是人类科学家的专长——或更准确地说，是那些敢于提出“为何我们从来不这样问问题”的少数人的专长。

随着AI科研助手越来越深地嵌入科学研究的日常工作流，这种区分变得愈发重要。若我们仅用AI高效产出大量“局部延伸”式想法，很可能在不经意间导致科学界的集体注意力越来越集中于已有人踏过的方向，而悄然减少对真正未知领域的关注。这并非否定AI科研助手的价值——它们在提高研究效率、帮助科学家快速梳理文献、产生初步假设等方面确实非常有用。但若将“产出了很多新想法”误认为“拓展了科学边界”，则可能是一种危险错觉。

下一步的真正挑战，不只是让AI生成更多、更流畅的科研想法，而是探索如何设计出能够帮助人类科学家走向更陌生、更不确定、但可能更有价值的知识边疆的AI系统。这才是这项研究留给AI与科学社区的核心课题。

Q&A

Q1：AI科研助手和人类科学家在提研究想法时，最大的区别是什么？

根据这项研究，AI科研助手生成的想法倾向于紧密围绕已有文献展开，彼此之间高度相似，主要通过重新组合已有技术方法来产生“新”想法，很少提出真正新颖的研究问题。人类科学家则更愿意偏离已有方向，探索更分散、更边缘的知识区域，并且更频繁地重新定义研究问题本身。

Q2：用更大参数规模的语言模型或更复杂的多智能体框架，能让AI科研助手产出更有创意的想法吗？

根据这项研究的实验结果，答案是否定的。研究团队测试了从0.8亿到350亿参数的六种模型，以及从简单单次生成到多轮自我反思、多角色对话的四种框架，发现在所有组合下，AI生成想法的集中程度和对已有文献的依赖程度都非常相似。更大、更复杂的系统并没有显著拓宽探索范围。

Q3：AI科研助手生成的想法与哪些真实发表的研究最为相似？

研究团队将AI生成的想法与真实论文进行匹配，发现高度相似的例子包括：零样本AI生成的关于“不平衡分类与最优传输”的想法，与一篇2022年发表的使用可学习代价矩阵进行长尾识别的论文相似度达0.954；ResearchAgent生成的关于“动态稀疏训练用于时间序列分类”的想法，与一篇同年发表的动态稀疏网络论文相似度高达0.965。这些例子印证了AI想法更多是已有研究的局部变体，而非真正意义上的全新突破。

这项由香港科技大学领导的研究以预印本形式发布于2026年5月，收录于arXiv平台，编号为arXiv:2605.27905v1，归属于计算机科学与自然语言处理领域。有兴趣深入了解的读者可通过该编号查询完整论文。