多伦多大学AI写作导师评测：Overleaf顶会论文修改指南

2026-06-18阅读 0热度 0

AI写作

多伦多大学、向量研究所、苏黎世联邦理工学院、图宾根马克斯·普朗克智能系统研究所、卡内基梅隆大学、EPFL、伊利诺伊大学香槟分校及EuroSafeAI的联合团队，于2026年6月7日以预印本形式发布了这项研究，论文编号arXiv:2606.08857，读者可凭该编号检索全文。

科研写作：一条被忽视的“断路”

每年，全球成千上万名初级研究人员自信地完成论文投稿，随后收到审稿人的尖锐批评：论述不清、贡献模糊、方法细节缺失。这些批评背后，往往不是研究本身有硬伤，而是科研写作技能的匮乏。

科研写作与普通写作截然不同。它有自己的叙事逻辑、结构规范和表达惯例。在ACL、NeurIPS等顶级会议上，审稿人不仅评估研究思路的新颖性，还严格审视论文的组织清晰度、论述说服力和格式合规性。有导师手把手指导的学生，能通过反复修改和批注逐渐掌握这些技巧。但那些缺乏资深导师指导的研究者，这条路几乎被堵死。

现有AI写作工具并未填补这一空白。Grammarly和Writefull等工具只纠正单句语法错误，类似一个只检查错别字的助手；而另一类AI审稿工具模拟真实审稿人给出接受或拒绝理由，扮演“判官”而非“导师”。两类工具都无法在草稿阶段给出像“这段叙述逻辑有问题，应先交代动机再引出方法”这样的具体可操作反馈。

为弥补这个缺口，多伦多大学等多所机构的研究团队开发了PaperMentor——一个直接嵌入Overleaf（全球研究人员最常用的在线LaTeX写作平台）的AI写作导师系统。

一、PaperMentor到底是什么

PaperMentor的核心理念可以这样想象：你正在Overleaf里修改论文，旁边突然出现了一位有多年顶会发表经验的学长。他不替你写，而是在你的文字旁贴上便利贴，写着：“这里对方法的描述太笼统，审稿人会追问超参数如何选择的，建议补充搜索范围和选择标准。”

这就是PaperMentor的工作方式。它不修改你的任何文字，而是在Overleaf的原生审稿面板中插入行内评论，就像真人审稿人留下的批注。每条评论都精确指向文字片段，附上具体修改建议，并标注问题严重程度：CRITICAL（关键）、WARNING（警告）或SUGGESTION（建议）。

系统的所有代码以AGPL-3.0许可证开源，任何人都可免费使用和部署。

二、那本“导师秘籍”：专家技能库

PaperMentor最独特之处在于它拥有一本真实的“导师秘籍”——研究团队将数十位顶级AI/ML/NLP研究人员的写作经验系统整理成一个专家技能库。

秘籍的原材料来自两个渠道。一是研究圈内部：来自AI、机器学习和自然语言处理领域教授们的内部反馈，记录了改学生论文时最常出现的问题。二是公开资料：包括微软研究院Simon Peyton Jones的“如何写好一篇研究论文”、斯坦福大学Jennifer Widom的“技术论文写作技巧”、约翰斯·霍普金斯大学Jason Eisner的写作指南，以及NeurIPS、ICLR、COLM等2025年顶会的350篇真实审稿意见。

收集完成后，研究团队用Claude Opus 4.5（Anthropic的旗舰语言模型）将其统一格式化为技能文件，再逐一人工审查和修订，确保每条内容的准确性、清晰度和一致性。最终技能库包含超过40个技能文件，总字数超过16000字，覆盖论文类型、目标发表会议、各章节写法、行文风格策略以及如何从优秀范文中学习等维度。

为保持结构清晰，技能文件分为六个顶层类别：基础设置、目标会议规范、论文类型惯例、各章节写法、图表规范以及写作风格。每个类别下再细分独立子技能文件，对应论文写作中的具体方面。

三、三步流水线：PaperMentor如何工作

PaperMentor的工作流程分三个阶段，整个过程只需一到两分钟。

第一阶段：读懂你的论文

用户上传LaTeX项目后，系统可接收两项可选额外输入：目标投稿会议（如ICLR、ACL）和一篇参考范文（期望论文风格或标准达到的样本）。系统随后将所有嵌套的LaTeX文件合并成一个统一源文件，提取摘要和所有章节标题，判断论文属于哪种类型。

论文类型判断至关重要，因为不同类型有不同写作规范。PaperMentor目前支持六种论文类型的专门指导：分析论文、数据集论文、方法论文、工程论文、跨学科论文和立场论文。例如，数据集论文应详细描述数据收集流程、标注规范和评估细节；方法论文则应清晰呈现动机、形式化定义及与基线方法的对比。系统根据技能库中这些类型的描述，由语言模型自动识别最合适的分类，若论文不符合任何支持类型，则保持未指定状态。

识别论文类型后，系统还需将各章节分配给相应的审查领域。研究团队定义了七个章节级审查领域：摘要、引言、相关工作、方法（含方法论、数据集、任务形式化和预备知识）、结果（含实验、发现和讨论）、结论（含局限性、伦理考量和致谢）以及附录。此外还有三个全局审查领域，不与特定章节绑定：写作风格、LaTeX与数学公式格式、以及图表说明。

第二阶段：12位专家同时审稿

系统启动12个并行运行的审查智能体（agent），每个负责一个特定领域。其中七个是章节智能体，对应摘要、引言、相关工作、方法、结果、结论和附录；三个是全局智能体，分别审查全文的写作风格、LaTeX格式以及图表说明；另外两个是动态智能体，根据第一阶段识别出的论文类型和用户选择的目标会议实时配置，分别审查论文是否符合该类型的写作惯例以及目标会议的格式要求。

每个智能体只接收与自身职责相关的内容。章节智能体只处理自己负责的章节文本，同时附带摘要和引言作为上下文参考，避免信息过载；全局智能体则处理完整合并源文件。当某个智能体接收的文本量超过预设阈值时，任务会进一步拆分给更低层级的子智能体处理，保持每次处理的精准度。

每个智能体生成的评论包含四个要素：评论所在的源文件、被标注文字的起止位置、评论内容以及严重程度标签。

第三阶段：整合与去重

12个智能体并行工作难免产生重复反馈——例如写作风格智能体和引言智能体都注意到摘要中某句话的表述问题。系统通过比对两个条件识别重复：标注的文字片段是否有大量重叠，以及评论文本在词汇层面是否高度相似。当两条评论被判定为重复时，系统保留严重程度更高的那条，并优先保留章节智能体的意见（相比全局智能体更具针对性）。最后，每条评论通过字符位置信息精确映射回对应的原始LaTeX源文件，并注入到Overleaf的审稿面板中显示。

四、用起来是什么感觉

PaperMentor构建在开源的Overleaf社区版之上，研究人员无需改变任何写作习惯，直接打开熟悉的Overleaf界面即可使用。

在界面层面，系统在Overleaf编辑器的侧边栏中增加了一个新面板，采用React和TypeScript实现。该面板提供四个操作：选择底层语言模型、填写目标投稿会议（可选）、上传参考范文（可选）以及点击“Run Full Review”（运行全面审查）按钮。点击后显示进度提示，等待一到两分钟，审查结果以可折叠形式呈现——包括系统识别出的论文类型，以及按文件分组的评论列表，每条评论附有严重程度标识。同时，这些评论会同步出现在Overleaf原生的审稿面板中，高亮标注精确定位到LaTeX源文件中对应的文字，与真人审稿人留下的批注体验完全一致。

在技术实现层面，后端在Overleaf原有的web服务中新增了Express.js路由处理器和审查编排引擎，作为ES模块实现。用户点击审查按钮后，前端向“/ai-tutor-review”端点发送POST请求，携带项目ID和选择的模型；后端随即检索所有项目文档，生成合并的TeX文件，执行三阶段流水线，并将结果按源文件组织后返回。

五、真实研究人员的测试结果

为验证PaperMentor的有效性，研究团队设计了一项用户研究。他们招募了14位AI领域研究人员，学术背景覆盖本科生到博士生。这14位研究人员在团队搭建的Overleaf平台上标注了80篇论文的评论，其中70篇来自ICLR 2026的提交稿（通过arXiv随机抽样，特意覆盖所有投稿而非仅录用论文，确保论文质量多样性），另外10篇来自内部学生草稿。

每位参与者被分配标注4篇论文，每篇评估60条评论——其中30条来自PaperMentor，30条来自基线系统，两者在界面上完全相同，研究人员无法区分来源，避免了主观偏见。

基线系统的设计非常严谨：使用完全相同的语言模型（GPT-5.2）和完全相同的其他提示组件，唯一的区别是基线系统没有专家技能库的加持。这样的设计确保最终差异可完全归因于技能库本身的贡献。

评估指标分三个维度。有效性（Validity）衡量评论是否在事实上正确、与被标注文字片段相关。可操作性（Actionability）衡量评论是否清楚说明作者应如何修改。简洁性（Conciseness）衡量评论是否简洁，无冗余或冗长。三个维度均采用二元判断（是/否）。

最终结果：PaperMentor的有效性得分为0.675，基线为0.610，提升6.5个百分点；可操作性得分为0.906，基线为0.865，提升4.1个百分点；简洁性得分为0.900，反而低于基线的0.973，下降7.3个百分点。所有差异均达到统计显著水平（p<0.001，曼-惠特尼U检验）。

研究团队对简洁性下降的解释是：技能库中包含大量具体的写作规范和例子，这些信息融入评论时自然增加了篇幅，形成一种权衡——评论变得更准确、更有指导性，但也更长。从用户实际需求看，一条“稍长但告诉你具体怎么改”的评论，通常比“简短但模糊”的评论更有价值。

从评论分布来看，约40%的评论集中在方法和结果两个章节。在考虑各章节文本长度后，系统在摘要和方法等核心章节上投入相对更多注意力，而在附录上关注较少——这与真实写作指导的优先级分配高度一致。附录占总文本量的49.9%，但只收到8.4%的评论；而仅占2.5%文本量的摘要，收到了8.4%的评论关注。

完成标注后，研究团队还收集了参与者对评论质量的定性反馈。总体来看，受访者对AI生成的反馈评价正面，多数人认为它模仿了教授的语气，易于理解，有助于改进论文，批评力度适中。系统在提升表达清晰度、加深分析深度和改善语法方面特别有效，也确实帮助他们理清了论点、补充了论据、提高了学术严谨性。

六、技能库的未来：一个不断生长的知识共同体

研究团队将技能库设计为一个“活的资源”，而非一次性固定产品。由于技能文件是纯文本格式，任何研究人员只需通过简单的文本编辑即可贡献新技能或修改现有内容，无需触碰任何代码。

这种设计具有重要的实际意义：学术写作规范会随时间变化。不同会议有不同格式要求，不同研究子领域（如人机交互、自然语言处理、计算机视觉）有各自的写作惯例，这些都可独立更新，不影响系统其他部分的运行。

研究团队期待建立一个社区驱动的发展模式：来自不同子领域的资深AI研究人员将自己的写作经验系统化地写入技能库，既可丰富现有技能，也可作为全新的技能模块加入。随着时间推移，PaperMentor可能从一个单一的写作助手，演变为整个AI研究社区共同维护的写作知识基础设施。

七、这个系统还有哪些不足

研究团队在论文中坦诚列出了当前系统的局限性，这些也指向了未来的改进方向。

目前，PaperMentor主要处理LaTeX源代码，因此可能遗漏一些只有在渲染后的PDF中才能发现的问题——比如图片的视觉质量、排版的实际效果，以及实验数值是否存在明显错误。

在评估层面，这次研究覆盖了80篇论文和14位标注者。虽然规模足以证明统计显著性，但并不能代表所有写作风格、所有会议规范、所有学科背景和所有研究人员的多样性。此外，这次评估是消融实验（只改变一个变量：有无技能库），而非与真人导师给出的评论进行直接对比。未来若能收集资深研究人员在Overleaf上留下的真实批注，并以此为基准进行评估，将能提供更强的参考价值。

另一个已知技术问题是“局部视野”的局限。为控制处理成本，章节智能体只接收自己负责章节的文本，即使摘要和引言作为背景补充也有限。这导致一些有效性错误：某个概念明明在论文其他地方已经定义或介绍，但章节智能体因看不到那部分内容，错误地认为它缺失。研究团队提出了一个有前景的解决方向：为所有智能体维护一份轻量级的全局文档摘要，记录关键概念的定义位置、实验设置等全局信息，让每个智能体在局部处理时也能“知道全局”，同时避免每次都将整篇论文送入所有智能体导致计算成本爆炸。

归根结底，PaperMentor做了一件看似简单但意义深远的事：它把原本只有少数幸运学生才能获得的导师式写作反馈，变成了所有人都能随时调用的工具。它不写你的论文，不替你决定论文该说什么，只是像一个经验丰富的学长坐在你旁边，在你写完之后帮你指出哪些地方还可以更清晰、更有说服力、更符合顶会的期待。

这种“只给建议、不替你写”的设计选择本身就很有意思。当AI越来越强大，越来越多的工具开始替用户直接完成工作，PaperMentor选择了另一条路：让人保持主导权，让AI扮演顾问。在科研写作这个极度需要作者对自己研究负责的领域，这或许是更合理的人机分工。

对于想更深入了解技术细节的读者，完整论文可通过arXiv编号2606.08857查阅。

Q&A

Q1：PaperMentor和Grammarly有什么区别？

A：Grammarly主要纠正句子级别的语法和拼写错误，相当于帮你检查错别字。PaperMentor针对的是AI科研论文的结构、逻辑和写作规范，会告诉你“这段方法描述太笼统，审稿人会追问超参数怎么选的”或“结果部分应先说关键发现，而不是先指向表格”，是章节级别的导师式批注，两者解决的完全是不同层面的问题。

Q2：PaperMentor的专家技能库是怎么来的？

A：技能库来自两个渠道：一是AI、机器学习和自然语言处理领域教授们的内部写作反馈，二是微软研究院、斯坦福大学等机构研究人员公开发布的写作指南，以及NeurIPS、ICLR等2025年顶会的350篇真实审稿意见。这些材料被整理成40多个技能文件，超过1.6万字，经过人工审查后构成系统的知识核心。

Q3：PaperMentor生成的评论准确率有多高？

A：根据14位AI研究人员对80篇论文的标注，67.5%的评论被认为有效（内容事实正确且与被标注文字相关），90.6%的评论被认为可操作（清晰说明了作者应该怎么改）。相比之下，使用同一语言模型但没有技能库的基线系统，有效率为61%，可操作率为86.5%，两项指标均显著低于PaperMentor。