中国科学院大学联手上海AI实验室推出“排版医生”:AI一键优化论文格式,助力高效投稿
这项研究由中国科学院大学、上海人工智能实验室与上海交通大学联合完成,其预印本论文于2026年5月发布在arXiv平台,编号为arXiv:2605.10341。
研究核心:终结学术写作的“最后一公里”难题
任何有过论文投稿经历的研究者,都深谙一种典型的“截止日期前综合症”:当代码、实验与正文全部完成后,却在生成PDF的最后一刻发现图表错位、公式溢出、参考文献页存在大片空白,或者总页数微妙地超出了会议限制。随之而来的,便是在LaTeX源码、编译器与PDF预览器之间无休止的切换、调试与重新编译,这个过程往往持续至深夜,耗尽所有精力。
LaTeX作为学术排版的行业标准,以其专业的公式与规范的格式著称。但其一个固有特性是:源码编译成功,绝不等于生成的PDF视觉上合格或符合出版要求。图表可能漂浮到无关的页面,表格宽度可能超出边界,段落可能在尴尬处断开,末页可能留下刺眼的空白区域。
目前,尚无工具能自动化解决此类问题。现有辅助工具要么仅能解析代码与编译日志,要么是纯文本AI助手,它们修改代码时完全“看不见”最终的版面效果。这正是那个“修改-编译-检查”的痛苦循环至今仍是研究者日常噩梦的根本原因。
为此,来自上述机构的研究团队开发了PaperFit系统。其目标是让AI能够真正“看到”PDF版面来辅助修复LaTeX代码——如同一位经验丰富的排版编辑,实时审视渲染效果并指导源码调整,通过迭代验证直至文档完全符合规范。
一、排版的隐性成本:编译通过≠视觉合格
一个恰当的比喻是:成功编译LaTeX,相当于将物品装入未破损的快递箱。然而,要使包裹成功寄出,还需确保物品放置稳固、箱体未超重、包装无破损、地址清晰无误。仅仅“装入箱子”是远远不够的。
研究团队将这一现有工具均无法自动处理的环节,正式定义为“视觉排版优化”任务。其目标是:给定一篇可成功编译的LaTeX学术论文,通过循环执行“查看渲染页面图像→修改源代码→重新编译验证”的流程,最终使论文PDF在视觉上整洁、规范,并严格满足目标会议或期刊的页数限制。
为何这一环节至关重要?在文档自动化的工作流中,已有大量工具致力于生成“可编译的LaTeX源文件”,例如格式转换器、文档理解模型与大语言模型。这些属于“结构化排版”阶段,核心目标是确保代码无错。然而,从“可编译的代码”到“可直接投稿的优美PDF”,中间存在一个巨大的断层,目前完全依赖研究者手动调整——PaperFit旨在填补的,正是这片空白。
二、现有工具的局限:三大结构性缺陷
现有方法为何无法胜任?根源在于三个根本性缺陷,每一个都如同断案时缺失的关键证据。
首先是“视觉盲区”。基于规则的排版工具与编译日志提供的信息,本质是一维的文本信号。编译日志可以报告“overfull hbox”错误,但无法量化该溢出对读者视觉体验的实际影响,也无法判断某张图片的位置是否破坏了阅读流。排版质量本质是二维的空间判断,一维的代码与日志信息不足以支撑此类判断。
其次是“修复空间的无限性”。当系统识别出一个排版问题时,其面对的潜在修复方案数量庞大,且多数属于“伪修复”——例如滥用`\vspace`强行插入空白、用`\resizebox`暴力缩放表格、或用`\newpage`强制分页。这些命令虽能让代码继续编译,实则掩盖了问题或将其转移至他处,同时破坏了排版规范。如何区分“真正解决问题的方案”与“隐藏问题的方案”,需要专业的领域知识进行约束。
最后是“无法验证的级联效应”。LaTeX排版修改具有典型的非局部性:一处微小的调整,可能在文档后续部分引发连锁反应。调整一张图片的宽度,可能导致三页之后的分页点变化,进而产生新的“孤行”问题。纯文本AI助手在修改代码时,因无法“看到”修改后的PDF全貌,故完全无法预测或验证这些级联效应是否引入了新的缺陷。
三、PaperFit的核心机制:基于视觉反馈的闭环修复
PaperFit的核心设计理念,是模拟资深出版编辑的工作模式。编辑不会仅凭源码猜测最终效果,而是会先编译出PDF,逐页检查问题,再返回源码进行针对性修改,修改后重新编译验证效果,确认无误后再处理下一处。这个“观察→修改→验证”的闭环,构成了PaperFit系统的基本运作单元。
系统在每轮迭代中综合处理四个层面的信息:LaTeX源代码、编译日志、PDF文档结构以及渲染出的页面图像。其中,页面图像能揭示那些仅从代码和日志中完全无法察觉的二维视觉缺陷——例如稀疏的末页、双栏布局中某栏的大片空白、图表堆叠、表格过宽、跨页视觉不平衡等。
PaperFit将所有排版缺陷系统归类为五个主要类型:空间利用率问题、浮动元素定位问题、表格尺寸问题、内容溢出问题以及模板迁移适配问题。
四、修复的准则:何为有效的修改
发现问题仅是第一步,如何进行有效修复才是真正的挑战。研究团队为PaperFit设计了一套严格的“修复偏好档案”,明确规定了允许、限制及禁止的操作。
修复动作分为三个等级。第一级是“排版原生修复”,此为最优先推荐方案:调整浮动元素的位置参数、将过长公式拆分为多行、使用自适应宽度的表格环境处理过宽表格、将图片宽度归一化至模板规范值。这些操作直击问题根源,且通常不会产生副作用。
第二级是“间距微调”,属于有条件允许的操作:局部使用`\vspace`进行细微间距调整、修改`\setlength`参数、添加栏间分隔提示。这些操作仅在理由充分时被允许,且必须通过后续验证。
第三级是“伪修复”,被明确列为禁区:禁止使用`\resizebox`暴力缩放表格、禁止使用`\newpage`或`\pagebreak`强行控制分页、禁止使用`\scalebox`缩放图形、严禁删除任何内容。这些命令表面上消除了问题,实则破坏了排版逻辑或埋下了隐患。
仅当所有排版层面的修复均已完成,而页数仍略微超标或存在少量空白行时,系统才允许启用“最终手段”:有限度的语义润色——对措辞进行轻微调整,但绝对不允许改变内容、数据、引用或学术结论。此操作仅在排版手段穷尽后使用。
每次修复前,系统会对所有受保护对象(如图片、表格、标题、标签、引用和参考文献)拍摄“快照”,记录其数量与位置。修复完成后,系统立即核查这些对象是否完好无损、有无跨章节移动、标题是否被改动。任何违规都将触发系统回滚至修复前状态。
五、质量门控:修改后的强制验收
PaperFit最关键的设计之一,是每次修改后都必须经过一个严格的“验收关卡”,而非修改后即视为完成。
该验收机制在每轮修复后完整执行以下步骤:重新编译并收集日志、解析确定性信号、渲染全部页面、基于四层证据重新生成结构化缺陷记录、依据缺陷类别和修复偏好档案执行修复、再次编译和渲染,最后由“守门员”模块做出裁决。
守门员会给出三种裁决之一:“完成”表示所有约束通过且无剩余阻塞性缺陷;“继续”表示当前状态安全但仍有问题需处理;“阻塞”表示当前修复不安全或不可行,系统需回滚并尝试其他方案。
此闭环机制之所以必要,是因为LaTeX排版的非局部性极强。微小改动可能在文档远端引发不可预见的连锁反应,若不在每次修改后验证全局效果,很可能在修复一个问题的同时,在数页之后制造出两个新问题。
六、PaperFit-Bench:专为评估而构建的基准测试集
为严格评估PaperFit及潜在的其他解决方案,研究团队构建了一个标准化测试集,命名为PaperFit-Bench。
该测试集包含200篇来自arXiv的已发表学术论文,覆盖自然语言处理、计算机视觉、强化学习等AI子领域,涉及10种不同的会议模板(包含单栏与双栏格式),页数限制从7页到14页不等。每篇论文平均包含6.3张图片和5.3个表格,确保了测试场景中浮动元素的复杂性。
测试集的构建方式独特:每个测试案例均通过对原始论文施加有计划的“扰动”来生成,并保留原始版本作为参考。扰动操作共13种,分属前述五类缺陷。
测试案例按难度分为简单、中等、困难三档。团队特别强调,测试集的设计原则是“真实性优先于简易性”。每个案例都源于真实论文,而非人工构造的简单示例。即便是“简单”案例也可能包含棘手的局部排版问题;而“困难”案例通常是多种扰动交织的复杂情况。
七、六种基线方法:从基础到最接近的竞争者
为清晰展示PaperFit各核心组件的贡献,研究团队设计了六种层层递进的对比方法。
第一种是“Perturbed”,即直接提交扰动后的输入,不做任何修复。此为性能底线。
第二种是“RuleLog”,使用基于规则的确定性修复,仅依赖源代码和编译日志信号,完全不使用任何AI模型或视觉反馈。这代表了当前工业界常见自动化排版工具的能力上限。
第三种是“TextST”,单轮纯文本大模型修复。将LaTeX源代码发送给大语言模型进行一次性修改,但不提供渲染后的PDF页面图像。这代表了纯文本AI助手在此任务上的能力。
第四种是“TextMR”,多轮文本+日志修复。相比TextST,它允许多轮对话并能看到编译日志,但仍无视觉反馈。
第五种是“VisualST”,单轮视觉修复。为模型同时提供LaTeX源代码和渲染的页面图像,但仅有一轮修复机会。此方法测试了“增加视觉输入但不迭代”带来的收益。
第六种是“VisualMR”,多轮视觉智能体基线。这是最接近PaperFit的对比方法:它可以在固定轮数内反复查看源代码、日志和页面图像,并能直接修复编译错误、渲染问题和排版问题。关键区别在于:VisualMR缺乏PaperFit的缺陷分类体系、结构化诊断记录、修复偏好档案、回滚机制以及带验收标准的质量门控。它代表了“具备多轮视觉反馈的通用AI智能体”所能达到的水平。
八、实验结果:数据揭示的实质性差距
评估采用两套互补的指标体系。程序化指标考察技术正确性,包括编译成功率、渲染成功率、页数精确度、受保护学术内容的完整性等,汇总为0-5分的“程序分”。视觉质量指标则通过视觉语言模型对渲染页面进行评估得到,汇总为0-5分的“VLM分”。此外还有“胜率”,衡量在多少比例的案例中,某方法的输出在视觉上优于扰动输入。
最终数据清晰地展示了各方法的差距。直接提交扰动输入的VLM分为1.83,胜率为0。基于规则的工具将VLM分提升至2.18,但编译成功率反而从58%降至52%——表明规则工具在某些情况下会引入新问题。单轮文本模型的VLM分为1.85,胜率28%,排版改善有限。多轮文本+日志在纯文本方法中表现最佳,VLM分2.16,但视觉质量仍停留在较低水平。加入单轮视觉输入后,VLM分提升并不显著,这说明“拥有视觉输入”本身不等于“能修复排版”,关键在于是否有结构化的迭代流程。
最接近PaperFit的VisualMR是一个分水岭:编译和渲染成功率均达97.5%,VLM分2.80,胜率65%。然而,其页数精确命中率仅为54.9%——近半数案例未能控制在目标页数,且胜率仅65%,意味着35%的案例其修改结果在视觉上并不比原始扰动版更好。
PaperFit的数据如下:编译与渲染成功率均为100%,VLM分3.39,胜率89.5%,页数精确命中率80.5%。其VLM分比VisualMR高出0.59分,胜率高出24.5个百分点,页数命中率高出26个百分点。两种方法使用相同的大语言模型底座,差距完全源于PaperFit的结构化诊断、约束性修复和门控验证机制。
另一个值得注意的细节是:所有方法的内容语义相似度均保持在0.97以上,这表明所有改善均源于排版层面的修复,而非通过大量重写内容来“变相”缩短页数。
九、模型对比:系统架构比模型选择更重要
研究团队还测试了PaperFit工作流程在不同大语言模型底座上的表现,选取了GPT-5.4、Claude Opus 4.6、DeepSeek-V4 Pro和MiMo-v2.5-pro四个模型,在20个代表性案例上进行了对比。
结果揭示了一个重要规律:四个模型的VLM分数分布在3.52到3.66之间,差距仅为0.14分。相比之下,PaperFit与VisualMR之间0.59分的差距远大于此。换言之,PaperFit系统结构设计带来的性能提升,远比你选择哪个特定的大模型更为重要。
不同模型间存在风格差异而非能力优劣:MiMo-v2.5在“修复导向”上领先;GPT-5.4在“不引入新缺陷”维度得分最高,风格更谨慎;DeepSeek-V4在空间利用率和浮动元素定位上表现突出。这些差异体现的是修复风格的偏好,均在可接受范围内。
十、人类评估验证:AI评分是否可靠
研究团队邀请了真实人类评估者对所有方法的输出进行评分,并将人类评分与VLM自动评分进行相关性分析。结果显示斯皮尔曼相关系数为0.8571,相关性极高。这意味着VLM自动评分与人类的主观感受高度一致,使用VLM评分替代人工评分是可靠的。从散点图看,PaperFit在人类评分和VLM评分上均位列第一,且其他方法的相对排序在两种评分体系下完全一致。
十一、案例展示:从混乱到可投稿的转变
研究团队展示了数个典型案例,直观呈现PaperFit的实际修复效果。
在一个CVPR/ICCV格式的案例中,扰动导致多张图表远离其正文首次引用位置。在扰动版和VisualMR的输出中,存在一页满是文字提及“表3”、“表4”和“图3”,但这些元素却不在附近——读者不知去何处查找。PaperFit成功将这三个浮动元素调整至各自首次引用的文字附近,且整篇论文页数恰好符合目标,而VisualMR的输出则产生了多余页数。
在一个IJCAI格式的案例中,模板迁移导致大片空白和页数超标。VisualMR虽能编译渲染成功,但参考文献区域存在大片空白,且总页数超标。PaperFit采用了更紧凑的排版策略,最终版本符合目标页数,并完整保留了参考文献。
在一个IEEE格式的案例中,扰动版本在文档尾部的参考文献部分存在页脚错位。VisualMR能够重新编译,但在修改过程中引入了严重的排版错误,并使文档膨胀至20页。PaperFit修复了页脚错位,恢复了紧凑的参考文献布局,并将文档页数控制回目标值。
在两个模板迁移案例中,直接切换模板导致图片宽度严重失配,浮动元素位置混乱。PaperFit自动将图片宽度调整适配至新模板的列宽,重新验证并优化了浮动元素位置,通过了所有验收检查。
十二、失败案例分析:系统的当前边界
研究团队也坦诚分析了PaperFit未能成功的案例。
一类失败在于全局页数控制不够精准。例如,一篇目标为10页的论文,PaperFit的局部修复有效,却产生了多个稀疏的尾页,最终输出16页——局部修复成功,但全局控制失效。另一篇目标19页的论文,最终输出20页,且最后一页仅有一张大图和大量空白。即使仅超出一页,也构成一次硬性失败。
另一类失败是视觉缺陷残留。例如,一篇论文编译成功且页数达标,但一张原本过宽并被裁剪的图片仍未得到修复——满足了“可通过”的约束,但实际视觉问题未解决。另一个更棘手的案例是:一篇论文编译成功、页数正确,但渲染出的页面呈灰色、视觉无效——这表明仅凭编译成功作为质量指标是完全不足的,而即使是PaperFit的视觉验证机制,在此异常情况下也未能捕获问题。
这些失败模式指出了未来研究需要突破的方向:更精准的全局页数规划能力、处理超宽单图时的更鲁棒策略,以及对某些视觉渲染异常的更强检测能力。
归根结底,PaperFit解决的并非一个科幻问题,而是每天困扰数万研究者的现实痛点:LaTeX代码能编译,不代表PDF美观;能提交,不代表格式合规。这两者之间的距离,现在可以由一个真正“看着”版面进行修复的AI助手来协助跨越。当然,它尚不完美——特别复杂的多重问题组合仍会使其困扰,页数控制有时也不够精准——但从“只能靠自己反复调试”到“有一位AI排版编辑帮你实时审视”,这本身已是实质性的一步。
或许,下次论文提交截止前三小时,你不再需要独自熬夜面对那个无尽的“修改-编译-检查”循环了。
Q&A
Q1:PaperFit能处理哪些类型的LaTeX排版问题?
A:PaperFit主要处理五类LaTeX排版问题:图表位置远离引用处、图片尺寸超宽或过小、表格宽度超标或被不当缩放、公式或长单词导致文本框溢出,以及切换会议模板后产生的图片宽度与页数不匹配问题。它通过综合分析源代码、编译日志、PDF文档和渲染页面图像来识别这些问题,而非仅依赖代码或日志。
Q2:PaperFit与普通的LaTeX编辑AI有何本质区别?
A:普通LaTeX编辑AI在修改代码时完全“看不见”最终渲染效果,修改后即结束,无法预判改动引发的连锁排版反应。PaperFit的本质区别在于:每次修改后都会重新编译、重新渲染页面图像、并逐页检查是否产生新问题,形成一个真正的“观察→修改→验证”闭环。同时,它拥有一套明确规定哪些修复操作被允许、哪些属于“伪修复”的约束体系。
Q3:PaperFit-Bench测试集是如何构建的?为何需要专门构建一个新测试集?
A:PaperFit-Bench从arXiv收集了200篇已发表的学术论文,覆盖10个会议模板,然后对每篇论文施加有计划的“扰动”操作以制造各类排版缺陷,同时保留原始版本作为参照。专门构建新测试集的原因是:现有的排版相关测试集要么仅测试编译是否成功,要么只关注局部元素,没有任何测试集能同时支持多类型扰动注入、基于渲染页面的视觉评估、多轮迭代修复以及整篇文档级别的全局验证——而这些正是“视觉排版优化”任务的核心需求。
