诺基亚贝尔实验室与巴黎理工学院联手破解AI格式枷锁难题

2026-06-04阅读 0热度 0

诺基亚贝尔

这项由诺基亚贝尔实验室与法国巴黎理工学院旗下巴黎电信学院联合推进的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2601.07525v2。对技术实现细节感兴趣的同行，可通过该编号检索完整原文。

大语言模型同样面临这个结构性问题。

当AI工具被用于实际业务场景，输出的结构化要求往往远超日常对话。医院信息系统需要标准化的诊断代码，财务软件要求固定格式的收支数据，开发工具则对代码语法有严格规范。这些场景的共性在于：输出必须精准“合规”，任何偏差都会导致下游系统无法解析。

棘手之处在于，AI被要求在同一流程中兼顾两件事：深度推理与精准格式化。格式约束越严格，推理空间受到的挤压就越明显。本质上，这是一场思维自由度与输出规范性之间的拉锯战。

研究团队提出的解决方案名为“In-Writing”，核心逻辑是“先起草，再誊写”。AI在推理阶段完全不受格式限制，直到最终输出答案时才启动格式约束机制。实验数据显示，这一简单思路在多项任务上的准确率最高提升达27%。

一、AI输出为何必须遵循格式规范？

要理解这项研究，首先需要明确一个背景问题：AI为什么需要关注格式？

一个直观的类比是餐厅后厨系统与前台点单系统的对接。顾客可以用多种方式表达“宫保鸡丁，少辣”，但后厨收到的指令必须是标准化代码，例如“item_code: 0031, spice_level: 1”。如果AI输出像顾客点单一样随意，后台系统根本无法处理。

因此，研究人员长期致力于让AI输出更加规范、可解析的内容。当前主流方法大致分为三条路线，每一条都存在显著缺陷，这正是本研究发起的起点。

二、三条既有路线各自存在哪些问题？

路线一：自然生成（Natural Generation）

顾名思义，这种方法不做任何格式限制，让AI像聊天一样自由输出。优点是AI思维完全自由，推理质量通常不错。但缺点也很突出：AI有时将答案嵌在一大段文字中，需要额外设计解析器去“提取”，且提取结果未必准确。更关键的是，输出格式无法保证，对需要结构化输出的工业场景几乎没有实用价值。

路线二：硬约束解码（Constrained Decoding）

这项技术的工作原理类似于给AI戴上一副格式“滤镜”。每生成一个词之前，系统都会检查该词是否符合预设格式规范，不符合则直接屏蔽，强迫AI只能选择“合法”词汇。这种方法能百分百保证输出合规，但“滤镜”同时也限制了推理质量。实验发现，约束解码会切断许多在正常推理中完全正确的路径，导致最终结果反而变差。这好比解数学题时，老师规定只能用加法和减法，迫使你绕远路，有时甚至绕不回来。

路线三：两阶段转换（NL-to-Format）

这种做法算是前两种的折中：先让一个AI用自然语言完成完整推理和答案，然后用另一个（通常更大、更昂贵）AI将自然语言答案转换成规定格式。这种方法在一定程度上兼顾了推理质量和格式规范，但代价是调用两次AI，成本翻倍。而且转换过程本身也可能出错，特别是在需要输出复杂多字段格式时，转换质量极不稳定。

此外，还有一种名为CRANE的方法，试图在推理过程中来回切换“自由模式”与“约束模式”，用特定分隔符区分推理段和格式段。虽然思路有创意，但执行复杂度高，切换时机难以把握，实际效果也受到研究团队的质疑。

三、“先打草稿，再誊写”：In-Writing框架的核心机制

针对上述三条路线的缺陷，研究团队提出了In-Writing。其核心理念可以用书法练习来类比：先在草稿纸上自由挥洒，记录所有想法，待思路完全清晰后，才拿出正式纸誊写最终答案。

技术实现上，AI在回答问题时分两步走。第一步为“自由推理阶段”，没有任何格式约束，AI可以使用任何它认为合适的方式思考和表达。当AI确认推理完毕，会输出一个特定的“触发词”（trigger token）。这个触发词好比草稿纸上写下“定稿如下”，标志着推理阶段结束、格式化输出阶段开始。从触发词出现起，系统才启动格式约束机制，确保最终答案完全符合预设规范。

论文中用了图像处理领域的“修复绘画”（inpainting）来做类比：只对图像特定区域进行处理，不改变其他部分。In-Writing同样只对“最终答案输出”这个区域施加格式约束，保证推理过程完整且自由。

从数学角度理解（这里只为帮助理解思路，无需进行实际计算），传统约束解码会让格式要求影响整个推理过程，导致许多合理路径被提前排除。In-Writing通过将推理与格式化彻底分离，使推理完全不受格式干扰，只有最终输出才需要满足格式要求。这种分离带来的双重收益是：推理质量不会因格式约束而下降，同时最终输出能百分百保证格式合规。

四、触发词策略的关键：“早醒”问题与解决方案

研究团队在设计In-Writing时遇到了一个棘手问题：“过早触发”（premature triggering）。

回到书法比喻：如果你在草稿纸上写了一半，突然觉得自己已经想好了，急忙切换到正式纸开始誊写，结果发现还有很多内容未理清，再回头补充草稿就麻烦了。In-Writing面临的类似情况是，如果触发词选择不当，AI可能在推理未完成时就误判“该输出答案了”，过早启动格式约束，将后续推理也强套进格式框架，反而破坏了推理质量。

团队测试了两种触发词策略。第一种是“In-Writing-Base”，使用两个触发词：一个是“句子结束符”（``，表示AI认为一段话已完结），另一个是大括号“{”（JSON格式的开始符号，研究团队选用JSON作为结构化输出格式）。问题在于，AI在推理过程中可能随时产生大括号，例如在描述集合或举例时，这会意外触发格式约束，截断正在进行的推理。

第二种是“In-Writing*”，只使用一个触发词：“句子结束符”``。选择逻辑很简单：``只有在AI真正认为整段输出已结束时才会出现，不会在推理中途随意出现。因此，用``作为唯一触发词，可以确保AI在完全自由推理并自然结束后，才开始格式化输出。实验结果表明，这一简单调整几乎完全消除了过早触发问题。特别是在需要复杂数学推理的任务上，In-Writing-Base可能因过早触发损失超过30%的准确率，而In-Writing*能稳定保持最优性能。

五、实验设计：公平环境下的全面验证

为验证In-Writing的效果，研究团队搭建了全面测试体系，并刻意设计了一个对己方不利的条件，以检验方法的鲁棒性。

模型选择上，团队测试了18个来自五个不同系列的开源语言模型，参数规模从15亿到140亿不等，涵盖Qwen（通义千问系列）、Llama、Gemma、DeepSeek以及SmolLM等业界广泛使用的模型家族。所有测试均在NVIDIA A40显卡上本地运行，未依赖商业API服务。

测试任务涵盖两大类共七个数据集。推理类任务包括：多步数学推理的小学数学题库（GSM8K）、数字替换为变量的符号变体（GSM-Symbolic）、字母连接任务（Last Letter Concatenation）以及物品交换位置预测任务（Shuffled Objects）。分类类任务包括：49类医学诊断数据集（DDXPlus）、5类金融文本分类（MultiFin）、体育句子真实性判断（Sports Understanding）以及格式敏感的刻板印象多选题（NI-Task 280）。

值得关注的是，研究团队在实验设计上主动“让步”：沿用了其他研究团队的提示词模板，这些模板并未为In-Writing的输出格式提供任何引导。换言之，AI在推理后，完全依靠格式约束机制自动输出结构化答案，而非因为提示词中指示“请用JSON格式输出”。这种设计使测试条件对In-Writing相对不利，但结果表明，即便在这种不利条件下，In-Writing依然表现优异。

六、实验结果揭示的深层现象

实验结果揭示了几个值得深入分析的现象。

现象一：提取方式决定最终准确率。研究团队发现，在使用相同提示词的情况下，自然生成、两阶段转换和In-Writing*这三种方法实际上产生了完全相同的推理过程，区别仅在于最后一步如何从推理结果中提取答案。换言之，AI想到的内容相同，但不同的“提取工具”带来了截然不同的准确率。In-Writing*的结构化约束提取方式比用另一个大模型解读的方式更准确，最高可多提取出27%的正确答案。这一发现至关重要，因为它表明许多情况下准确率的差异并非来自AI推理能力本身，而来自最后的答案提取环节。

现象二：大模型解读也会出错。两阶段转换方法依赖一个更大的AI来解读第一个AI的输出，理论上应该可靠，但实验中发现解读模型会犯一些奇怪的错误。在DDXPlus医学诊断任务中，解读模型有时在正确答案前加上大段解释性文字，例如“符合给定有效诊断列表的最终答案是……”，然后才给出诊断名称，导致后续程序无法正确匹配答案。更令人担忧的是，在字母连接任务中，解读模型有时会“纠正”第一个AI的输出——例如第一个AI在字母之间加了不必要的连字符，解读模型去掉这些连字符，有时这种“纠正”反倒把错误答案变成了正确答案。这意味着两阶段方法有时不是在“提取”答案，而是在“修改”答案，本质上是一种不透明的操作，让人难以信任最终结果的来源。

现象三：格式约束并非万能。详细分析发现，In-Writing虽表现出色，但并非完美。在GSM8K数学题中，存在案例显示，AI在自由推理阶段输出的文字答案是“52500美元”，但最终格式化输出却只写了“52”。这说明格式约束在将推理结果“翻译”成结构化输出时，有时会截断或误解原始推理，这是未来需要继续优化的方向。

在与CRANE方法对比时，数字差异更加显著。以Llama 3.1-8B模型为例，CRANE在GSM-Symbolic任务上的准确率为33%，而In-Writing*达到59%，差距高达26个百分点。CRANE框架导致了远超正常水平的性能下降，说明其语法约束确实对推理过程造成了实质性伤害，而In-Writing*的下降幅度则维持在正常范围内。

七、解析能力与效率：两个关键维度

除准确率外，研究团队还从另外两个维度对比了各方法的表现：格式合规率（parsability）和词汇消耗效率。

格式合规率方面，In-Writing*在所有测试场景中均达到100%。相比之下，自然生成方法的格式合规率因模型大小和任务类型差异悬殊，有些条件下甚至不足40%。两阶段转换方法虽然提升了格式合规率，但仍无法保证100%，且解读阶段使用的提示词和模型对结果影响极大，稳定性较差。

词汇消耗效率方面，结果令人满意。In-Writing*比自然生成方法多消耗的词汇量非常有限，通常只有5到20个词（这些额外词汇主要是JSON格式所需的括号、引号等结构性符号）。相比之下，两阶段转换方法在本次测试中虽然只多消耗了2到5个词，但这仅是因为测试中的解读任务相对简单；当需要提取复杂的多字段结构化输出时，第二个AI需要消耗的词汇量会急剧增加，且第二次推理本身就是一笔不小的计算开销。

此外，研究团队在复核前人数据时，发现了一些实验设计上的问题。例如，在“打乱物品”任务的提示词模板中，有两个变体明明列出了七个选项（A到G），却在指令中错误地写道“请从以下四个选项中选择”。另外，少样本示例中有几道题目（如“挪威男人很无聊”的答案竟然是“种族”）和目标任务毫无关联，这些问题都可能影响对比结果的可靠性。这些发现也提醒我们，看待任何AI性能对比数据时，都需要关注实验设计本身的严谨性。

八、重叠分析：优劣互补的潜力

研究团队还进行了一项有价值的“交叉分析”：在相同推理过程基础上，In-Writing*和两阶段转换方法分别在哪些题目上成功或失败，两者成功与失败的案例是否重叠。

以字母连接任务为例，SmolLM3-3B模型的分析结果显示：53.5%的题目两种方法都做对了，34%的题目两种方法都做错了，0.7%的题目只有两阶段转换做对而In-Writing*做错，但高达11.8%的题目只有In-Writing*做对而两阶段转换失败。这一分布说明，In-Writing*能够弥补两阶段转换大部分失败案例，而两阶段转换能弥补的In-Writing*失败案例却很少。

这种不对称性的根源在于两种方法的根本差异：In-Writing*的格式约束机制除了提取答案外，还能对答案进行隐性的“纠错”——如果AI在推理中输出了格式不合规的内容（比如字母之间有多余空格），格式约束会在输出最终答案时自动过滤掉这些错误，将正确内容以规范格式呈现出来。这是一项免费附赠的纠错功能。

局限性不回避：研究团队的坦诚

研究团队在论文中明确承认了当前版本的主要不足：整个研究过程中，他们没有对提示词进行任何专门针对In-Writing的优化。测试中使用的所有提示词均为自然生成或两阶段转换方法设计，里面通常包含类似“请在最后用'answer is:'前缀给出答案”的指引，这对In-Writing来说完全无用。更关键的是，随着少样本示例数量增加，AI越来越倾向于严格遵守“answer is:”格式，反而在某些情况下降低了In-Writing和两阶段转换方法的提取准确率。这表明，如果专门为In-Writing设计优化提示词，其表现很可能还会进一步提升。

此外，格式约束机制偶尔会在将推理结果转化为结构化输出时产生错误，例如截断数字或混淆符号，这是技术层面仍需改进的问题。

归根结底，In-Writing提供了一个在推理质量和格式规范之间实现双赢的清晰思路：不是让AI在思考时就戴上格式枷锁，而是让它先自由思考，然后通过一个精准的“最后一公里”格式约束将答案装进合适的容器。这一思路成本极低（仅多消耗5到20个词汇），带来的收益却相当可观——无论是准确率、格式合规率还是系统复杂度的降低，都有明显改善。

对于需要在工作中使用AI工具处理结构化输出任务的人来说，这项研究意味着一种更可靠、更高效的AI部署思路即将成为可能。不必再纠结于“要准确率还是要格式”，未来的AI系统完全可以在单次调用中同时做好这两件事。有兴趣进一步了解技术细节的行业人士，研究团队已在GitHub（Nokia-Bell-Labs/InWriting）开放了全部代码，原论文arXiv:2601.07525也提供了完整的理论推导和实验数据。

Q&A

Q1：In-Writing框架和普通的AI回答方式有什么区别？

A：普通方式要么让AI完全自由回答（格式无保障），要么从一开始就给AI套上格式枷锁（推理受限）。In-Writing的区别在于它把这两个阶段分开：先让AI完全自由地把问题想清楚，等AI认为自己推理完毕、产生一个特定的“结束信号”之后，才启动格式约束，把最终答案规规矩矩地输出成需要的格式，两个阶段互不干扰。

Q2：过早触发问题是怎么产生的，怎么解决？

A：过早触发是指AI在还没推理完的时候，就误触发了格式约束机制，导致后续推理被强行截断。这个问题的根源是触发词选择不当——如果用大括号“{”作为触发词，AI在推理中随时可能用到这个符号，就会意外启动格式约束。解决方案是只用“句子结束符”作为唯一触发词，因为这个信号只有在AI真正认为整段输出已经完成时才会出现，几乎完全消除了过早触发的风险。

Q3：In-Writing多消耗的词汇量会不会显著增加使用成本？

A：不会。实验数据显示，In-Writing*相比普通自然生成方式，只多消耗5到20个词汇，这些额外词汇主要是JSON格式所需的括号和引号等结构性符号。相比之下，两阶段转换方法需要再调用一个大模型来解析答案，整体计算开销远高于In-Writing，而且第二次调用还需要把第一次的完整输出作为输入，输入词汇量本身就很大。所以In-Writing的额外开销是相当微小且固定的。