大模型维基百科文章撰写实操指南

2026-06-24阅读 0热度 0

ai 人工智能

过去两年，大语言模型（LLM）的应用场景日益丰富，但真正考验模型实力的，仍然是长篇、有深度的解说性写作——类似维基百科的条目，既要求知识覆盖面广，又需要逻辑线索清晰。此任务之所以颇具挑战，不仅在于模型需具备良好的文笔，更考验其在动手写作之前，能否完成完整的研究、规划与资料整理。而现有的大多数研究，几乎都绕过了这一耗时费心的“写作前准备”环节。

本研究所提出的STORM系统，正是应对这一难题。简单来说，STORM的核心目标，是让大模型能像资深编辑那样，从零启动，自动完成一篇维基百科风格文章所需的前期研究准备。

一、核心结论：方向正确，但仍有长路要走

该论文的关键贡献，不在于提出STORM这个自动化写作前准备系统本身，更在于为此专门构建了一个名为FreshWiki的数据集，并设计了一套评价体系，专门衡量生成内容是否有据可查。

实验结论令人振奋。结果显示，STORM独创的“问题提出机制”能够显著提升最终大纲与成文的质量，特别是在内容的广度与深度方面，其表现明显优于传统基线方法。参与评审的资深维基百科编辑普遍认为，STORM在“写作前准备”阶段，确实具有实用价值。

但冷静审视后，差距同样显著。尽管STORM在自动评估与人工评估中都优于基线模型，机器生成的内容与人工精心打磨的文章之间，仍有一段距离。尤其在中立性与可验证性方面，机器输出仍会偶露破绽。比如，STORM虽然能挖掘不同视角，但其搜集到的信息，仍受到互联网“主流声音”的影响，甚至可能夹带某些带有推广性质的内容。这恰恰是未来需要重点改进的方向。

二、拆解STORM：它是如何工作的？

将复杂问题拆解，往往是深入分析的有效路径。研究者将“从零写一篇维基百科文章”的大任务，拆成两个子任务：首先是“研究”，即生成一个多层级的大纲并收集参考文献；其次是“写作”，即基于大纲与文献撰写全文。这一思路，本身即是对人类写作过程的高度模拟。

2.1 方法核心：两个假设驱动的多阶段流程

STORM的设计基于两个有趣假设：第一，不同的观察视角，自然会引出不同的问题；第二，要问出好问题，必须像“滚雪球”一样不断迭代研究。在此基础上，STORM设计了一套多阶段的组合流程。

首先，它通过检索和分析类似主题的维基百科文章，发现不同的“视角”。然后，它让大模型带着这些特定视角去提问。为了进一步深挖，STORM会模拟一场多轮对话，对话中的“专家”会根据互联网信息回答模型问题。最后，模型整合其内部“记忆知识”和搜集到的外部信息，生成一个完整大纲，再根据这个大纲逐章展开，最终形成一篇完整的文章。

2.2 数据集与评估：搭建一个公平的“实验场”

为了准确评估STORM的表现，论文团队做了一系列扎实的工作。

首先，他们构建了FreshWiki数据集。该数据集的巧妙之处，在于它收录的都是近期创建或经过大量编辑的维基百科条目。这能最大程度降低“数据泄露”风险——即测试用的文章，模型在训练时早已“背熟”，这对评估毫无意义。

其次，他们设计了一套严谨的自动评估指标。评估内容不仅包括大纲的“覆盖率”（通过标题软召回和实体召回率来衡量），还包括全文的ROUGE分数、实体召回率，甚至调用了一个13B的评估器LLM（Prometheus），从趣味度、连贯性、相关性、覆盖面、可验证性五个维度给文章打分。

最后，团队还邀请10位经验丰富的维基百科编辑进行专家评审，这是评价内容质量的“黄金标准”。

2.3 实验与结果：有惊喜，也有意外

实验中，STORM与三个基线模型进行了对比：直接由LLM生成的Direct Gen、标准检索增强生成（RAG），以及基于大纲的检索增强生成（oRAG）。结果非常说明问题。

大纲质量是决定胜负的关键。 实验数据显示，STORM生成的大纲在召回率上显著高于其他方法。有意思的是，在未组织的上下文窗口中塞入大量信息（如RAG），反而会使能力较弱的模型（GPT-3.5）在大纲生成上表现下降。这说明，信息组织方式比信息量本身更重要。STORM通过“提问”来系统研究主题，显然占优。

消融实验验证了设计的有效性。 研究人员还进行了消融实验，分别移除了“视角发现”和“多轮对话”两个模块。结果一目了然：完整版STORM的大纲质量最好，去掉对话模块的影响尤其显著，这再次证明“阅读相关信息”是生成有效问题的前提。

三、来自一线编辑的评价：优势与短板同样鲜明

为了获得更客观的评估，研究者邀请了10位在维基百科上至少有500次编辑的资深用户，对STORM和最佳基线oRAG生成的文章进行盲评。评价尺度也从自动评估的5分制，升级到了更精细的7分制。

优势：内容与组织性。 编辑们普遍认为，STORM生成的文章比oRAG的输出更具趣味性、组织更好，覆盖面也更广。甚至有编辑称赞STORM的文章“提供了更多背景信息”，感觉比一些维基百科原文还“更有深度”。

劣势：中立性与准确性。 然而，差距同样明显。编辑们一致指出，机器生成的文章在信息量上不如真正的维基百科页面。更关键的是，7位编辑都提到，STORM的文章听起来“有情绪”或“不够中立”，这显然是受到互联网来源偏差的影响。此外，模型偶尔还会“虚构”一些无关事实之间的关联。

定位：它是一个优秀的起点，而非完美终点。 令人欣慰的是，所有参与评估的编辑都一致认为，STORM是一个非常实用的“写作前准备工具”。80%的编辑认为它能帮助自己为一个新主题编写维基百科文章。这一反馈至关重要：它表明这项研究的价值不在于替代人类，而是赋能人类，将耗时费力的“研究”与“规划”工作自动化，让人可以更专注于“创作”与“修订”。

总体而言，STORM是一个精彩的起点。它首次系统性地解决了大模型在长文写作中“研究”环节缺失的问题。虽然在探究深度与避免偏见方面仍有很长的路要走，但它无疑为“有根据的写作系统”开辟了一个充满希望的前沿方向。未来的工作，或许就在于如何让模型在“做研究”时，既能广泛汲取信息，又能有效剔除偏见，始终保持冷静与中立。