大模型维基百科文章撰写实操指南
过去两年,大语言模型(LLM)的应用场景日益丰富,但真正考验模型实力的,仍然是长篇、有深度的解说性写作——类似维基百科的条目,既要求知识覆盖面广,又需要逻辑线索清晰。此任务之所以颇具挑战,不仅在于模型需具备良好的文笔,更考验其在动手写作之前,能否完成完整的研究、规划与资料整理。而现有的大多数研究,几乎都绕过了这一耗时费心的“写作前准备”环节。
本研究所提出的STORM系统,正是应对这一难题。简单来说,STORM的核心目标,是让大模型能像资深编辑那样,从零启动,自动完成一篇维基百科风格文章所需的前期研究准备。
一、核心结论:方向正确,但仍有长路要走
该论文的关键贡献,不在于提出STORM这个自动化写作前准备系统本身,更在于为此专门构建了一个名为FreshWiki的数据集,并设计了一套评价体系,专门衡量生成内容是否有据可查。
实验结论令人振奋。结果显示,STORM独创的“问题提出机制”能够显著提升最终大纲与成文的质量,特别是在内容的广度与深度方面,其表现明显优于传统基线方法。参与评审的资深维基百科编辑普遍认为,STORM在“写作前准备”阶段,确实具有实用价值。
但冷静审视后,差距同样显著。尽管STORM在自动评估与人工评估中都优于基线模型,机器生成的内容与人工精心打磨的文章之间,仍有一段距离。尤其在中立性与可验证性方面,机器输出仍会偶露破绽。比如,STORM虽然能挖掘不同视角,但其搜集到的信息,仍受到互联网“主流声音”的影响,甚至可能夹带某些带有推广性质的内容。这恰恰是未来需要重点改进的方向。
二、拆解STORM:它是如何工作的?
将复杂问题拆解,往往是深入分析的有效路径。研究者将“从零写一篇维基百科文章”的大任务,拆成两个子任务:首先是“研究”,即生成一个多层级的大纲并收集参考文献;其次是“写作”,即基于大纲与文献撰写全文。这一思路,本身即是对人类写作过程的高度模拟。
2.1 方法核心:两个假设驱动的多阶段流程
STORM的设计基于两个有趣假设:第一,不同的观察视角,自然会引出不同的问题;第二,要问出好问题,必须像“滚雪球”一样不断迭代研究。在此基础上,STORM设计了一套多阶段的组合流程。
首先,它通过检索和分析类似主题的维基百科文章,发现不同的“视角”。然后,它让大模型带着这些特定视角去提问。为了进一步深挖,STORM会模拟一场多轮对话,对话中的“专家”会根据互联网信息回答模型问题。最后,模型整合其内部“记忆知识”和搜集到的外部信息,生成一个完整大纲,再根据这个大纲逐章展开,最终形成一篇完整的文章。
2.2 数据集与评估:搭建一个公平的“实验场”
为了准确评估STORM的表现,论文团队做了一系列扎实的工作。
首先,他们构建了FreshWiki数据集。该数据集的巧妙之处,在于它收录的都是近期创建或经过大量编辑的维基百科条目。这能最大程度降低“数据泄露”风险——即测试用的文章,模型在训练时早已“背熟”,这对评估毫无意义。
其次,他们设计了一套严谨的自动评估指标。评估内容不仅包括大纲的“覆盖率”(通过标题软召回和实体召回率来衡量),还包括全文的ROUGE分数、实体召回率,甚至调用了一个13B的评估器LLM(Prometheus),从趣味度、连贯性、相关性、覆盖面、可验证性五个维度给文章打分。
最后,团队还邀请10位经验丰富的维基百科编辑进行专家评审,这是评价内容质量的“黄金标准”。
2.3 实验与结果:有惊喜,也有意外
实验中,STORM与三个基线模型进行了对比:直接由LLM生成的Direct Gen、标准检索增强生成(RAG),以及基于大纲的检索增强生成(oRAG)。结果非常说明问题。
大纲质量是决定胜负的关键。 实验数据显示,STORM生成的大纲在召回率上显著高于其他方法。有意思的是,在未组织的上下文窗口中塞入大量信息(如RAG),反而会使能力较弱的模型(GPT-3.5)在大纲生成上表现下降。这说明,信息组织方式比信息量本身更重要。STORM通过“提问”来系统研究主题,显然占优。
消融实验验证了设计的有效性。 研究人员还进行了消融实验,分别移除了“视角发现”和“多轮对话”两个模块。结果一目了然:完整版STORM的大纲质量最好,去掉对话模块的影响尤其显著,这再次证明“阅读相关信息”是生成有效问题的前提。
三、来自一线编辑的评价:优势与短板同样鲜明
为了获得更客观的评估,研究者邀请了10位在维基百科上至少有500次编辑的资深用户,对STORM和最佳基线oRAG生成的文章进行盲评。评价尺度也从自动评估的5分制,升级到了更精细的7分制。
优势:内容与组织性。 编辑们普遍认为,STORM生成的文章比oRAG的输出更具趣味性、组织更好,覆盖面也更广。甚至有编辑称赞STORM的文章“提供了更多背景信息”,感觉比一些维基百科原文还“更有深度”。
劣势:中立性与准确性。 然而,差距同样明显。编辑们一致指出,机器生成的文章在信息量上不如真正的维基百科页面。更关键的是,7位编辑都提到,STORM的文章听起来“有情绪”或“不够中立”,这显然是受到互联网来源偏差的影响。此外,模型偶尔还会“虚构”一些无关事实之间的关联。
定位:它是一个优秀的起点,而非完美终点。 令人欣慰的是,所有参与评估的编辑都一致认为,STORM是一个非常实用的“写作前准备工具”。80%的编辑认为它能帮助自己为一个新主题编写维基百科文章。这一反馈至关重要:它表明这项研究的价值不在于替代人类,而是赋能人类,将耗时费力的“研究”与“规划”工作自动化,让人可以更专注于“创作”与“修订”。
总体而言,STORM是一个精彩的起点。它首次系统性地解决了大模型在长文写作中“研究”环节缺失的问题。虽然在探究深度与避免偏见方面仍有很长的路要走,但它无疑为“有根据的写作系统”开辟了一个充满希望的前沿方向。未来的工作,或许就在于如何让模型在“做研究”时,既能广泛汲取信息,又能有效剔除偏见,始终保持冷静与中立。