请提供原始标题,以便我为您生成符合SEO规范的优化标题。
许多从业者习惯手动编写提示词,但现实是:手工提示在特定精密任务中精度有限,将优化工作交给大模型自身往往更高效。然而,另一个残酷的事实是——自动生成的提示也并非万能。大模型固有的不可预测性,让我们面临抉择:手写还是自动生成?
大型语言模型(LLMs)的普及催生了提示工程这一复杂实践。它介于艺术与科学之间,核心是设计精确的指令,引导模型输出预期结果。近期,VMware的Rick Battle与Teja Gollapudi在论文《偏心自动识别的不合理有效性》中揭示了提示的细微调整对模型性能的深远影响——看似无伤大雅的改动,可能引发结果剧变。Rick在电话采访中告诉The Register:“这篇论文的核心论点是,反复试错并非正确路径。”
标题:偏心自动识别的不合理有效性
链接:https://arxiv.org/pdf/2402.10949.pdf
研究方法
提示工程面临的挑战多重且缺乏系统化的优化框架。这导致许多人采用“积极思考”策略——在系统提示中嵌入激励性短语以提升表现。但研究指出,这种试错法不仅效率低下(例如常见的“深吸一口气仔细想”“这将是有趣的”),而且在科学上也站不住脚。我们需要更严谨的提示优化手段。
在系统消息中插入“这将是有趣的!”这类积极激励片段,确实能改善模型性能。但Rick强调:“要科学验证这些片段,计算成本极高——一旦改变一个变量,就必须对整个测试集重新评估。”他建议转向自动提示优化:让LLM自行改进提示,以提升基准测试成绩。
此前研究显示,在商业LLM上进行此类优化成本高昂。使用GPT-3.5/4、Gemini或Claude实验,每个模型需12,000次API调用,耗费数千美元。完成全套商业模型实验,经费压力巨大。
为评估“积极思维”提示的影响,研究设计了60种系统消息组合,涵盖5种开场白、3种任务描述和4种结尾语。这些组合在启用/禁用思维链(CoT)提示的情况下,共计测试了120个变体。下图展示了测试结果:
研究选用GSM8K数据集——该数据集包含多步推理的数学问题,正是当前LLM的典型难点。评分采用精确匹配(EM)指标(不提供部分分),并实施后处理确保格式正确。为控制预算,系统抽取了前10、25、50、100个问题的子集,并以最后4个测试样本作为上下文学习示例。最终选用VMware NLP Lab提供的三个模型:Mistral-7B、Llama2-13B和Llama2-70B。
“OS EM”为优化集上的精确匹配,“ES EM”为评估集得分,“平均EM”为两者均值,“EM Delta”为两者差值。所有提示均采用思维链形式。
评估人类“手工优化”与LLM自动优化的提示,采用两个指标:原始性能得分(平均EM)以及优化集与评估集分数之差(Δ)。低Δ意味着提示泛化能力强。最优提示应具备高平均EM与低Δ。
观察Mistral模型:在10、25、50个问题上,“积极思维”提示的Δ值较低,但自动优化提示在100个问题上Δ更低。相反,当让LLM自动优化时,较大的Llama-2模型在所有规模下均表现出更低的Δ。以下是一些表现最佳的提示示例:
(此处应插入提示示例表格或列表,原文有部分提示内容但未完整呈现,保留原文描述)
这说明什么?结论直接:使用LLM辅助优化提示时,模型规模至关重要。若模型参数超过7B,建议利用模型自身进行提示优化。
结果显示,不同模型之间难以归纳通用规律。多数情况下,“积极思维”提示确实能带来正向增益,但Llama2-70B在不使用思维链时,最优系统消息竟是“NONE”。论文最引人入胜的部分是自动优化提示的示例——它们与人类可能构思的提示截然不同。
以下是由Llama 2-70B生成的高分提示:
星际迷航提示
系统消息:
指挥部,我们需要你绘制一条穿过湍流的路线并定位异常源。利用所有可用的数据和您的专业知识来指导我们度过这一具有挑战性的局面。
答案前缀:
船长日志,恒星日期[在此插入日期]:我们已经成功地绘制了穿过湍流的路线,现在正在接近异常点的来源。
这条提示仅描述了困境、待解决问题以及期望结果,未包含繁琐的中间推理步骤。这正是自动化提示词的神奇之处。作者感叹:令人惊讶的是,模型在数学推理上的表现,似乎可以通过表达对《星际迷航》的喜好而提升。
考虑到手动调整提示组合的巨大计算复杂度,研究将最佳“积极思维”提示与自动优化结果进行对比。结论明确:即使针对较小的开源模型,自动优化也能生成优于手工设计的提示,且泛化性更强。更关键的是,自动生成的高分提示呈现出超乎预期的独特性。
反思与启示
自动提示优化是一个前沿的战略方向。它利用LLM自身改进提示,有效解决了手动优化的低效痛点。尽管传统上成本高昂(尤其使用商业模型),但本研究开创性地使用较小的开源模型作为优化器。实验表明,即便数据集有限,自动优化也显著优于手动优化,使AI交互更加高效且经济。
研究中最有趣的发现之一,是那些违背直觉的自动提示。例如,在系统信息中引入对“古代神话”的亲和性,竟意外增强了模型在历史分析中的表现。这凸显了大模型的不可预测性,也揭示了人类工程师可能永远无法想出的策略。
Battle和Gollapudi的工作挑战了传统提示工程方式,预示着AI交互的新纪元。他们开辟了一条以科学严谨和计算可行的方法优化AI模型的路径,有望让未来的AI应用更易获取、更高效、更具影响力。
值得强调:人类手写提示与LLM自动生成的混合策略,将带来最佳效果。
PS:研究人员采用DSPy优化器对提示进行自动优化,并与人工生成的“积极思维”提示对比。DSPy是由斯坦福、伯克利、卡耐基梅隆、MIT、亚马逊、微软等机构联合发布的提示自动化技术。本研究借助DSPy自动生成并迭代提示,结果显示自动生成的提示通常优于人工设计,尤其在较大模型上泛化能力更强。这为基于LLM的应用开发提供了一种系统且高效的优化方法。

