全面深度2024年大模型数据标注综述：主流模型对比与权威排行榜

2026-06-20阅读 0热度 0

ai 人工智能

用大语言模型（LLM）来做数据标注，这事儿正在悄悄改变自然语言处理领域的游戏规则。数据稀缺、标注成本高、一致性差——这些老生常谈的难题，终于有了新的破局思路。这篇综述系统梳理了LLM在数据标注上的方法、应用和挑战，从提示工程到领域微调，从偏见控制到社会影响，几乎覆盖了所有关键维度。更重要的是，它提出了一套新颖的分类法，并整理了大量基准数据集，为后续研究铺好了路。一句话：如果你打算用LLM来搞标注，这篇论文是绕不开的起点。

一、结论写在前面

LLM用于数据注释，这个探索方向正在成为NLP领域最激动人心的前沿之一。它针对数据稀缺等长期存在的痛点，提供了新颖的解决方案，同时大幅提升了标注质量和流程效率。论文调研了与LLM应用相关的方法、应用和障碍，包括提示工程、领域特定调整等创新策略。评估了LLM生成的注释对训练机器学习模型的影响，也直面了偏见和社会影响等技术伦理问题。通过提出LLM方法的新颖分类法、利用LLM生成注释的策略，以及对关键挑战的深入讨论，这项工作试图推动这个关键领域的未来进步。此外，论文引入了全面的技术分类，并汇编了大量基准数据集以支持后续研究。最后以持续存在的挑战和未解决的问题收尾，为未来的研究方向打开了大门。

二、论文的简单介绍

在机器学习和自然语言处理的复杂体系中，数据标注一直是个关键却又令人头疼的步骤。它远不止是给数据贴个标签那么简单，而是包含了丰富的辅助预测信息。具体来说，这个精细化的过程通常包括：

用类别或任务标签对原始数据进行分类，完成基础分类；
添加中间标签以增加上下文深度；
分配置信度分数以衡量标注可靠性；
应用对齐或偏好标签，将输出定制到特定标准或用户需求；
标注实体关系，理清数据集中实体间的相互作用；
标记语义角色，定义实体在句子中扮演的底层角色；
标记时间序列，捕获事件或动作的顺序。

数据本身的复杂性、主观性和多样性，给传统机器学习模型带来了巨大挑战——需要领域专业知识，还要求手动标注大型数据集，资源消耗极大。而GPT-4、Gemini、Llama-2等大语言模型的出现，为革新数据标注提供了极具前景的契机。LLM不只是工具，它们在提升数据标注有效性和准确性方面扮演着核心角色：自动化标注任务、确保大规模数据的一致性，并通过特定领域的微调或提示策略灵活调整，显著降低了传统标注方法遇到的瓶颈，为NLP领域的标注设立了新标准。

2.1 符号和预备知识

这一节介绍了文中所用的重要符号和预备知识。符号及其定义见表1。

2.1.1 问题框架

论文在这里深入探讨了标注过程的方法论。引入了两个核心模型：标注器模型A，负责将输入数据映射为标注；任务学习器模型L，从这些标注数据中学习以完成特定任务。重点在于利用GPT-4、LLaMA等高级LLM作为标注器A，而任务学习器L则可以是BERT这样相对简单的模型，它从标注数据中学习来执行指定任务。LLM生成的标注不仅包括分类标签，还包含全面的辅助信号来增强原始数据点。这些标注涵盖了置信度分数、上下文细节和元数据，远超出了传统分类标签的范畴。

2.1.2 场景

考虑到NLP任务的多样性，这篇调研主要聚焦于分类任务。不过，方法可以扩展到其他领域，比如文本生成，其中显式标签y可能不适用。为了说明方法，令Du为未标注数据池，Dl为手动标注数据集，N和M分别表示它们的大小，不同场景下可能不同。在分类任务中，论文探讨了以下几种设置：

这些场景共享两个共同元素：(1) LLM标注器A的标注过程；(2)基于A的标注的L的学习策略。后续章节将详细介绍一种按这些方面组织方法的新颖分类法。附录B中展示了一系列分类的论文。

2.1.3 LLM的提示和调优技术

这里正式定义了与LLM交互中常用的技术。给定输入x和特定任务的数据集D，可以用函数H手动或算法生成提示p，即p = H(D, x)。

输入输出提示(IO)是和LLM交互的基本模式，表示为函数F。

上下文学习(ICL)在IO的基础上通过丰富的示范序列或示例对来增强提示，引导LLM朝期望的输出方向走。

思维链提示(CoT)进一步在每次演示后追加推理路径，增强ICL，能有效提升LLM的推理能力。

指令调优(IT)基于特定任务说明对LLM进行微调，使它们能推广到各种下游任务。

对齐调优(AT)旨在调优LLM使其行为与人类偏好对齐。除了人工标注数据，研究人员也利用LLM生成的标注进行微调。

2.2 LLM 基于数据标注

大型语言模型的出现，点燃了人们对高质量、上下文敏感数据标注能力的极大兴趣。这一节深入探讨了利用LLM进行数据标注的各种技术和方法。

2.2.1 手动设计提示

手动设计的提示对LLM的标注任务至关重要，目的是触发特定的标注行为。它们分为零样本提示和少样本提示。

零样本：在LLM研究的早期阶段，零样本提示因简单高效而广受欢迎。形式上，标注是通过将精心设计的提示映射到标注得出的。提示可能包含任务说明I以及真值标签。

少样本：这一类别采用上下文学习(ICL)来生成标注。ICL可以看作是提示工程的高级形式，它将人类生成的说明I与来自Dl的示例相结合。在少样本场景中，演示样本的选择至关重要。例如，在少样本语义解析中，Shin等人(2021)利用GPT-3从训练集中随机选择样本作为演示。Rubin等人(2022)的另一种方法使用评分LLM来评估演示样本的潜在用途。此外，一些工作将其他类型的标注整合到ICL中。例如，SuperICL (Xu等人，2023)将来自较小语言模型的置信度分数整合到演示中，进一步增强了标注过程。

2.2.2 通过成对反馈实现 alignments

将LLM与人类中心属性对齐的重要性越来越被认可。这些属性包括有用性、诚实性和无害性，对于面向公众交互的LLM来说，除了固有的NLP技能，这些品质同样关键。传统的无监督学习方法，如下一个词预测，在灌输这些品质方面是失败的。

人工反馈：将上述特征嵌入LLM的主要策略是基于人类偏好的微调(Dai等人，2023)。一种流行但资源密集的技术需要对特定LLM响应收集定量反馈(Ziegler等人，2019)。尽管有效，但代价高昂，需要大量人力(Bakker等人，2022)。像Sparrow (Glaese等人，2022)这样的项目为人类标注员设定了标准，不过研究人员意图与标注员感知之间的差异可能会影响反馈质量。

自动反馈：因此，最近的进展开始自动化反馈机制，经常利用另一个LLM或同一个LLM来标注不同输出(Bakker等人，2022; Wang等人，2023b)。这种方法通常涉及一个LLM充当奖励模型，基于人类偏好数据进行训练(Menick等人，2022)。例如，OpenAI和DeepMind分别实现了6B GPT-3和7B Gopher模型作为奖励模型。各种研究已经深入探讨了这种自动化方法的各个方面。例如，Stiennon等人(2020)收集了人类对摘要的比较判断，以训练奖励模型，然后通过强化学习优化摘要策略。此外，Askell等人(2021)评估了奖励模型的不同训练目标，发现与模仿学习相比，偏序建模随着模型规模增大往往更有效。该模型利用各种社会福利函数来整合个人偏好。最新的研究(Rafailov等人，2023)采用Bradley-Terry模型来指导LLM评估人类标注员做出的选择。

2.3 评估 LLM 生成的标注

有效评估LLM生成标注的质量，是充分发挥其潜力的前提。重点关注两个主要方面：

2.3.1 评估 LLM 生成的标注

这里探讨了各种评估标注质量的方法，从人工导向到自动化方法一应俱全。

常规方法：研究已经调查了评估LLM注释的多种方式。Efrat和Levy(2020)的“Turking测试”评估了LLM遵守数据注释指南的程度，人工注释者将LLM输出与SNLI (Bowman等人，2015)、SQuAD (Rajpurkar等人，2016)和NewsQA等基准进行比较。类似地，Honovich等人(2022a)手动检查了LLM创建的数据集的原创性、准确性和多样性，重点关注它们对说明的响应。另外，Alizadeh等人(2023)的研究通过相关性和主题检测等任务，测量开源LLM与人工注释标签的性能。

特定任务的评估：方法因应用而异。例如，在知识图增强中，标记排名指标用于评估LLM在事实补全中的贡献。而反事实生成的评估通常利用自我BLEU (Chen等人，2023)等度量多样性，代码生成则依赖Pass@k (Nijkamp等人，2022)等指标。在需要大量数据集的场景中，LLM生成注释的质量会在小规模标注子集上与金标准标签进行比较(Zhao等人，2021; Agrawal等人，2022; He等人，2023)。

2.3.2 通过主动学习进行数据选择

从众多选项中挑选高质量注释至关重要。主动学习(AL)作为一种关键技术出现，尤其是将LLM整合到AL过程中。本节介绍了基于池的AL在标注框架中的应用——存在一个庞大的未标记数据池和一个较小的标记数据集。AL从池中战略性地选择最具信息量的样本，以提高学习模型的性能，或直到达到预算限制。

LLM作为获取函数：存在多种类型的获取函数，分类为(a)多样性、(b)不确定性和(c)相似性。这方面的 notable 研究包括Shelmanov等人(2021)、Tamkin等人(2022)、Margatina等人(2023)的工作，每项研究都从不同角度调查了将LLM用作获取函数的可能性。

LLM作为注释器：创新性研究(Bansal和Sharma，2023; Wu等人，2023a)已经在AL设置中采用LLM作为注释器，增强了NLP模型的域泛化和上下文学习。此外，Kim等人(2023)提出利用LLM来注释输入文本对之间的任务特定偏好，促进任务标签的联合学习。

2.4 利用LLM生成的注释进行学习

LLM生成的注释为各种机器学习任务提供了宝贵的标注数据资源。这一节探讨了利用LLM生成的注释进行学习的方法论。

2.4.1 目标域推理：直接利用注释

在这一部分，论文探讨了LLM生成的注释在各种下游任务中的实际应用。通过精心设计的提示从LLM中提取的注释，为广泛的下游应用提供了宝贵的预测。这种用法可以分类为：

a. 监督：以任何形式利用标签。

b. 无监督：注释充当不涉及标签的预测，例如零样本场景。

预测标签：利用手动设计的提示，LLM以两种方式生成预测标签。第一种，在考虑示范样本的情况下预测标签；第二种，不依赖示范样本进行预测。根据示范样本的来源是D⊂Dl还是D⊂Du，可以分类为监督或无监督。这种技术使LLM能够为广泛的任务做出贡献，横跨推理、知识库、因果推理、推荐系统、医疗保健甚至视觉语言模型等多个领域。

推断附加属性：同样，LLM在监督和无监督设置下都能巧妙地将提示与特定属性或概念相关联。这种能力在概念瓶颈模型等模型中尤为有利——后者通过识别基本概念生成预测。在此上下文中，LLM可以有效解决数据集注释有限的问题。在视觉语言任务中，LLM可以被用于自动生成图像分类的文本描述。

2.4.2 知识蒸馏：桥接LLM和特定任务的模型

在直接使用注释的基础上，知识蒸馏(KD)提供了另一种利用LLM能力的途径。KD有助于将专业知识从较大的“教师”模型（通常是LLM）转移到较小、更专注的“学生”模型。这种技术使学生模型能在资源需求更低的情况下匹配甚至超越教师性能。

模型增强：目前，多项研究已经采用KD来丰富任务特定的学习器模型L，融入基于LLM的注释器A的见解。例如，Magister等人(2022)、Fu等人(2023)、Sun等人(2023)、Li等人(2024)等工作关注使用A注释的数据集训练L。相反，Hsieh等人(2023)利用A提供的“任务困难度”作为辅助标签来增强L的学习过程。值得注意的是，Alpaca (Taori等人，2023a)和GPT4All (Anand等人，2023)采用LLM生成的语料库来训练它们的轻量级学生模型，取得了出色的性能。

KD创新：在工具方面，GKD (Tan等人，2023a)作为一个新近开发的库，使用LLM简化了KD过程。这个动态领域的进步包括将黑箱(Jiang等人，2023b)和白箱(Gu等人，2023c) LLM用作教师模型，提高效率(Jha等人，2023)，并扩展到专业领域，如生物医学知识提取(Gu等人，2023b)、代码生成(Gunasekar等人，2023a)、Web内容过滤(Vörös等人，2023)和数学推理(Fu等人，2023)。

总之，采用KD训练特定任务的模型，兼具计算需求降低和性能持续的双重优势，是当代NLP中一条非常有前途的路径。

2.4.3 利用LLM注释进行微调和提示

沿着知识蒸馏的思路，利用LLM生成的注释对LLM本身进行微调或提示，正在变得越来越流行——这有助于解锁LLM的潜力。研究表明，用于监督微调的更大数据集可以增强LLM的泛化能力(Sanh等人，2021; Wei等人，2021)，这凸显了LLM注释数据日益增长的重要性(Wang等人，2022c)。这些方法主要分为四类：

上下文学习：起源于GPT-3模型(Brown等人，2020)，上下文学习(ICL)已被广泛用于提升LLM在各种任务上的性能。这种方法通常采用特殊格式的提示，包含任务说明以及示例演示(Dong等人，2022)。这些提示可以帮助LLM外推到新的未见任务，而无需显式的参数更新。尽管有效，但通常很难做到完美(Margatina等人，2023)。因此，一个有效的方法是根据LLM生成的注释获得有用的提示(Hongjin等人，2022)。由于任务说明对ICL性能至关重要，为避免繁琐的人工操作，已有多种工作提出自动生成说明(Zhao等人，2023)。在Honovich等人(2022b)的工作中，作者观察到，提供几个示范例子后，LLM可以学习生成各种任务的说明，从而提高ICL性能。

除了将LLM生成的注释用作说明的方法外，其他工作也探索了利用LLM生成的演示进行ICL的可能性(Dong等人，2022)。其中，一项名为合成提示(Shao等人，2023)的最新工作获得了关注。该技术根据给定输入问题的推理链构建新问题，然后通过聚类方法选择最多样化和复杂的演示。利用原始文本数据集进行热身，Chen等人(2022)引入了一种创建自监督数据的方法，使其与各种下游任务的ICL学习格式对齐。

思维链提示：这是ICL内的一种专门方法，专门用来提升LLM在算术推理(Miao等人，2021)、常识推理(Talmor等人，2018)和符号推理(Wei等人，2022b)等复杂推理任务上的性能。与传统ICL不同，CoT在提示中引入中间推理步骤，这些步骤旨在有意义地促成最终输出。这个区别凸显了CoT对推理机制的专注。人们普遍认为，创建有效的CoT提示对于解锁LLM的复杂推理能力至关重要(Dong等人，2022)。由于手动创建此类提示可能代价高昂且耗时耗力(Wei等人，2022b)，最近的工作普遍提出通过LLM自动生成CoT提示。例如，在零样本CoT (Kojima等人，2022)中，LLM被提示“让我们逐步思考”来生成推理步骤，其后是“因此，答案是”以得出结论。Auto-CoT (Zhang等人，2022)通过对训练问题进行聚类来完善这种方法，以确定每个簇中最具代表性的问题。相关研究(Wang等人，2022a)通过考虑提示置信度进行了扩展，发现不同的推理路径对有效的CoT至关重要。另一方面，Fu等人(2023)提出结合LLM生成的CoT和少量示范来保留ICL能力，同时使用不同的提示格式以增强推理性能。Wang等人(2023a)探索了基于CoT提示的知识蒸馏中使用LLM注释的合理性。尽管存在不相关或无意义的推理过程，但作者使用对比解码显著提高了用这些增强数据训练的学生模型的推理能力。

指令调优：ICL通过改变输入结构来调整LLM，而指令调优则采用不同方法——在监督学习上下文中对各种任务进行模型微调(Zhao等人，2023)。多项工作证明，微调后，LLM在推广到不熟悉的任务方面表现出显著的能力(Chung等人，2022; Muennighoff等人，2022)。然而，为指令调优获得高质量训练数据的过程通常涉及大量人力，这在某些实际场景下可能不切实际(Lou等人，2023)。为避免劳动密集型的人类标注，最近的工作转而使用LLM生成的注释。一个典型例子是自我指示(Wang等人，2022b)：提示LLM自主生成新的指令输入输出对，然后过滤这些实例并用于T5模型(Brown等人，2020)的微调。这种两阶段流水线先生成指令，过滤无效或冗余实例，再将剩余实例用于模型微调。Alpaca (Taori等人，2023b)以指令遵循演示的形式利用LLM生成的注释来微调LLaMA模型(Touvron等人，2023a)。值得注意的是，GopherCite模型(Menick等人，2022)引入了一个强化学习框架来训练LLM，使其生成带有证据引用的注释形式，增强了响应的可验证性。Chiang和Lee(2023)对使用LLM生成的注释进行人工评估的可靠性进行了研究。

对齐调优：对齐调优旨在通过调整不合适的LLM行为来使其与人类预期保持一致(Zhao等人，2023)。但在实践中，收集人类反馈通常是昂贵且劳动密集型的(Ziegler等人，2019)。因此，现有工作通常会学习一个模拟人类偏好的替代奖励模型，用于一对输入（成对反馈）。要训练用于注释的奖励模型，研究人员通常会先收集带有标签的成对反馈数据集（来自人类标注员）。然后，基于不同的策略，许多算法直接从Dl中学习(Keskar等人，2019; Liu等人，2023a; Korbak等人，2023)，而其他算法(Christiano等人，2017; Ouyang等人，2022)则学习从Dl中学习一个替代奖励模型，并用它自动标注LLM生成的无标记成对反馈。为了使LLM与注释对齐，现有工作通常利用强化学习策略(OpenAI，2023; Touvron等人，2023b)，即RLHF（来自人类反馈的强化学习）。一个典型例子是InstructGPT (Ouyang等人，2022)，它利用PPO策略(Schulman等人，2017)，并在每次更新中计算当前LLM输出与上一次更新输出之间的KL散度。通过这种方式，框架可以更稳健地优化。另一方面，ILQL (Snell等人，2022)在流行的在线RL场景的对比下，探索了对齐调优在LLM生成注释上的离线设置中的应用。在GopherCite (Menick等人，2022)中，作者采用来自人类偏好的强化学习(RLHP)来训练QA模型，这些模型同时产生答案并引用特定证据支持其声明，方便评估准确性。更近期的RLAIF (Lee等人，2023)利用一个开箱即用的LLM标记的偏好来代替人类，获得了与使用人类标记数据相似的性能。

2.5 挑战

这一节概述了LLM数据注释面临的挑战，包括技术障碍、准确性问题，以及劳动力置换和偏见传播等社会影响。解决这些问题对于推进LLM注释应用至关重要。

模型模仿中的复合错误：为了弥合ChatGPT等专有LLM与LLaMA等开源对应物之间的性能差距，常见的做法是通过使用更强大模型的输出来增强后者的能力(Sun等人，2023; Gunasekar等人，2023b; Hsieh等人，2023; Honovich等人，2022a; Chiang等人，2023; Geng等人，2023)。虽然这种策略产生了可变的结果，但模仿模型通常会复制优越模型的风格元素，却没有达到事实精确度(Gudibande等人，2023)。研究指出，模仿失败的主要原因是模型坍缩——模仿模型逐渐偏离它试图复制的模型的数据分布(Shumailov等人，2023)。这种发散主要由两个问题引起：来自有限样本量的统计近似误差，以及来自受约束模型容量的功能近似误差。这两种错误在连续的训练周期中都趋于放大(Alemohammad等人，2023)。

模型坍缩和近似误差的后果也延伸到社会领域：在未来模型训练中传播和利用带有这些不准确性的LLM生成注释，可能导致数据污染。这种情况有可能随着时间的推移削弱LLM的可信度，并影响它们在关键应用中的效用。解决这些问题对于构建下一代LLM或通用人工智能(AGI)越来越重要。

LLM注释中幻觉的影响：LLM中的幻觉现象显著削弱了它们生成注释的完整性和可靠性(Alkaissi和McFarlane，2023; Azamfirei等人，2023)。脱离实际数据的输出可能导致注释中的误报和不准确，在医疗保健、法律分析和金融等敏感领域带来重大风险(Jiang等人，2023a; Chen和Shu，2023)。应对幻觉需要全面的策略，包括完善LLM的训练过程以减少无根据内容的出现，并通过自动化和手动验证实现注释的验证机制(Liao和Vaughan，2023; Pan等人，2023; Bian等人，2023)。然而，LLM的固有不透明性使得识别和纠正幻觉的成因变得复杂，这为将LLM部署到关键注释角色中带来了伦理困境。这凸显了持续研究以减轻幻觉的必要性，同时要在LLM应用领域平衡性能改进与伦理问题。

社会影响：LLM生成注释在金融(Yang等人，2023)、司法(Cui等人，2023)和医疗保健(Eloundou等人，2023)等实际行业中的激增，可能会显著提高效率和生产力。但这种自动化也带来了社会挑战，特别是在劳动力置换、注释质量和社会发展影响方面。向自动化注释的转变有可能使人类标注员的角色变得多余，可能加剧收入差距并影响低技能就业领域(Dillion等人，2023)。此外，尽管LLM注释生成的速度很快，但缺乏人类洞察力可能导致输出缺乏深度，产生偏见或不公平的研究结果(Wu等人，2023b; Abid等人，2021; Cheng等人，2021; Li等人，2023)。依赖LLM执行传统上由人类管理的任务，需要谨慎的方法，以确保技术进步不会无意中加剧社会不平等或降低质量标准。未来的研究应旨在协调技术进步与其更广泛的社会后果。

这篇综述做出了以下四个主要贡献：

基于 LLM 的数据标注： 深入研究了GPT-4、Llama-2等新型LLM的特定属性（如语言理解、上下文理解）、能力（文本生成、上下文推理）以及微调或提示策略（提示工程、领域特定微调），说明它们如何特别适合标注任务。
评估 LLM 生成的标注： 探索了评估标注质量的各种方法，以及如何从众多选项中挑选高质量标注。
利用 LLM 生成的标注进行学习： 研究了基于LLM生成的标注训练机器学习模型的方法，评估了质量、可靠性和对下游任务的影响。
挑战和伦理考量： 识别并讨论了从采样偏差、幻觉等技术限制，到社会偏见和更广泛社会影响等伦理困境。

聚焦于LLM应用这个代表性不足的方面，这篇调查旨在为打算将LLM用于标注的学术界和从业者提供有价值的指导。注意，本次调查主要关注纯语言模型，因此没有考虑近期的多模态LLM，比如LLaVA (Liu等人，2023b)。图1展示了本次调查的总体框架。附录A中包含了利用LLM进行标注的潜在工具列表及解释性示例。

与其他LLM相关调查的区别： 尽管现有的LLM调查广泛涵盖了架构细节(Zhao等人，2023)、训练方法(Liu等人，2023d)、知识编辑(Wang等人，2023c)和评估协议(Chang等人，2023)，但它们的重点在于模型对特定最终任务的能力，如机器翻译(Min等人，2021)、对齐(Wang等人，2023d)、代码生成(Zan等人，2023)和医学(Thiruna vukarasu等人，2023)。相比之下，这篇调查的与众不同之处在于，它强调将这些强大的新一代LLM应用于数据注释这个复杂领域——一个至关重要但尚未充分开发的领域。

论文标题：Large Language Models for Data Annotation: A Survey
论文链接：https://arxiv.org/pdf/2402.13446.pdf