2024年少样本思维链学习新方法精选排行榜：CoT-Influx全面深度评测对比

2026-06-24阅读 0热度 0

ai 人工智能

大语言模型之所以能成为AI领域的碘伏性技术，很大程度上得益于海量数据的训练。但即便如此，数学推理这块硬骨头依然让不少模型——特别是像LLaMA这样参数量较小的模型——栽跟头。数学推理是衡量AI认知能力的关键维度，研究团队一直在想办法优化思维链（CoT）提示、微调模型，但少样本学习的全部潜力，之前其实并没有被充分挖掘出来。

技术介绍

最近的研究试图通过增强CoT提示、构造更优质的CoT训练数据来提升推理能力。例如，有人尝试压缩提示以突破少样本示例的数量限制，效果却不够理想；有人通过检索高质量示例来优化任务性能，但这种方法对数学推理并不特别擅长，而且没有解决词元冗余的问题。一个很直观的现象是：LLaMA2-7B在推理时，一旦CoT示例数量超过词元限制，准确率反而下降。不同能力的LLM其实对不同复杂度的CoT示例有不同偏好，但当前检索方法并没有考虑这一差异。

针对这些问题，香港大学和微软的研究团队提出了一种新方法——CoT-Influx。它的核心思路很直接：既然上下文窗口有限，那就想办法让每个CoT示例既简洁又信息丰富，从而塞进更多有用的示例。具体来说，CoT-Influx采用了一种“粗到精”的修剪机制，先对大量候选示例进行筛选，再对选中的示例进行词元级别的修剪，确保它们能在现有上下文窗口内发挥作用。

为了训练这个修剪器，团队还专门构建了一个名为MRD3的数学推理数据集，里面涵盖了不同难度和推理步骤的题目。修剪器分两阶段运行：第一步从候选池中挑出最具代表性的CoT示例，第二步剪掉冗余词元，让最终输入符合上下文窗口长度。这种双阶段策略，在不增加额外计算开销的前提下，相当于把上下文窗口内能容纳的有用CoT示例数量翻了一倍。

效果怎么样？在五个数学数据集上的测试结果相当亮眼。以LLaMA2-70B模型为例，结合CoT-Influx后在GSM8K数据集上甚至超过了GPT-3.5和更大的模型，准确率提升了2.5个百分点。在AddSub、Multiarith等其他数据集上，CoT-Influx帮助模型达到了最高性能。这些数据说明，这种方法在提升LLM数学推理能力方面的作用确实不可小觑。

总而言之，CoT-Influx通过高效修剪并利用与数学相关的示例，让LLaMA等模型在GSM8K、AddSub、Multiarith这些有挑战性的数据集上实现了更高的准确性。这不仅是一个技术上的突破，也为今后将LLM应用于更复杂的数学问题打开了新的可能性。AI在推理和学习效率上的未来，值得期待。

2024年少样本思维链学习新方法精选排行榜：CoT-Influx全面深度评测对比

技术介绍

相关阅读

最新教程

最新资讯