2024年少样本思维链学习新方法精选排行榜:CoT-Influx全面深度评测对比

2026-06-24阅读 0热度 0
ai 人工智能

大语言模型之所以能成为AI领域的碘伏性技术,很大程度上得益于海量数据的训练。但即便如此,数学推理这块硬骨头依然让不少模型——特别是像LLaMA这样参数量较小的模型——栽跟头。数学推理是衡量AI认知能力的关键维度,研究团队一直在想办法优化思维链(CoT)提示、微调模型,但少样本学习的全部潜力,之前其实并没有被充分挖掘出来。

技术介绍

最近的研究试图通过增强CoT提示、构造更优质的CoT训练数据来提升推理能力。例如,有人尝试压缩提示以突破少样本示例的数量限制,效果却不够理想;有人通过检索高质量示例来优化任务性能,但这种方法对数学推理并不特别擅长,而且没有解决词元冗余的问题。一个很直观的现象是:LLaMA2-7B在推理时,一旦CoT示例数量超过词元限制,准确率反而下降。不同能力的LLM其实对不同复杂度的CoT示例有不同偏好,但当前检索方法并没有考虑这一差异。

针对这些问题,香港大学和微软的研究团队提出了一种新方法——CoT-Influx。它的核心思路很直接:既然上下文窗口有限,那就想办法让每个CoT示例既简洁又信息丰富,从而塞进更多有用的示例。具体来说,CoT-Influx采用了一种“粗到精”的修剪机制,先对大量候选示例进行筛选,再对选中的示例进行词元级别的修剪,确保它们能在现有上下文窗口内发挥作用。

为了训练这个修剪器,团队还专门构建了一个名为MRD3的数学推理数据集,里面涵盖了不同难度和推理步骤的题目。修剪器分两阶段运行:第一步从候选池中挑出最具代表性的CoT示例,第二步剪掉冗余词元,让最终输入符合上下文窗口长度。这种双阶段策略,在不增加额外计算开销的前提下,相当于把上下文窗口内能容纳的有用CoT示例数量翻了一倍。

效果怎么样?在五个数学数据集上的测试结果相当亮眼。以LLaMA2-70B模型为例,结合CoT-Influx后在GSM8K数据集上甚至超过了GPT-3.5和更大的模型,准确率提升了2.5个百分点。在AddSub、Multiarith等其他数据集上,CoT-Influx帮助模型达到了最高性能。这些数据说明,这种方法在提升LLM数学推理能力方面的作用确实不可小觑。

总而言之,CoT-Influx通过高效修剪并利用与数学相关的示例,让LLaMA等模型在GSM8K、AddSub、Multiarith这些有挑战性的数据集上实现了更高的准确性。这不仅是一个技术上的突破,也为今后将LLM应用于更复杂的数学问题打开了新的可能性。AI在推理和学习效率上的未来,值得期待。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策