英伟达新方法：小模型高效学习大模型，效果惊艳

2026-06-20阅读 0热度 0

大模型

这篇由英伟达（NVIDIA）研究团队主导的论文，于2026年6月发布在arXiv平台上，编号为2606.18216，感兴趣的读者可直接通过该编号查阅完整的学术论文。

研究背景：小模型的算力困局与大模型的能力鸿沟

当前，从智能手机到AR眼镜，再到未来的家用机器人，这些终端设备均面临一个核心挑战：算力与存储空间极其有限，无法部署那些动辄拥有数百亿参数的巨型模型。然而，当前绝大多数令人瞩目的AI突破，都源自这些庞然大物。这就像一家顶级餐厅，只有主厨能烹饪出米其林水准的佳肴，而负责传菜的服务生只能炒个简单的蛋炒饭——并非能力不足，而是根本没有匹配的烹饪设备与火候。

英伟达研究团队经过深入分析发现，现有的两种主流“赋能小模型”的方案，均存在根本性的设计缺陷。他们提出的新方法——ZPPO（近端发展区策略优化），则开辟了一条全新的技术路径。在一系列严苛测试中，该方法在最小的0.8B参数模型上，将视觉语言理解能力提升了9.3个百分点；在覆盖10个纯语言测试、16个视觉语言测试和5个视频理解测试、总计31个基准测试的综合评估中，性能全面超越了此前所有对比方法。

一、现有方案为何失效？

要理解ZPPO的创新价值，必须先剖析现有方法的内在缺陷。目前，提升小模型性能的主流思路主要分为两大流派。

第一种：知识蒸馏——照搬大学教授的笔记

这种方法的本质，是让小学生模仿大学教授的笔记内容。具体操作是：让大模型生成答案，然后强制小模型学习大模型在每个词上的概率分布——不仅是最终的正确答案，连“我有80%的概率选这个词，10%的概率选那个词”这类精细的置信度分布也要模仿。问题在于，一个仅有0.8亿或20亿参数的小模型，其“认知容量”根本无法承载如此细碎的信息。这好比让一个三岁孩子背诵博士论文，他只能死记硬背，而非真正理解。最终结果是：小模型在训练数据覆盖的范围内表现尚可，但一旦遇到全新的问题，其能力便急剧退化，甚至比未经任何训练的原始模型还要差。研究数据表明，知识蒸馏方法在纯语言测试上，反而导致小模型性能下滑了1.8至2.5个百分点，这意味着所谓的“学习”实则是一种倒退。

第二种：强化学习——自主解题，但会放弃难题

这种方法类似于让学生自主解题，答对了给予奖励，答错了则促使其反思。其优势在于无需模仿大模型，模型从自身的试错中学习。但这种模式存在一个致命盲点：当小模型遇到一道难题，连续八次尝试均告失败时，系统因无法获得任何有参考价值的对比信号，便会直接将这道题丢弃，不纳入训练。结果是，那些小模型最需要帮助的、最具挑战性的题目，反而被系统无声无息地排除在外。有人提出了一个看似简单的修补方案：将大模型的正确答案直接注入强化学习的计算过程，并将其视为小模型自身答对的答案。但这无异于作弊，因为大模型的思维模式与语言风格与小模型差异巨大，这种做法会引导小模型的行为逐渐偏离其真实能力水平，引发所谓的“策略漂移”。

二、ZPPO的核心思想：老师存在于题目中，而非答案里

英伟达团队从苏联著名心理学家维果茨基的理论中汲取灵感，引入了“近端发展区”这一概念。该理论的核心是：孩子在无帮助下独立完成的任务，与在他人指导下能完成的任务之间，存在一个关键区间。真正有效的学习，恰好发生在这个区间内——任务既不能简单到无需指导，也不能困难到指导也无效。

ZPPO的解决方案设计得非常精巧：不将大模型的答案直接纳入调整模型参数的梯度计算环节，而是将其嵌入题目的上下文信息中。大模型依然提供指导，但这种指导以“题目背景”的形式呈现。小模型在阅读改造后的题目后，仍需凭借自身能力独立生成答案。在进行梯度计算时，参与计算的始终是小模型自身生成的回答，而非大模型的答案。这好比：老师在黑板上写下两种解题思路，但并不指明哪一种是正确的，要求学生自行判断，然后独立写出自己的解答。老师的帮助确实存在，但最终答案由学生自己得出，学到的也是学生自己的东西。

三、BCQ与NCQ：两种独特的题目改造机制

ZPPO识别出两类难度极高的题目——那些小模型用常规方法多次尝试后，正确率仍低于50%的题目——并对它们实施两种不同的改造策略。

第一种改造：二元候选问题 (BCQ)

系统首先让大模型尝试解答该题。如果大模型答对，则提取其正确的推理过程；同时，也提取小模型之前答错时的一个错误推理过程。随后，将这两段推理分别压缩成简短摘要，并打乱顺序，贴上匿名标签“候选A”和“候选B”。最后，将这两段候选内容一并放入题目中，并附上说明：“本题有两个候选回答，一个正确，一个错误，请判断哪个更合理，并给出你自己的答案。”小模型在阅读改造后的题目后，必须依靠自身的判断力来辨别两个匿名推理中哪个更优，然后独立生成答案。关键有两点：第一，候选是匿名的，不附带任何“这是老师的答案”的标签；第二，参与训练的信号是小模型自身写的答案，而非大模型的答案。

第二种改造：负面候选问题 (NCQ)

这种方法不需要大模型提供正确答案。系统会收集小模型在此题上的所有错误尝试，将这些错误推理压缩后全部放入题目中，并明确告知小模型：“以下所有推理过程和答案全是错误的，请你分析这些错误模式，然后给出正确答案。”这就像老师拿出学生以往答错的所有试卷，摆在他面前说：“这些你之前都做错了，仔细看看你重复犯了哪些错误，然后重新来做。”NCQ的独特价值在于：在常规训练中，小模型的每一次尝试都是孤立的，它根本意识不到自己正在重复同样的错误。NCQ是唯一能让小模型“看见”自身集体失败模式的机会。

四、提示词回放缓冲区：强化困难题目的重复练习

除了BCQ和NCQ两种题目改造方法，ZPPO还设计了一个“提示词回放缓冲区”。这个缓冲区的运作逻辑非常直观：将小模型正确率低于50%的困难题目存储起来，在后续训练中反复调取练习，直到小模型在该题上的正确率达到50%（即视为“毕业”），才将其从缓冲区中移除。如果缓冲区已满，则按照先进先出的原则，淘汰最旧的题目。每次将存储的难题重新投入练习时，系统都会根据小模型当前的最新状态，重新生成新的BCQ和NCQ改造版本，而非固定使用上一次的版本。这意味着，每一次与同一道难题重逢，小模型面对的都是一组全新的候选组合，始终保持挑战的新鲜度与学习强度。

研究数据表明，单独使用回放缓冲区（不配合BCQ和NCQ）效果有限，在0.8B模型上仅带来约1.6个百分点的提升；而单独使用BCQ和NCQ（不配合回放缓冲区）同样效果平平。但当两者结合时，其效果远超各自之和——这种超加性效应的根源在于：回放缓冲区确保了难题能被反复练习，而每次练习中，都有全新的BCQ/NCQ候选内容注入新鲜的学习信号。

五、训练配方中的两个关键细节

在上述三大核心组件之外，研究团队还发现两个看似细微、实则影响巨大的训练参数。

第一个细节：每步更新次数

传统的GRPO强化学习方法默认在每批数据上进行16次梯度更新，而ZPPO则选择了4次。研究团队发现，更新次数过多会导致模型参数严重偏离当前状态，引发“离策略漂移”；但更新次数过少则训练效率低下。4次恰好处于最佳平衡点，在三个测试集上的表现均明显优于1次、8次或16次的设置。

第二个细节：批次优势归一化

在强化学习中，每次尝试都会被赋予一个“优势分数”，用于衡量该次尝试优于或劣于平均水平。当一道题的所有尝试全部正确或全部错误时，所有尝试的优势分数均为零，这些“零优势组”对训练毫无贡献。ZPPO的做法是：在计算用于归一化的统计量（均值和标准差）时，将这些零优势组排除在外。如果将这些零优势组纳入统计，它们的大量零值会拉低标准差，导致那些有意义的非零优势分数被人为放大，从而扰乱训练信号。这个仅需改动一行代码的细节，对最终性能的影响却相当显著。

六、实验结果：模型越小，提升幅度越大

研究团队在Qwen3.5系列的四个不同规模（0.8B、2B、4B、9B参数）的学生模型上，以270亿参数的Qwen3.5模型作为教师模型，进行了全面测试。训练数据集为一个包含约77,000道多模态题目的专用数据集（ZPPO-77K），测试则覆盖了16个视觉语言基准、10个纯语言基准和5个视频理解基准。

在视觉语言测试上，与基础模型相比，ZPPO为0.8B模型带来了9.3个百分点的提升，为2B模型提升了5.2个百分点，为4B模型提升了4.0个百分点，为9B模型提升了2.8个百分点。这一趋势非常清晰：模型越小，提升越大。这在意料之中，因为小模型与大模型之间的能力差距最大，BCQ所能提供的额外学习信号也最为丰富。

在纯语言基准和视频理解基准上，ZPPO同样带来了显著提升，而知识蒸馏方法在这些测试上反而导致模型性能下降。这一点尤为重要：ZPPO的训练数据源于视觉语言问题，但在未经专门训练的纯语言测试上，也产生了正向迁移效果。而知识蒸馏方法则相反——它在视觉语言测试上只有微弱改善，却在纯语言和视频测试上造成了明显的性能退步。

在困难题目的“毕业”情况比较上，研究数据极具说服力。对于那些初始正确率为零（小模型八次尝试全部答错）的最难题目，ZPPO能让28%的题目最终“毕业”（正确率提升至50%以上），而未采用BCQ和NCQ的对比方法，这一比例仅为4%。对于初始正确率为12.5%（八次中答对一次）的题目，ZPPO的毕业率是54%，而对比方法仅为14%。

七、不同组件的贡献分析

研究团队还系统性地测试了移除各个组件后的影响，以确认每个设计的必要性。结果显示，BCQ、NCQ和回放缓冲区三者缺一不可——移除任何一个，所有规模模型上的表现均会下降。

一个有趣的规律是：在较小的模型（0.8B、2B）上，BCQ的贡献更大；而在较大的模型（4B、9B）上，NCQ的贡献逐渐超越BCQ。原因在于，随着学生模型能力增强，剩余的那些“难题”往往也是大模型教师无法解答的题目。此时，BCQ无法提供正确的候选推理（因为教师也答不对），只能依赖NCQ来展示集体错误模式。这一发现揭示了ZPPO的一个根本性限制：如果教师模型也无法解答某道题，BCQ的作用便会失效，仅剩NCQ独自支撑局面。

研究团队还将BCQ与两种类似思路的方法进行了对比：一种是“提示词提示”（Hint），即把大模型解题的关键思路（不含答案）以提示形式放入题目；另一种是“前缀注入”（Prefix），即把大模型解答的前40%内容直接作为前缀，强制小模型从此处接续生成答案。测试结果表明，提示词提示在视觉语言测试上有一定帮助，但在纯语言和视频测试上几乎没有迁移效果；前缀注入的效果更差，因为大模型的前缀文字会引发离策略漂移问题。两者均不如完整的ZPPO方案。

八、教师规模的影响

研究团队还测试了当教师模型规模缩小时（从270亿缩减至90亿、再至40亿）会发生什么。结果非常直观：教师模型越小，ZPPO的提升幅度越小。这是因为BCQ需要教师能够在学生无法解答的题目上做对——如果教师与学生能力接近，教师能提供的正确候选推理就会减少，BCQ能够带来的学习信号也随之枯竭。在0.8B学生模型搭配40亿教师模型的组合中，BCQ带来的额外收益几乎消失，ZPPO退化到接近仅剩NCQ的效果。

九、一个有趣的验证：BCQ模型真的在“思考”吗？

有人可能会担心：BCQ提供了正确和错误两个候选，小模型是否只是简单“抄”了正确候选的答案，而非真正学会了判断？研究团队为此进行了详尽的审计。他们分析了训练接近尾声时的1528个BCQ推理样本，检查每个样本的最终答案与哪个候选更接近。结果显示，BCQ的整体准确率在36%至69%之间，而非接近100%——如果小模型只是在抄答案，准确率应接近100%。进一步分析发现，在答对的样本中，有78%至91%与正确候选的答案匹配；在答错的样本中，有77%至97%与错误候选的答案匹配。这表明，小模型确实在两个候选之间做出了选择，而非盲目照抄。它答对时，是因为成功识别了正确候选；答错时，则是因为被错误候选所误导——这正是真实的判断学习在发生。

对NCQ的审计同样揭示了有趣的规律：在0.8B模型上，82.7%的NCQ推理结果仍然重复了被明确告知“全部错误”的答案——这个最小的学生模型根本没有足够的能力来对抗自身的集体错误认知。但随着模型规模扩大，这一比例急剧下降：2B模型仅有2.2%重复错误答案，4B和9B模型更是降至不到1%。这完美解释了为什么NCQ在0.8B模型上效果有限，而在更大的模型上越来越有效。

归根结底，这项研究的核心贡献在于找到了一个简单而有效的原则：让大模型的智慧以“题目背景”的形式存在，而非以“正确答案”的形式出现在训练过程中。这一区别看似微小，实则根本——前者促使小模型自主判断，后者则引导小模型直接照抄。正如维果茨基的教育理论所揭示的，真正有效的学习发生在挑战与帮助之间的那个微妙区间。

ZPPO也存在一个明确承认的局限性：当教师和学生都无法解答某道题时，BCQ便无从发挥作用，只剩下NCQ在维持局面。如何让学生的学习能力超越当前教师所能覆盖的范围，是这项研究留给后人的一个重要开放问题。对技术细节感兴趣的读者，包括完整的算法伪代码、所有31个基准测试的详细数据，以及各种消融实验的完整结果，均可通过arXiv编号2606.18216查阅原始论文。

Q&A

Q1：ZPPO与普通知识蒸馏方法的本质区别是什么？

A：普通知识蒸馏让小模型直接模仿大模型每个词的概率分布，小模型必须完整复制大模型的“思维方式”。ZPPO则完全不同：大模型的推理过程仅作为题目的背景参考信息出现，小模型阅读题目后必须自己独立生成答案，参与训练计算的永远是小模型自身的回答。知识蒸馏好比让学生照着老师的答案抄写，ZPPO则是将正确答案和错误答案都匿名呈现给学生，让学生自己判断哪个更合理，然后独立作答。

Q2：BCQ为什么要把候选答案匿名处理？

A：匿名处理是BCQ设计的核心。如果告诉小模型“候选A是老师的正确答案”，小模型只需无脑选择A即可得分，根本不需要真正理解两个推理过程的差异。匿名处理后，小模型必须真实比较两段推理的质量和逻辑严密性，才能做出判断。研究团队的审计数据也证实了这一点：BCQ的准确率在36%至69%之间，如果小模型只是照抄正确候选，准确率应该接近100%才对。

Q3：ZPPO在小模型上效果更好的原因是什么？

A：原因主要来自两个方面。首先，小模型与大模型之间的能力差距更大，BCQ能提供更多“教师做对而学生做错”的题目，学习信号更丰富。其次，小模型的“近端发展区”更宽，有更多原本完全不会、但在BCQ帮助下能够学会的题目。随着模型规模增大，剩余的困难题目越来越接近教师模型也无法解答的范围，BCQ的候选池逐渐枯竭，提升空间自然缩小。数据上的体现就是：0.8B模型提升9.3个百分点，而9B模型仅提升2.8个百分点。