阿里巴巴云团队推出推理小模型：448K样本性能超越32倍参数大模型

2026-05-12阅读 0热度 0

阿里巴巴

这项由阿里巴巴云计算团队主导的研究发表于2026年1月，详细论文编号为arXiv:2601.09088v1，可供查阅。

提升AI推理能力，核心在于构建深度思考框架。传统方法依赖模式匹配与答案记忆，面对复杂或新颖问题时泛化能力有限。阿里巴巴云团队的最新工作提出了一种“启发式思维蒸馏”范式。其研发的40亿参数小模型DASD-4B-Thinking，在数学、编程及科学推理任务上的表现，超越了多个参数量数十倍于它的模型。

这一突破源于对现有“知识蒸馏”范式的深刻反思。研究团队指出，主流的大模型教导小模型方法存在固有缺陷：例如仅传递最终答案而缺失推理路径；训练难度与模型当前能力不匹配；以及因“暴露偏差”导致的独立推理能力薄弱。这些痛点使得小模型往往习得了表面的知识关联，而非底层的逻辑推理内核。

重新审视AI的学习方式

要取得突破，必须厘清现有方法的瓶颈。传统的序列级知识蒸馏，其目标是让小模型复现大模型的输出分布。这种方法虽推动了模型小型化，但其性能天花板也清晰可见。

可以将其类比为低效的教学：学生只得到了最终答案，却没有学会推导答案的思维过程与解题策略。这导致模型在已知题型上表现尚可，一旦遇到问题形式或逻辑结构的细微变化，能力便急剧下降。

更深层的问题在于训练过程的单向性。作为“教师”的大模型持续输出，却无法感知“学生”小模型的理解难点与错误模式。阿里巴巴团队的创新在于，他们设计了一套动态、交互式的“教学体系”，专注于构建小模型自身的推理能力，而非单纯模仿输出。

温度调节学习法：从简单到复杂的智慧之路

传统训练中，从大模型输出中随机采样数据是常规操作。但这等同于为学生提供难度无序的习题集，学习曲线陡峭且低效。

团队提出的“温度调节学习法”，巧妙地利用了语言模型生成中的“温度”超参数。低温度下，大模型的输出更集中、确定，类似于经典的标准解法；高温度下，输出更具多样性和探索性，如同尝试多种解题思路。

研究发现，仅使用低温度数据训练，模型思维僵化，缺乏创造性；仅使用高温度数据训练，学习过程不稳定，容易产生错误累积。而采用分阶段策略——先以低温度数据建立稳固的“基础思维模式”，再逐步注入高温度数据以拓展“思维灵活性”——能显著提升模型最终性能。

数据证实了该策略的有效性。在AIME数学推理测试中，采用温度调节策略的模型，在AIME24和AIME25上分别取得85.2分和81.3分，优于单一温度策略。这种由易到难、先收敛后发散的学习规律，在代码生成与科学问答领域同样普适，揭示了能力构建的通用原则。

分歧感知采样：找到最适合学习的内容

确定了学习路径，下一个关键问题是：如何从海量数据中筛选出最高价值的训练样本？随机采样并非最优解。

阿里巴巴团队的解决方案是“分歧感知采样”。其核心逻辑是：优先选择大模型置信度高而小模型置信度低或出错的样本。这类样本最能揭示小模型当前的知识盲区与理解偏差，教学边际收益最大。

具体实施时，系统会并行获取大、小模型对同一问题的答案及置信度。样本可被分类：小模型自信但错误（需纠正）、大模型自信而小模型困惑（最佳教学点）、双方一致（已掌握）、以及经训练后小模型改进的答案。其中，“教师确信而学生疑惑”的样本被证明是提升模型能力最高效的“催化剂”。

实验验证了其效率。在同等数据预算下，采用分歧感知采样筛选数据训练的模型，在AIME等测试上成绩提升显著。该方法的高明之处在于，它通过智能数据筛选而非增加数据量来提升训练效率，且该筛选机制具备良好的任务迁移性。

混合策略蒸馏：从依赖到独立的过渡

即便优化了教学内容和顺序，仍需解决“训练-推理鸿沟”。训练时，小模型总能看到完整答案（教师全程代笔）；推理时，它必须自主生成每一步（独立闭卷考试）。这种差异常导致“暴露偏差”，表现为生成长答案时的逻辑断层、重复或偏离主题。

为此，团队设计了“混合策略蒸馏法”。该方法模拟了更贴近实际的教学场景：让小模型先独立生成答案的前一部分，当其停滞或出错时，再由大模型接续完成，共同形成一个正确范例。这使得小模型既能学习完整解法，又能明确认知自身独立推理的能力边界。

效果立竿见影。仅混合约7700个此类样本进行微调，便能将模型在AIME24上的分数从83.3分提升至88.5分。更重要的是，经此训练后的模型，在自主生成答案时表现出更强的连贯性、稳定性和逻辑性。

完整训练流程：从理念到实践

将上述三个核心方法系统整合，便构成了DASD-4B-Thinking的完整训练流程，如同一门精心设计的课程体系。

首先是高质量数据集的构建。团队从公开数据集中精选了涵盖数学、代码、科学推理及通用指令遵循四大领域的难题，并进行了严格清洗，过滤无效、重复或格式不佳的样本，确保“教材”质量。

训练过程分为三个阶段有序推进：第一阶段使用低温度数据夯实基础；第二阶段引入高温度数据拓展思维；第三阶段则融入混合策略数据，完成从辅助学习到独立推理的“毕业考核”。整个流程采用了优化的学习率调度与高效的内存管理技术，以处理长序列上下文。

出色的实验成果：小身材大能量

这套方法论在多项严格基准测试中得到了验证。DASD-4B-Thinking以40亿参数的“小身材”，实现了超越体量对手的“大能量”。

在极具挑战性的AIME数学竞赛级测试中，它取得了88.5分（AIME24）和83.3分（AIME25）的成绩，不仅在同规模模型中领先，甚至超越了多个320亿参数的大型模型。

在避免数据记忆的代码生成测试LiveCodeBench中，获得69.3分，证明了其真实的编程逻辑能力。在博士级科学推理测试GPQA-Diamond中，也拿到了68.4分的高分。

其数据效率尤为突出：仅使用44.8万个高质量样本，性能便超越了使用数百万样本训练的开源项目。这凸显了方法论本身的质量，而非依赖于数据堆砌。

深入分析：为什么这套方法如此有效

为探究成功根源，团队进行了系统的消融实验。分析表明，温度调节、分歧感知采样、混合策略蒸馏这三个组件缺一不可，且协同效应显著，产生了“1+1+1>3”的效果。

温度调节规划了合理的学习曲线；分歧感知采样实现了教学资源的精准投放；混合策略蒸馏则弥合了训练与应用的差距。三者共同构建了一个动态、反馈驱动的“教学循环”，而非单向的知识灌输。这种对学习本质的把握，使该方法在不同模型架构与任务领域均展现出良好的通用性。

广泛影响：重新定义AI学习的未来

这项工作的意义在于，它挑战了“性能提升主要依赖模型缩放”的固有范式，证明了“优化学习过程”本身是一条高效路径。这为计算资源有限的研究者与开发者开辟了新的可能性。

一个40亿参数的高性能推理模型，意味着它可以在普通服务器甚至高端消费级硬件上部署，大幅降低了高级AI能力的应用门槛。无论是作为教育辅助、开发工具还是研究分析伙伴，其应用前景都十分广阔。它为AI技术的民主化与普惠化提供了切实可行的技术方案。

开源贡献：共享智慧的力量

秉承开放协作精神，阿里巴巴团队开源了DASD-4B-Thinking模型、44.8万精选训练数据集以及完整的训练代码。这种全面的开源不仅便于社区验证与复现，更显著降低了相关研究与应用的门槛，有望加速整个领域在高效模型训练技术上的创新与迭代。

未来展望：持续探索的方向

探索仍在继续。团队在论文中指出了未来的几个重点方向：例如，开发更精细的“分布感知重加权”技术以进一步优化数据效用；改进混合策略以提升训练稳定性；尝试将强大的核心推理能力与知识检索、工具调用等外部模块结合，构建更通用的智能体；以及持续优化模型的效率与安全性，为实际部署铺平道路。

这项研究最核心的价值，在于提供了一种新范式：当我们不再单纯追求模型的“体格”更大，而是专注于设计更精妙的“教学方法”时，小模型也能展现出卓越的“大智慧”。这或许将为AI发展的下一阶段带来关键启发。

Q&A

Q1：DASD-4B-Thinking相比其他小模型有什么优势？

其核心优势源于一套创新的训练方法论，而非参数规模。它通过温度调节构建稳健且灵活的思维框架，通过分歧感知采样聚焦学习最高价值的难点，并通过混合策略蒸馏平滑过渡到独立推理。因此，它能以40亿参数，在AIME等测试上超越许多320亿参数模型。

Q2：温度调节学习法具体是怎么工作的？

该方法模拟了循序渐进的教学过程。训练初期，使用大模型在低温度下生成的、更确定和标准的输出作为“基础教材”，帮助小模型建立可靠的思维模式。随后，逐步引入高温度下生成的、更多样化和探索性的输出作为“进阶教材”，以此拓宽其思维边界和解决复杂问题的能力。实验证明，这种分阶段策略优于固定温度的单一模式训练。

Q3：普通人能使用DASD-4B-Thinking吗？

可以。该模型及相关资源已全面开源。由于其参数量仅为40亿，对计算资源的要求相对较低，可以在性能较好的个人电脑或普通云服务器上运行。开发者、研究人员或技术爱好者均可基于此模型进行实验、微调或开发各类应用，如智能辅导工具、代码助手等。