DeepSeek团队预训练提效新路径：算力成本降低60%

2026-05-16阅读 0热度 0

DeepSeek

模型性能的持续进化，正面临一个现实瓶颈：训练成本已无法再被无限制地推高。如何用更少的算力，完成更有效的训练，已成为行业的核心议题。

当下的竞争焦点，正从单纯的“模型能力比拼”转向“训练效率竞赛”。核心问题在于：在等量的GPU资源与训练周期内，能否设计出更高效的训练策略，从而消化更多数据、运行更多实验，最终获得更优的损失曲线与下游任务表现？

因Hermes Agent（GitHub星标超14万）而备受关注的Nous Research团队，近期提出了一种名为“Token Superposition Training”（TST，词元叠加训练）的新方法。其目标直接指向训练成本的指数级降低。

相关论文《Efficient Pre-Training with Token Superposition》已在arXiv发布。其中，一个百亿参数MoE模型的实验结果极具说服力。

基线模型：消耗12311个B200 GPU小时，训练1.05万亿词元。
TST模型：仅消耗4768个B200 GPU小时（约为基线的38.7%），训练了2万亿词元。
性能对比：最终损失值从2.252降至2.236，并在HellaSwag、ARC-E、ARC-C、MMLU等零样本评测基准上实现全面超越。

这一结果意味着，TST以约四成的GPU时间，不仅处理了更多数据、获得了更低的损失，还实现了下游任务性能的提升。换算下来，达到相同最终损失所需的预训练时间被压缩至原来的40%左右，效率提升约2.5倍。

如果说Hermes Agent在OpenRouter榜单上超越Claude 3.5 Sonnet，展现了Nous Research在模型能力调校与Agent技术上的深厚功底；那么TST的提出，则标志着他们将优化焦点回溯至能力源头——预训练过程本身。

业界常将Nous Research与DeepSeek并论，二者虽同属开源阵营，但在降低训练成本的路径上却风格迥异。

DeepSeek代表了一条系统级重构的硬核路线：从MoE架构、MLA注意力到各类稀疏化与并行优化技术，核心在于通过底层工程创新极致压榨算力效率。这种提升往往伴随着显著的工程复杂度。

而Nous Research的TST，则选择了一条更轻巧的路径：它不触及模型架构，而是重写了模型在预训练早期的学习范式。其切入点在于改变模型学习词元的方式，理论上更易于集成到现有训练流程中。

TST核心：从“粗读”到“精读”的两阶段训练

理解TST，需从预训练的基础任务——下一个词元预测——说起。

标准训练中，模型根据历史词元序列预测下一个具体词元。这一范式虽有效，但TST对其提出了一个根本性质疑：在预训练初期，模型是否必须进行如此精细的逐词元学习？

Nous Research的答案是否定的。他们将预训练解构为两个阶段。

第一阶段为“叠加阶段”。在训练前期，模型不再逐个处理词元，而是将连续多个词元（例如8个）打包为一个“袋”。输入时，袋内词元的向量表示被平均压缩为一个“叠加词元”；输出时，预测目标也变为预测该袋中可能出现的词元集合（一个多标签分类问题）。

第二阶段为“恢复阶段”。当训练进行到总步数的20%-40%后，TST机制被移除，模型切换回标准的“下一个词元预测”训练。后半程的精细训练，旨在将前期获得的粗粒度语义表示，转化为具备精确生成能力的自回归模型。

论文将TST定义为“即插即用”方法，关键在于：它无需修改并行策略、优化器、分词器、训练数据或最终模型架构。其唯一改变的，是训练早期输入数据的粒度与监督学习的目标。

这使其与许多训练优化方案区分开来：TST仅改变训练过程，不改变最终的推理模型。许多涉及训练端优化的方法会牵连推理部署（如更换分词器影响兼容性），但TST巧妙地将复杂度约束在训练阶段，交付的仍是标准的、可直接部署的自回归语言模型。

必须明确，全程使用TST训练是不可行的。论文指出，若始终使用TST，模型将输出未来词元的混合概率，导致生成混乱。因此，后期切换回标准自回归训练是保证模型可用性的关键步骤。

本质上，TST是一种“阶段化的训练策略”。它让模型在早期先进行“粗读”，快速掌握局部语义与词汇共现的统计规律；待基础语言表示建立后，再切换至“精读”模式，通过逐词元训练补全精确的生成能力。

效率之源：每一步计算“消化”更多文本

TST的提速效应源于一种清晰的资源权衡：以更粗糙的词元表示为代价，换取更高的数据吞吐量。

这里的吞吐量，指“单位浮点运算所能处理的原始文本量”。核心在于，在同等计算量下，模型能“看到”的文本内容变多了。

标准训练中，序列长度L对应处理L个词元向量。而在TST的叠加阶段，连续的s个词元被合成一个叠加词元。此时，模型内部序列长度变短，但每个位置承载的原始文本信息量变为原来的s倍。因此，消耗相同算力，模型可处理s倍数量的原始数据词元。

传统预训练如同逐字精读，TST的早期训练则类似快速浏览以把握段落主旨。这种“粗读”会丢失袋内词元顺序信息，故不能全程使用。但在模型建立语言统计规律的初期，这种低分辨率输入已足够高效。

论文将其定义为“由粗到细”策略：先在简单、高吞吐设定下学习粗粒度统计结构，再恢复全分辨率语言建模精度。

这与主流效率提升路线形成对比：MoE让每个词元仅激活部分参数；稀疏注意力让每个词元只看部分位置；多词元预测让每个位置同时预测多个未来词元；而TST，是让模型在训练早期换一种粒度来学习词元。

它并非压缩模型体积或加速推理，而是让预训练早期的每一步计算都更具“信息价值”。

这对开发者至关重要。预训练是不断试错、调整数据配方与超参数的过程。早期训练越快进入有效区间，关键实验就能越早得到验证。TST省下的不仅是单次训练的GPU小时，更是整个研发周期中宝贵的试错成本与时间窗口。

核心收益：在百亿参数模型上最为显著

论文在270M、600M、3B的稠密模型及一个总参约100亿、激活参约10亿的MoE模型上验证了TST。其中，百亿级MoE模型的收益最为突出。

实验数据表明，TST方法以更少的GPU时间处理了更多数据，并达到了更优的损失值与评测分数。在达到相同损失值的条件下，实现了约2.5倍的训练提速。

这一数字对任何进行大规模预训练的团队都具有吸引力。在模型研发中，最昂贵的成本往往来自成功前的多次探索。单次实验节省超一半GPU时间，意味着同等预算下可尝试更多数据配方、调试更多轮超参数、验证更多模型尺寸的可行性。

论文通过超参数扫描发现，TST对参数选择相对稳健：袋大小在4到8之间，叠加训练步数比例在0.2到0.4时，通常能取得较好效果。

此外，TST的收益来自双重机制的协同。消融实验显示，单独使用输入侧的“叠加”或输出侧的“多标签预测”均优于基线，但两者结合效果最佳。这表明：输入侧改变信息粒度，降低了单位信息计算成本；输出侧改变预测目标，提供了更密集的监督信号。

这一机制的本质在于，输入侧在训练早期赋予模型低分辨率视野，以更低成本接触更多文本；输出侧则将监督问题从“下一个词是什么”改为“接下来这段可能包含哪些词”。前者提升数据吞吐，后者提升学习效率。

这也正是TST与单纯多词元预测技术的根本区别。后者是增加监督任务数量，而TST是改变了学习任务的分辨率。一个是“量”的增加，一个是“质”的变换。

降本新范式：优化学习路径本身

TST最引人深思之处，并非其架构复杂性，而在于它揭示了一个趋势：训练降本增效，未必需要对模型结构进行重型改造。

过去，降低成本往往诉诸于增加算力、修改架构、优化并行或知识蒸馏等系统级工程。这些方案门槛高，对工程实力要求严苛。TST则提供了一个轻量级切入点：仅调整预训练早期的学习路径与训练目标。

其意义在于：对广大开发者，同等GPU预算下可进行更多轮实验；对专注1B到10B参数规模的垂直领域团队，试错成本有望大幅降低。这比盲目追逐千亿参数前沿模型，更具现实操作性。

当然，TST并非无代价。它本质是“以数据吞吐量置换GPU计算时间”。对于算力紧张但拥有高质量数据集的团队，这是一剂高效的处方。反之，若团队缺乏高质量数据，TST可能因需要消耗更多数据而放大这一短板。

但这不影响其方向性价值。TST将一个被长期默认的假设重新置于审视之下：模型学习语言的顺序与方式，其本身就是一个可被优化的效率杠杆。

当模型训练成本日益高昂，真正的创新可能不再局限于如何将模型做得更大，而在于如何让模型“更高效地学习”。更准确地说，是如何让训练流程中的每一步计算，都产生更高的信息收益与性能回报。

参考链接：

论文：http://arxiv.org/abs/2605.06546

DeepSeek团队预训练提效新路径：算力成本降低60%

TST核心：从“粗读”到“精读”的两阶段训练

效率之源：每一步计算“消化”更多文本

核心收益：在百亿参数模型上最为显著

降本新范式：优化学习路径本身

相关阅读

最新教程

最新资讯