DeepSeek团队预训练提效新路径:算力成本降低60%
模型性能的持续进化,正面临一个现实瓶颈:训练成本已无法再被无限制地推高。如何用更少的算力,完成更有效的训练,已成为行业的核心议题。
当下的竞争焦点,正从单纯的“模型能力比拼”转向“训练效率竞赛”。核心问题在于:在等量的GPU资源与训练周期内,能否设计出更高效的训练策略,从而消化更多数据、运行更多实验,最终获得更优的损失曲线与下游任务表现?
因Hermes Agent(GitHub星标超14万)而备受关注的Nous Research团队,近期提出了一种名为“Token Superposition Training”(TST,词元叠加训练)的新方法。其目标直接指向训练成本的指数级降低。
相关论文《Efficient Pre-Training with Token Superposition》已在arXiv发布。其中,一个百亿参数MoE模型的实验结果极具说服力。
- 基线模型:消耗12311个B200 GPU小时,训练1.05万亿词元。
- TST模型:仅消耗4768个B200 GPU小时(约为基线的38.7%),训练了2万亿词元。
- 性能对比:最终损失值从2.252降至2.236,并在HellaSwag、ARC-E、ARC-C、MMLU等零样本评测基准上实现全面超越。
这一结果意味着,TST以约四成的GPU时间,不仅处理了更多数据、获得了更低的损失,还实现了下游任务性能的提升。换算下来,达到相同最终损失所需的预训练时间被压缩至原来的40%左右,效率提升约2.5倍。
如果说Hermes Agent在OpenRouter榜单上超越Claude 3.5 Sonnet,展现了Nous Research在模型能力调校与Agent技术上的深厚功底;那么TST的提出,则标志着他们将优化焦点回溯至能力源头——预训练过程本身。
业界常将Nous Research与DeepSeek并论,二者虽同属开源阵营,但在降低训练成本的路径上却风格迥异。
DeepSeek代表了一条系统级重构的硬核路线:从MoE架构、MLA注意力到各类稀疏化与并行优化技术,核心在于通过底层工程创新极致压榨算力效率。这种提升往往伴随着显著的工程复杂度。
而Nous Research的TST,则选择了一条更轻巧的路径:它不触及模型架构,而是重写了模型在预训练早期的学习范式。其切入点在于改变模型学习词元的方式,理论上更易于集成到现有训练流程中。
TST核心:从“粗读”到“精读”的两阶段训练
理解TST,需从预训练的基础任务——下一个词元预测——说起。
标准训练中,模型根据历史词元序列预测下一个具体词元。这一范式虽有效,但TST对其提出了一个根本性质疑:在预训练初期,模型是否必须进行如此精细的逐词元学习?
Nous Research的答案是否定的。他们将预训练解构为两个阶段。
第一阶段为“叠加阶段”。在训练前期,模型不再逐个处理词元,而是将连续多个词元(例如8个)打包为一个“袋”。输入时,袋内词元的向量表示被平均压缩为一个“叠加词元”;输出时,预测目标也变为预测该袋中可能出现的词元集合(一个多标签分类问题)。
第二阶段为“恢复阶段”。当训练进行到总步数的20%-40%后,TST机制被移除,模型切换回标准的“下一个词元预测”训练。后半程的精细训练,旨在将前期获得的粗粒度语义表示,转化为具备精确生成能力的自回归模型。
论文将TST定义为“即插即用”方法,关键在于:它无需修改并行策略、优化器、分词器、训练数据或最终模型架构。其唯一改变的,是训练早期输入数据的粒度与监督学习的目标。
这使其与许多训练优化方案区分开来:TST仅改变训练过程,不改变最终的推理模型。许多涉及训练端优化的方法会牵连推理部署(如更换分词器影响兼容性),但TST巧妙地将复杂度约束在训练阶段,交付的仍是标准的、可直接部署的自回归语言模型。
必须明确,全程使用TST训练是不可行的。论文指出,若始终使用TST,模型将输出未来词元的混合概率,导致生成混乱。因此,后期切换回标准自回归训练是保证模型可用性的关键步骤。
本质上,TST是一种“阶段化的训练策略”。它让模型在早期先进行“粗读”,快速掌握局部语义与词汇共现的统计规律;待基础语言表示建立后,再切换至“精读”模式,通过逐词元训练补全精确的生成能力。
效率之源:每一步计算“消化”更多文本
TST的提速效应源于一种清晰的资源权衡:以更粗糙的词元表示为代价,换取更高的数据吞吐量。
这里的吞吐量,指“单位浮点运算所能处理的原始文本量”。核心在于,在同等计算量下,模型能“看到”的文本内容变多了。
标准训练中,序列长度L对应处理L个词元向量。而在TST的叠加阶段,连续的s个词元被合成一个叠加词元。此时,模型内部序列长度变短,但每个位置承载的原始文本信息量变为原来的s倍。因此,消耗相同算力,模型可处理s倍数量的原始数据词元。
传统预训练如同逐字精读,TST的早期训练则类似快速浏览以把握段落主旨。这种“粗读”会丢失袋内词元顺序信息,故不能全程使用。但在模型建立语言统计规律的初期,这种低分辨率输入已足够高效。
论文将其定义为“由粗到细”策略:先在简单、高吞吐设定下学习粗粒度统计结构,再恢复全分辨率语言建模精度。
这与主流效率提升路线形成对比:MoE让每个词元仅激活部分参数;稀疏注意力让每个词元只看部分位置;多词元预测让每个位置同时预测多个未来词元;而TST,是让模型在训练早期换一种粒度来学习词元。
它并非压缩模型体积或加速推理,而是让预训练早期的每一步计算都更具“信息价值”。
这对开发者至关重要。预训练是不断试错、调整数据配方与超参数的过程。早期训练越快进入有效区间,关键实验就能越早得到验证。TST省下的不仅是单次训练的GPU小时,更是整个研发周期中宝贵的试错成本与时间窗口。
核心收益:在百亿参数模型上最为显著
论文在270M、600M、3B的稠密模型及一个总参约100亿、激活参约10亿的MoE模型上验证了TST。其中,百亿级MoE模型的收益最为突出。
实验数据表明,TST方法以更少的GPU时间处理了更多数据,并达到了更优的损失值与评测分数。在达到相同损失值的条件下,实现了约2.5倍的训练提速。
这一数字对任何进行大规模预训练的团队都具有吸引力。在模型研发中,最昂贵的成本往往来自成功前的多次探索。单次实验节省超一半GPU时间,意味着同等预算下可尝试更多数据配方、调试更多轮超参数、验证更多模型尺寸的可行性。
论文通过超参数扫描发现,TST对参数选择相对稳健:袋大小在4到8之间,叠加训练步数比例在0.2到0.4时,通常能取得较好效果。
此外,TST的收益来自双重机制的协同。消融实验显示,单独使用输入侧的“叠加”或输出侧的“多标签预测”均优于基线,但两者结合效果最佳。这表明:输入侧改变信息粒度,降低了单位信息计算成本;输出侧改变预测目标,提供了更密集的监督信号。
这一机制的本质在于,输入侧在训练早期赋予模型低分辨率视野,以更低成本接触更多文本;输出侧则将监督问题从“下一个词是什么”改为“接下来这段可能包含哪些词”。前者提升数据吞吐,后者提升学习效率。
这也正是TST与单纯多词元预测技术的根本区别。后者是增加监督任务数量,而TST是改变了学习任务的分辨率。一个是“量”的增加,一个是“质”的变换。
降本新范式:优化学习路径本身
TST最引人深思之处,并非其架构复杂性,而在于它揭示了一个趋势:训练降本增效,未必需要对模型结构进行重型改造。
过去,降低成本往往诉诸于增加算力、修改架构、优化并行或知识蒸馏等系统级工程。这些方案门槛高,对工程实力要求严苛。TST则提供了一个轻量级切入点:仅调整预训练早期的学习路径与训练目标。
其意义在于:对广大开发者,同等GPU预算下可进行更多轮实验;对专注1B到10B参数规模的垂直领域团队,试错成本有望大幅降低。这比盲目追逐千亿参数前沿模型,更具现实操作性。
当然,TST并非无代价。它本质是“以数据吞吐量置换GPU计算时间”。对于算力紧张但拥有高质量数据集的团队,这是一剂高效的处方。反之,若团队缺乏高质量数据,TST可能因需要消耗更多数据而放大这一短板。
但这不影响其方向性价值。TST将一个被长期默认的假设重新置于审视之下:模型学习语言的顺序与方式,其本身就是一个可被优化的效率杠杆。
当模型训练成本日益高昂,真正的创新可能不再局限于如何将模型做得更大,而在于如何让模型“更高效地学习”。更准确地说,是如何让训练流程中的每一步计算,都产生更高的信息收益与性能回报。
参考链接:
论文:http://arxiv.org/abs/2605.06546








