年最新高效低价HRM-Text基础模型排行榜:训练成本仅1500美元深度评测
HRM-Text:仅需1500美元即可训练10亿参数模型,大模型预训练成本革命性下降
大模型预训练的巨额开销,长期将大量企业和研究机构挡在门外。但近期一项研究提出的新方案,似乎在尝试撬动这道高墙。先看一组硬数据:从零开始训练一个10亿参数的基础模型,计算成本估算仅1500美元,耗时1.9天,动用16块GPU。没错,单位是美元,不是万,更不是亿。
这项研究名为HRM-Text,其核心突破在于没有追随主流的Transformer架构,而是基于“分层循环模型”(HRM)构建。听起来复杂?可以这样类比:它将计算过程拆分为“策略层”与“执行层”。前者变化频率低,负责规划方向;后者变化快,负责落地执行。就像一个建筑项目,总建筑师(策略层)敲定整体框架与蓝图,施工团队(执行层)按图高效完成细节施工。
更值得玩味的是训练方式。传统大模型大多采用“下一个词预测”,在海量互联网文本中“死记硬背”。而HRM-Text全部使用“指令-回复”配对数据,训练目标从“猜对下一个字”转变为“判断任务是否完成”。简单说,它不要求你逐字复述,而是看最终能否给出一个有用的回答。这种思路与企业实际场景高度吻合——用户抛来一个问题,期待一个靠谱的答案,而非模型如何联想出下一个词。
在数据规模上,HRM-Text训练仅使用约400亿个标记(tokens),远低于主流模型动辄数千亿甚至过万亿的量级。数据由通用指令、数学题、符号逻辑、教材练习和改写知识等“指令-回复”样本构成。一个关键细节:研究人员在训练中刻意移除了展示中间推理过程的标记。他们希望迫使模型依赖自身内部层级推理结构解决问题,而非“照抄”推理步骤。
那么,这个“精打细算”训练出的10亿参数模型,实际表现如何?在多项基准测试中,成绩亮眼:MMLU 60.7%、GSM8K 84.5%、MATH 56.2%。这些分数足以与部分更大的开源模型抗衡。研究团队对比后发现,HRM-Text训练使用的标记数量,比部分Qwen、Gemma和Llama模型少100倍到900倍,估算计算量低了96倍至432倍。
当然,循环结构在语言训练中容易遭遇梯度爆炸或消失的老问题。团队为此引入了名为“MagicNorm”的归一化方法,并配合逐步增加推理深度的预热训练策略。整体来看,这项研究释放了一个明确信号:基础模型预训练,或许不再是高资源机构的“专属游戏”。未来,企业完全可能基于自身业务数据和外部知识库,训练更小巧、更聚焦的推理核心模型。
不过,HRM-Text目前更像一个概念验证,距离成熟的通用聊天产品还有距离。研究团队也坦言,它在多轮对话、推理模式控制和工程适配方面,仍需大量完善。但方向已经清晰,接下来就看如何从“实验室”走向“生产线”。



