首页 > 其他资讯 > 训练AI只需要跑完前10%，剩下的90%都能在小模型上跑

训练AI只需要跑完前10%，剩下的90%都能在小模型上跑

时间：26-04-25

告别“先膨胀后压缩”：一种让AI模型在训练中同步精简的新范式

（来源：麻省理工科技评论）

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

训练大规模AI模型的成本，远不止于资金投入。时间周期、能源消耗与稀缺的算力资源，共同构成了难以忽视的部署门槛。

传统获取高效轻量模型的路径通常面临两难：要么不计代价训练一个庞大模型，再对其进行事后压缩；要么直接训练一个小型模型，但往往需承受显著的性能损失。这两种策略，如同先增重再减肥或长期营养不良，均非最优方案。

如今，来自MIT CSAIL、马克斯·普朗克智能系统研究所、ELLIS、苏黎世联邦理工学院及Liquid AI的研究团队，提出了一种突破性的方法，从根本上规避了这一困境：让模型在训练进程中自主完成压缩，而非在训练结束后进行。

方法论：早期诊断与动态精简

这项名为CompreSSM的技术，专注于“状态空间模型”这一在语言处理、音频合成及机器人控制等领域广泛应用的AI架构。研究团队从控制论的数学工具中获得启发，他们证实，在训练初期即可有效识别模型内部的关键组件与冗余部分，从而实施精准的“外科手术式”剪枝。

论文第一作者、CSAIL博士生马克拉姆·查希内阐释道：“本质上，这是一项让模型同步实现学习、精简与加速的技术。在学习核心任务的同时，模型也在主动摒弃那些对其能力构建无贡献的部分。”

该研究的核心发现在于：状态空间模型内部各组件的重要性排序，在训练早期阶段就已基本确立并保持稳定。团队采用“汉克尔奇异值”这一数学度量，来评估每个内部状态对模型整体行为的贡献度。实验表明，仅需完成约10%的训练周期，即可可靠地确定各维度的重要性序列。一旦序列确定，贡献度低的组件便可被安全移除，剩余的90%训练将在更精简、更高效的模型结构上进行。

这彻底改变了模型压缩的时机与范式。论文通讯作者、MIT教授丹妮拉·鲁斯指出：“这项工作的价值在于，它将压缩从一种后处理技术，转变为学习过程的内在组成部分。我们不再遵循‘先训练后压缩’的流程，而是引导模型在学习过程中自行演化出高效结构。这代表了一种构建AI系统的新哲学。”

性能表现：精度无损与训练加速

实验结果令人印象深刻。在图像分类基准测试中，经压缩的模型保持了与原始完整模型几乎一致的准确率，同时训练速度最高提升了1.5倍。

具体数据上，一个被压缩至原始状态维度约四分之一的模型，在CIFAR-10基准上取得了85.7%的准确率。相比之下，一个从零开始训练的同等规模小模型，准确率仅为81.8%。在流行的Mamba状态空间架构上，该方法实现了约4倍的训练加速——将128维模型压缩至约12维，其性能依然保持竞争力。

“你能获得接近大模型的性能，因为在初始的‘热身’阶段，模型已捕捉到大部分复杂的动态特征，此后仅保留最具信息量的状态，”查希内解释道，“因此，其表现始终优于从头训练的小型模型。”

理论优势：规避额外计算开销

CompreSSM与现有方法的核心差异在于其坚实的理论根基。传统的剪枝技术需先完整训练大型模型，再进行参数剔除，这意味着仍需承担训练大模型的全部计算成本。而流行的知识蒸馏技术，则需先训练一个大型“教师”模型来指导小型“学生”模型，实质上导致了训练成本的倍增。

CompreSSM通过在训练过程中做出智能压缩决策，巧妙地规避了这两类额外的资源开销。

研究团队将CompreSSM与上述方法进行了直接对比。与一种近期提出的、用于引导紧凑状态空间模型的谱方法相比，CompreSSM在速度上快了40倍以上，且准确率更高。该谱方法因每次梯度更新都需进行昂贵的特征值计算，会使训练速度减慢约16倍，性能却仍不及CompreSSM。

在CIFAR-10上与知识蒸馏的对比中，CompreSSM在高压缩率下的优势尤为显著：当状态维度极小时，蒸馏模型的准确率急剧下降，而经CompreSSM压缩的模型几乎保持了完整版的性能。更重要的是，由于蒸馏每一步都需要教师和学生模型各执行一次前向传播，即便学生模型更小，其整体训练速度反而比完整的基线模型更慢。

可靠性保障：数学稳定性与安全回滚

一个关键问题是：早期做出的压缩决策，在训练后期是否会误删重要组件？研究团队利用Weyl定理证明了两个关键特性：第一，训练过程中单个模型状态的重要性是平滑演变的；第二，这些状态的相对排序是稳定的。这两点共同保证了方法的可靠性——在早期被判定为冗余的维度，后期几乎不可能突然变得至关重要。

此外，该方法还内置了实用的安全机制。如果某次压缩操作意外导致性能下降，用户可以轻松回退到之前保存的检查点。“这允许实践者明确控制愿意为效率提升所付出的性能代价，而不是去定义一个难以直观理解的抽象能量阈值，”查希内补充道。

适用范围与未来演进

当然，该技术有其特定的适用边界。CompreSSM在那些“内部状态维度与模型整体性能高度相关”的架构上效果最佳，而这种相关性因具体任务和模型设计而异。它对多输入多输出模型特别有效，因为这类模型中状态规模与表达能力的关系最为紧密。而对于每通道、单输入单输出的架构，收益则相对有限，因为此类模型本身对状态维度的变化就不敏感。

目前，该理论最适用于线性时不变系统。但团队已开发出适用于输入依赖、时变架构的扩展版本——后者正日益流行。由于状态空间模型家族已延伸至“线性注意力”等新兴架构（作为传统Transformer的高效替代方案，正受到广泛关注），CompreSSM的潜在应用场景相当广阔。

查希内与合作者将这项工作视为重要的基石。团队已展示了该方法向Mamba等线性时变系统的扩展能力，未来的方向是将CompreSSM进一步推广至线性注意力机制中使用的矩阵值动力系统。这将使该技术更接近当今绝大多数大型AI系统的核心——Transformer架构。

“这必须是第一步，因为在此理论框架清晰，方法能保持其原则性，”查希内表示，“这是一块垫脚石，之后可向业界当前实际部署的其他主流架构扩展。”

未参与此项研究的ELLIS图宾根研究所首席研究员安东尼奥·奥尔维耶托评价道：“查希内及其同事的工作，为现代状态空间模型的压缩问题提供了一个兼具理论深度与实用价值的视角。该方法提供了确凿证据，证明此类模型的状态维度可在训练过程中被有效降低，且控制论视角能成功指导这一过程。这项工作为未来研究开辟了新方向，所提出的算法有潜力成为预训练大型SSM模型的标准流程。”

据悉，这项研究已被ICLR 2026接收，并将于本月晚些时候在会议上正式发表。研究部分由马克斯·普朗克-ETH学习系统中心和Hector基金会资助。

（原文链接：https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409）

这就是训练AI只需要跑完前10%，剩下的90%都能在小模型上跑的全部内容了，希望以上内容对小伙伴们有所帮助，更多详情可以关注我们的菜鸟游戏和软件相关专区，更多攻略和教程等你发现！