DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
2月18日,人工智能领域又迎来一次值得关注的技术发布。深度求索(DeepSeek)正式推出了名为 NSA(Native Sparse Attention) 的新机制。简单来说,这是一种从硬件层面进行优化、且能直接参与模型训练的原生稀疏注意力方案,目标直指超长上下文处理场景下的效率瓶颈——既要训练快,也要推理快。
那么,这个NSA到底是如何工作的?它的核心设计可以概括为三驾马车:
- 动态分层稀疏策略:这不是一刀切的固定稀疏模式,而是能根据输入内容动态调整注意力范围,更智能地分配计算资源。
- 粗粒度 token 压缩:先在大局上对信息进行整合与筛选,过滤掉冗余部分,为后续精细处理减负。
- 细粒度 token 选择:在关键局部,再进行精挑细选,确保模型不会错过那些真正重要的细节信息。
根据官方说明,NSA机制的一个突出优势在于与现代硬件(如GPU)的设计哲学深度对齐。这说明它不是单纯在算法层面炫技,而是充分考虑到了实际部署时的硬件执行效率。最终效果非常明确:在推理阶段获得显著加速,同时大幅降低模型预训练的成本。最关键的是,这一切并非以牺牲模型能力为代价。
在多项测试中,搭载NSA的模型表现出了足够的说服力。无论是在通用性能基准、专考长上下文理解的任务,还是基于指令的复杂推理上,其性能都与使用传统“全注意力”机制的模型旗鼓相当,甚至在部分任务中更具优势。这无疑为大规模长文本模型的实用化铺平了更经济的道路。
对技术细节感兴趣的读者,可以进一步查阅其研究论文:
https://arxiv.org/abs/2502.11089
