DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

2026-05-02阅读 0热度 0
DeepSeek

DeepSeek 底层代码库更新,关键模块 Mega MoE 首次曝光

DeepSeek 近期对其核心代码库 DeepGEMM 进行了一次重要更新。官方明确指出,此次迭代的重点并非模型本身,而是底层基础设施的优化与重构。

在这次看似常规的代码提交中,一个全新的技术概念“Mega MoE”首次进入公众视野,揭示了团队在混合专家模型架构优化上的最新进展。

相关链接:https://github.com/deepseek-ai/DeepGEMM/pull/304

Mega MoE 项目由 DeepSeek 基础设施团队的 Chenggang Zhao 等核心工程师主导开发。

Mega MoE:重新定义混合专家模型的计算效率

如何理解 Mega MoE 的技术价值?社区开发者“思维怪怪的”提供了一个精辟的类比:

来源:https://x.com/0xLogicrw/status/2044720884066451645

Mega MoE 的核心创新在于“计算流程一体化”。它将传统 MoE 中离散、分步执行的运算环节,深度融合为一个统一的、可在 GPU 上一次性完成的计算单元。

传统 MoE 的实现方式类似于一条分段式流水线。Token 需要依次经历路由分发、第一层线性变换、激活函数处理、第二层线性变换,最终结果汇总。每个步骤都依赖独立的内核启动,并伴随大量的 GPU 间数据交换与同步等待。

这种模式导致典型的计算瓶颈:GPU 算力在频繁的核函数调度与数据通信等待中被严重稀释,硬件利用率难以达到理想状态。

Mega MoE 的解决方案是彻底“融合”这条流水线。它将路由、两层线性计算、SwiGLU 激活、结果合并等所有关键步骤,集成到一个高度优化的“超级内核”中。其更深层的突破在于实现了计算与通信的并行重叠。

这意味着,Tensor Core 执行矩阵运算的同时,NVLink 高速互联可以同步传输数据,两者无需相互等待,从而最大化硬件吞吐。

其直接收益是 GPU 空闲时间的大幅削减与整体利用率的显著提升。在多卡分布式训练与大规模 MoE 模型推理场景下,这种底层优化带来的延迟降低与吞吐增加将是可感知的。这相当于将离散的接力赛跑,升级为一条无缝衔接的高速传输带。

显然,DeepSeek 的目标远不止于开发一个“更快的核函数”。从技术路径看,团队正系统性地挖掘 MoE 架构的极限性能。

例如,代码中已出现对 FP8 与 FP4 混合精度计算的探索,并为 MQA logits 设计了专用的 FP4 索引器。这类优化直指“计算密度与内存效率的终极边界”。结合对 GEMM 算子的重构、利用 JIT 即时编译进行动态优化等手段,表明 DeepSeek 正致力于构建一套极致高效、统一的 AI 计算基础设施。

一个值得关注的细节是,团队明确表示 Mega MoE 仍处于积极开发阶段,具体性能基准数据将在后续公布。这符合深度系统优化的典型特征——它需要在多样化的模型规模、硬件配置与工作负载下进行持续迭代与调优。此时选择开源,更像是向技术社区宣告其明确的技术路线与攻坚决心。

基于 Mega MoE 等新特性,DeepSeek 同步更新了 DeepGEMM 库的官方描述:

DeepGEMM 是一个统一的高性能 Tensor Core 内核库,它整合了现代大语言模型的核心计算原语,包括支持 FP8、FP4、BF16 精度的通用矩阵乘法、具备通信重叠能力的融合 MoE、用于 Lightning Indexer 的 MQA 打分、HyperConnection 等。所有内核均通过轻量级 JIT 模块在运行时编译,无需在安装阶段进行复杂的 CUDA 环境配置。

因此,本次更新的定位可以概括为:一次发生在 AI 基础设施层的深度重构。DeepSeek 正试图将 MoE 从一种“理论高效但工程复杂”的架构,推进到“易于大规模高效部署”的实用化阶段。

Mega MoE 很可能只是这幅技术蓝图中的首块关键基石。接下来的悬念在于,这项底层优化是否会直接应用于未来的 DeepSeek-V4 模型架构之中。

此外,根据开发者 St4r 的分析,此次代码更新中透露的某些硬件特性支持,暗示 DeepSeek 的训练基础设施可能仍包含英伟达最新的 B 系列 AI 加速卡,而非近期传闻中的国产训练芯片。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策