比预期还要高60% DeepSeek V4参数量有望达到1.6万亿

2026-04-24阅读 290热度 290

DeepSeek V4参数量或达1.6万亿，远超行业预期

随着四月下旬临近，DeepSeek V4大模型的发布已成为全球AI社区的核心焦点。昨日，其研究团队对DeepGEMM算子库的关键更新，被广泛解读为V4正式亮相前的技术铺垫。

官方显然意识到了市场的密切关注。更新说明中特别指出，此次升级仅涉及DeepGEMM本身的开发进程，与内部模型发布路线图无关。这一声明旨在管理预期，暗示V4的发布仍需等待。

然而，技术社区的分析并未因此停止。本次DeepGEMM的更新内容技术含量极高，很难让人相信其与下一代大模型毫无关联。

具体的技术迭代包括新增FP8_FP4混合算子支持、优化对NVIDIA Blackwell架构的适配。而架构层面的核心升级聚焦于Mega MoE与HyperConnection。其中，Mega MoE的引入预示着混合专家架构将迎来一次范式级的演进。

根据对Gemini架构的技术解析，V4模型激活的专家数量可能从V3的256个激增至数千量级。这一设计能在显著提升模型容量与性能的同时，维持相对高效的推理成本，实现性能与资源消耗的更好平衡。

更值得关注的是，此次更新间接揭示了V4的潜在参数量级。技术社区依据更新数据推算，单个MoE层的参数约为253.7亿。若维持60层设计，总参数量将达约1.6万亿；即使采用48层的保守方案，参数规模也将突破1.25万亿。

此前关于V4为“万亿参数模型”的预测已被大幅超越。1.6万亿的规模意味着参数量比早期预期高出60%，其可能带来的性能飞跃值得重新评估。

即便以1.25万亿参数计算，V4的规模也已是当前V3模型（6700亿）的近两倍。结合Mega MoE带来的数千激活专家，此次升级很可能成为MoE架构发展史上的关键转折点，重新定义大规模语言模型的技术边界。

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。