比预期还要高60% DeepSeek V4参数量有望达到1.6万亿
DeepSeek V4参数量或达1.6万亿,远超行业预期
随着四月下旬临近,DeepSeek V4大模型的发布已成为全球AI社区的核心焦点。昨日,其研究团队对DeepGEMM算子库的关键更新,被广泛解读为V4正式亮相前的技术铺垫。
官方显然意识到了市场的密切关注。更新说明中特别指出,此次升级仅涉及DeepGEMM本身的开发进程,与内部模型发布路线图无关。这一声明旨在管理预期,暗示V4的发布仍需等待。
然而,技术社区的分析并未因此停止。本次DeepGEMM的更新内容技术含量极高,很难让人相信其与下一代大模型毫无关联。
具体的技术迭代包括新增FP8_FP4混合算子支持、优化对NVIDIA Blackwell架构的适配。而架构层面的核心升级聚焦于Mega MoE与HyperConnection。其中,Mega MoE的引入预示着混合专家架构将迎来一次范式级的演进。
根据对Gemini架构的技术解析,V4模型激活的专家数量可能从V3的256个激增至数千量级。这一设计能在显著提升模型容量与性能的同时,维持相对高效的推理成本,实现性能与资源消耗的更好平衡。
更值得关注的是,此次更新间接揭示了V4的潜在参数量级。技术社区依据更新数据推算,单个MoE层的参数约为253.7亿。若维持60层设计,总参数量将达约1.6万亿;即使采用48层的保守方案,参数规模也将突破1.25万亿。
此前关于V4为“万亿参数模型”的预测已被大幅超越。1.6万亿的规模意味着参数量比早期预期高出60%,其可能带来的性能飞跃值得重新评估。
即便以1.25万亿参数计算,V4的规模也已是当前V3模型(6700亿)的近两倍。结合Mega MoE带来的数千激活专家,此次升级很可能成为MoE架构发展史上的关键转折点,重新定义大规模语言模型的技术边界。
