比预期还要高60% DeepSeek V4参数量有望达到1.6万亿

2026-04-24阅读 290热度 290
ai

DeepSeek V4参数量或达1.6万亿,远超行业预期

随着四月下旬临近,DeepSeek V4大模型的发布已成为全球AI社区的核心焦点。昨日,其研究团队对DeepGEMM算子库的关键更新,被广泛解读为V4正式亮相前的技术铺垫。

比预期还要高60% DeepSeek V4参数量有望达到1.6万亿

官方显然意识到了市场的密切关注。更新说明中特别指出,此次升级仅涉及DeepGEMM本身的开发进程,与内部模型发布路线图无关。这一声明旨在管理预期,暗示V4的发布仍需等待。

然而,技术社区的分析并未因此停止。本次DeepGEMM的更新内容技术含量极高,很难让人相信其与下一代大模型毫无关联。

具体的技术迭代包括新增FP8_FP4混合算子支持、优化对NVIDIA Blackwell架构的适配。而架构层面的核心升级聚焦于Mega MoE与HyperConnection。其中,Mega MoE的引入预示着混合专家架构将迎来一次范式级的演进。

根据对Gemini架构的技术解析,V4模型激活的专家数量可能从V3的256个激增至数千量级。这一设计能在显著提升模型容量与性能的同时,维持相对高效的推理成本,实现性能与资源消耗的更好平衡。

更值得关注的是,此次更新间接揭示了V4的潜在参数量级。技术社区依据更新数据推算,单个MoE层的参数约为253.7亿。若维持60层设计,总参数量将达约1.6万亿;即使采用48层的保守方案,参数规模也将突破1.25万亿。

此前关于V4为“万亿参数模型”的预测已被大幅超越。1.6万亿的规模意味着参数量比早期预期高出60%,其可能带来的性能飞跃值得重新评估。

即便以1.25万亿参数计算,V4的规模也已是当前V3模型(6700亿)的近两倍。结合Mega MoE带来的数千激活专家,此次升级很可能成为MoE架构发展史上的关键转折点,重新定义大规模语言模型的技术边界。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策