DeepSeek V4开源模型测评：全球领先性能深度解析

2026-05-18阅读 0热度 0

其他

备受全球开发者期待的DeepSeek V4，现已正式发布。

DeepSeek-V4系列预览版已全面上线。这标志着百万级上下文处理能力正式进入普及阶段，其开源Agent能力、世界知识储备与核心推理性能均实现了显著跃升。

官方技术报告已同步公开，为开发者社区提供了完整的技术实现细节。

论文地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4-Pro：性能对标顶级闭源模型

DeepSeek-V4 系列提供两个版本：拥有1.6T总参数、49B激活参数的高性能旗舰DeepSeek-V4-Pro，以及为高效部署设计的284B总参数、13B激活参数的DeepSeek-V4-Flash。

DeepSeek-V4-Pro代表了当前开源模型性能的顶峰，其综合能力已可匹敌全球顶尖的闭源模型。

其核心优势体现在三个维度：

首先，Agent能力实现突破。其Agentic Coding能力在开源模型中领先，实测编码体验优于Claude 3.5 Sonnet，输出质量接近Opus 4.6（非思考模式），已成为内部Agent编程的首选。

其次，具备深厚的世界知识储备。在知识评测中，V4-Pro显著领先于其他开源模型，与闭源标杆Gemini-Pro-3.1的差距已微乎其微。

最后，拥有顶尖的逻辑推理能力。在数学、STEM及高难度竞赛代码等硬核推理任务上，V4-Pro不仅领先开源社区，更具备了与最强闭源模型同台竞技的实力。

三大底层技术：架构创新的核心

支撑模型卓越性能的，是三项底层架构创新：

混合注意力机制（CSA + HCA）：DeepSeek-V4 并未单纯堆叠硬件，而是设计了创新的混合注意力架构。压缩稀疏注意力（CSA）在token维度压缩KV缓存并融合DSA稀疏注意力；重压缩注意力（HCA）则进行更极致的压缩以维持稠密计算。这种“长短结合”的策略，在处理百万字上下文时，大幅降低了计算开销与显存占用。

流形约束超连接（mHC）：为提升深层网络信号传播的稳定性与模型表达能力，V4引入了mHC结构，改进了传统残差连接。这确保了模型在深度训练中仍能保持强大的建模能力。

Muon 优化器：采用全新的Muon优化器，使模型训练过程收敛更快、更稳定。

这些结构创新带来了推理效率的质变。在处理100万token上下文时，DeepSeek-V4-Pro的单token推理计算量仅为前代的27%，KV缓存占用更是降至惊人的10%。

DeepSeek-V4-Flash：效能与成本的平衡

Flash版本是更注重效率与性价比的选择。尽管在世界知识的深度上略逊于Pro版，但DeepSeek-V4-Flash保留了与之相近的逻辑推理水平。得益于更精简的参数规模与激活机制，它能提供响应更快、成本更低的API服务。在处理常规Agent任务时，V4-Flash表现与Pro版相当，但在应对极端复杂任务时仍有提升空间。

架构革新：重新定义长上下文效率

DeepSeek-V4引入了革命性的注意力机制，通过在Token维度进行高效压缩，并结合DSA稀疏注意力技术，实现了业界顶尖的长文本处理能力。这项创新显著降低了对计算资源与显存的依赖。即日起，1M（100万tokens）超长上下文将成为DeepSeek服务的标准配置。

DeepSeek-V4和DeepSeek-V3.2的计算量和显存容量随上下文长度的变化

Agent能力深度优化

DeepSeek-V4 深度适配了Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent生态。在代码生成与自动化文档创建等场景中，其生产效率得到显著提升。

V4-Pro在特定Agent框架下自动生成的PPT页面实例

API全面升级，旧版模型进入倒计时

对开发者而言，API服务已同步上线。只需修改 model_name 即可接入新模型：追求极致性能选择 deepseek-v4-pro，追求效率成本选择 deepseek-v4-flash。

请注意，原有的 deepseek-chat 和 deepseek-reasoner 模型名将作为V4的过渡别名（分别指向 V4-Flash 的非思考与思考模式），这两个旧名称将于2026年7月24日正式停用。

论文深度解读

两种压缩，一套组合拳

在V4-Pro中，CSA的压缩率为4，每4个token的KV缓存合并为一个条目。压缩后通过Lightning Indexer对压缩KV条目评分，每个query token仅选取top-1024个条目进行注意力计算。索引计算采用FP4精度，在超长上下文场景下开销极低。

HCA则采用更激进的策略。压缩率提升至128，比CSA更高，但不进行稀疏选择，所有压缩后的KV条目均参与计算。这是以极致压缩换取全局感知能力。

两种机制交替堆叠，CSA负责精细检索，HCA负责全局感知，再结合每层128 token的滑动窗口捕捉局部依赖，三条路径协同工作，构成了高效的长上下文处理核心。

以常规BF16 GQA8（头维度128）为基线，V4在100万token下的KV缓存仅为基线的约2%。KV条目采用混合精度存储，RoPE维度为BF16，其余为FP8，体积比纯BF16再减少一半。推理端将压缩KV和滑动窗口KV分开管理，支持磁盘级缓存存储，避免共享前缀的重复预填充计算。

mHC：以6.7%的代价换取稳定性

标准HC通过扩展残差流宽度来增强信息传递，但多层堆叠时数值易爆炸。mHC将残差映射矩阵约束在双随机矩阵流形上，确保谱范数不超过1，使信号在深层传播中不发散。投影通过Sinkhorn-Knopp算法迭代20次实现。工程代价可控，扩展因子仅为4，经过融合内核和选择性重计算优化后，额外墙钟时间仅增加6.7%。

训练万亿参数的工程实践

Muon优化器的核心是对梯度动量进行Newton-Schulz正交化，V4采用10次混合迭代，前8次快速收敛，后2次精确稳定。但优化器只是成功的一半。V4报告披露了两个关键的训练稳定性技巧。

一是Anticipatory Routing，将路由索引的计算与主干网络更新解耦，使用历史参数提前计算并缓存路由。系统在检测到loss尖峰时自动触发，日常开销可忽略不计。

二是SwiGLU Clamping，将SwiGLU线性分量钳制在[-10, 10]区间，门控上界钳制在10。方法直接但极其有效。

在MoE工程实现上，V4开源了MegaMoE，将通信和计算融合进单个流水线内核，通用场景加速1.5到1.73倍，延迟敏感场景最高加速1.96倍。

专家分训，蒸馏合一

V4采用On-Policy Distillation替代了V3.2的混合RL。先独立训练数学、代码、Agent等领域的专家模型，再用一个学生模型对十几个专家进行全词表logit蒸馏。工程上的关键突破在于，不缓存教师logits（显存不足），只缓存最后一层隐藏状态，训练时按需重建logits，并使用TileLang专用内核加速KL散度计算。

V4还引入了Generative Reward Model，让actor网络同时充当奖励模型，评判与生成能力联合优化，不再依赖传统的标量奖励模型。后训练阶段同步进行了FP4量化感知训练，对MoE专家权重和CSA索引器进行FP4量化，且FP4到FP8的反量化过程无损，整个流程复用现有FP8框架。

再度印证开源力量

从V3的横空出世到V4的效率革命，DeepSeek始终坚持将顶尖技术通过开源与社区共享。DeepSeek-V4的发布，不仅是技术参数的飞跃，更是对“百万长上下文”与“高性能Agent”两大趋势的明确回应。它证明通过架构创新，可以在不牺牲性能的前提下，大幅降低大模型的应用门槛。

开发者现可通过最新App或 chat.deepseek.com 立即体验1M上下文的全新能力。这不再是一个简单的对话框，而是一个能容纳整部百科全书、理解万行代码逻辑的智能工作伙伴。

参考资料：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode