DeepSeek-V4测评:百万上下文与Agent能力开源领先解析
深度求索(DeepSeek)刚刚放了个大招:全新DeepSeek-V4系列模型正式开启预览,并且同步开源。这次发布包含两个版本,一个主打高性能的V4-Pro,另一个是追求效率的V4-Flash。简单来说,这套组合拳在智能体能力、世界知识储备和推理性能这几个关键维度上,直接把开源领域的标杆又往上抬了一截。
V4-Pro:开源模型的高性能新标杆
先看定位高端的V4-Pro。它的核心突破点非常明确:智能体(Agent)能力。在专门评估智能体编码能力的Agentic Coding评测中,V4-Pro已经冲到了开源模型的前列。这可不是单项突破,在其他相关的智能体任务评测里,它的表现同样亮眼。
更值得关注的是它在“知识面”上的拓展。在世界知识测评这类考验模型“常识”和“博学”程度的项目中,V4-Pro大幅领先于其他开源对手,表现已经非常接近像Gemini-Pro-3.1这样的顶级闭源模型。而在硬核的数学、STEM以及竞赛级推理任务上,它的表现不仅超越了目前所有公开的开源模型,甚至具备了与头部闭源模型掰手腕的实力。
V4-Flash:轻量化设计的效率之选
如果说V4-Pro是“全能战士”,那V4-Flash就是“敏捷先锋”。它采用了轻量化设计,核心目标是在保证能力的前提下,实现更快的响应速度和更低的部署成本。实际表现如何?在基础推理能力上,它已经非常接近Pro版本;对于一些不那么复杂的智能体任务,两者表现相当。这意味着,对于那些对实时性要求高、或者资源预算有限的轻量化应用场景,V4-Flash会是一个非常务实的选择。
技术内核:长上下文进入普惠阶段
这次升级背后,有两项关键技术值得细说。一是DSA稀疏注意力机制(DeepSeek Sparse Attention),二是创新的token压缩方案。这两项技术结合,直接带来了一个关键收益:在实现百万级别超长上下文支持的同时,显著降低了计算开销和显存占用。
这背后的意义其实很大。过去,处理超长文本往往是少数“土豪”模型的专属能力,成本高昂。而现在,深度求索正在把长上下文能力推向“普惠”阶段,让更多开发者和企业能够以可承受的成本,用上处理超长文档、进行复杂多轮对话的模型。
此外,模型还做了大量“接地气”的优化。它专门针对Claude Code、OpenClaw、OpenCode、CodeBuddy这些主流的智能体开发生态进行了适配和优化。说白了,就是让V4系列在这些流行的开发框架和工具链里,能更好地发挥代码生成和复杂任务执行的能力,降低开发者的集成门槛。
如何获取与使用
目前,DeepSeek-V4系列已经在官方平台和App上开放体验。API服务也同步支持V4-Pro和V4-Flash两个版本,并且兼容OpenAI和Anthropic的接口规范,对开发者相当友好。API还支持思考模式和推理强度调节,方便进行效果和成本的微调。
有个时间点需要注意:原有的API模型名称将在3个月后停用。不过现阶段,调用旧名称会自动映射到新版对应的模式上,给开发者留出了充足的迁移缓冲期。