DeepSeek-V4上线PAI:一键部署百万上下文模型
DeepSeek-V4 模型核心亮点
大模型领域迎来重要更新——DeepSeek-V4 正式发布并开放源代码。这款模型支持百万tokens上下文窗口,在智能体任务执行、世界知识覆盖范围以及推理基准测试中,均达到国内开源模型的顶尖水平。本次提供两个版本:Deepseek-V4-Pro 和 Deepseek-V4-Flash。PAI 平台现已支持这两个版本的一键部署,实现秒级启动。
- Deepseek-V4-Pro:智能体能力显著增强。在 Agentic Coding 评测排行榜中,取得当前开源模型的最高分,深度求索内部团队已将其用于实际编码工作流,性能比肩 Claude Opus 4.6 等顶级闭源系统。世界知识问答准确率大幅领先同类开源模型,仅略低于 Gemini-Pro-3.1。推理效率达到国际一线水准。
- Deepseek-V4-Flash:相较于 Pro 版本,世界知识储备稍弱,但推理速度几乎一致。在智能体评价中,处理常规任务时表现与 Pro 版本持平。核心优势在于模型规模更紧凑,推理成本更低,适合追求高吞吐与低延迟的经济型部署方案。
除 DeepSeek 外,PAI-Model Gallery 同时支持 Qwen3.6-35B-A3B、Kimi K2.6、Minimax-M2.7、GLM-5.1 等前沿模型的一键部署方案。搭配真武 810E 硬件加速,训练与推理吞吐均表现优异。
PAI-Model Gallery 平台概况
Model Gallery 是阿里云人工智能平台 PAI 的原生组件,整合了全球主流开源社区的优质预训练模型。覆盖范围涵盖大语言模型、AIGC、计算机视觉、自然语言处理等多个领域。通过 PAI 的适配优化,用户无需编写底层代码,即可完成从模型训练到云端部署再到实时推理的全链路操作。这套流程大幅降低了模型开发的门槛,让团队能够专注于业务逻辑而非基础设施。
PAI-Model Gallery 已接入 DeepSeek-V4、Kimi K2.6、Minimax-m2.7、GLM-5.1 及 Qwen3.6-35B-A3B 等最新主流模型,提供企业级部署方案:零代码一键部署、自动资源编排、开箱即用 API、全流程运维监控、企业级数据安全策略。对于追求快速上线与稳定运行的技术团队,这些特性显著降低了运维压力。
DeepSeek-V4 模型一键部署步骤
具体操作分为三个环节:
第一步,进入 PAI-Model Gallery 模型广场,搜索 DeepSeek-V4-Pro 或 DeepSeek-V4-Flash,也可通过专属链接直达。平台提供四个版本选项:DeepSeek-V4-Pro、DeepSeek-V4-Pro-FP8、DeepSeek-V4-Flash、DeepSeek-V4-Flash-FP8。
第二步,在模型详情页右上角点击「部署」,根据模型版本选择合适的计算资源,一键完成云端部署。界面引导清晰,无需代码基础即可完成资源分配与启动。
不同版本对部署资源的要求如下:
DeepSeek-V4-Pro 已集成 vLLM 高性能推理框架,支持单机与分布式部署,最低需要 8 块 GPU。
DeepSeek-V4-Pro-FP8 依赖 SGLang 框架实现分布式推理,需 16 块 GPU。
DeepSeek-V4-Flash 同样基于 vLLM,8 块 GPU 即可支撑生产级负载。
Deepseek-V4-Flash-FP8 资源需求最低,使用 SGLang 框架,4 块 GPU 即可运行。
第三步,部署完成后,在服务页面点击“查看调用信息”,获取 API 地址与 Token。详细的调用方法可在模型详情页查阅说明文档。
更多模型生态支持
PAI-Model Gallery 持续追踪开源社区热点模型,提供快速部署、微调、蒸馏及评测等全流程实践支持。覆盖的模型系列包括 Qwen、Wan、DeepSeek、Kimi、MiniMax 等经典产品,并推出 PAI 专用优化版本,例如 Qwen3-235B-A22B-PAI-optimized、Qwen3-Next-80B-A3B-Instruct-FP8-PAI-optimized、DeepSeek-R1-0528-PAI-optimized。这些优化版本内置了专家并行(EP)与流水线并行(PD)分离部署模板,在实际推理场景中可获得更低的延迟与更高的吞吐。










