SGLang实战：Qwen3.6-35B本地部署与高吞吐启动命令详解

2026-05-11阅读 0热度 0

Qwen

要在本地高效运行Qwen3.6-35B并充分发挥其推理吞吐量，SGLang推理框架是核心工具。该框架原生集成了MTP（多令牌预测）推测解码技术，能大幅提升令牌生成速度与并发处理能力，优化大模型推理效率。本文将详细解析几种主流的SGLang部署方案，您可以根据硬件配置和项目需求选择最合适的路径。

一、标准 SGLang 启动命令（FP8 量化版）

若您已获得FP8量化格式的模型权重并存储在本地路径，此方案最为简洁。它通过配置张量并行策略来调用多GPU资源，同时启用MTP进行加速。

首先，在环境中安装sglang：pip install sglang。

接着，确认您的模型文件存储路径，例如 /data/models/Qwen3.6-35B-A3B-FP8。

最后，执行核心启动指令：

sglang serve /data/models/Qwen3.6-35B-A3B-FP8 --host 0.0.0.0 --port 30000 --tp 2 --enable-mtp --mtp-num-speculative-tokens 3

参数 --tp 2 设定了张量并行度为2，即使用2块GPU。--enable-mtp 用于激活推测解码功能，而 --mtp-num-speculative-tokens 3 则定义了每次推测的令牌数量为3，您可根据实际负载微调此值以权衡速度与准确性。

二、启用专家并行的 MoE 专用启动命令

Qwen3.6-35B-A3B采用了混合专家架构，内部包含256个专家。部署此类模型时，必须显式启用专家并行策略，以避免因专家路由负载不均而引发的显存溢出或性能下降问题。

启动前，通过环境变量指定可用GPU，例如 CUDA_VISIBLE_DEVICES=0,1。

关键在于使用 --expert-parallel 参数，并通常需要配合更高的张量并行度（如 --tp=4）来更均衡地分配专家计算。

完整的启动命令参考如下：

sglang serve /data/models/Qwen3.6-35B-A3B-AWQ --host 0.0.0.0 --port 30000 --tp 4 --expert-parallel --enable-mtp --mtp-num-speculative-tokens 2 --reasoning-parser qwen3

请注意，此处额外指定了 --reasoning-parser qwen3，以确保模型特有的思维链格式能被正确解析。

三、兼容 OpenAI API 的 SGLang 服务启动

若您希望部署的服务能够被Claude Code、Ollama等工具或自研前端直接调用，启动一个兼容OpenAI API格式的服务至关重要。SGLang在此模式下仍能保持MTP加速能力。

首先，安装OpenAI扩展：pip install sglang[openai]。

规划好端口映射，例如将宿主机的30000端口映射至容器内的30000端口。

启动命令中，通过 --api-key 设置访问密钥（示例为sk-xxx），并指定Qwen专用的对话模板：

sglang serve /data/models/Qwen3.6-35B-A3B-Q4_K_M.gguf --host 0.0.0.0 --port 30000 --api-key sk-xxx --enable-mtp --mtp-num-speculative-tokens 4 --chat-template qwen3

服务启动后，将提供标准的 /v1/chat/completions 等端点，极大提升了与现有生态的兼容性。

四、Docker 容器化 SGLang 部署（带 GPU 支持）

对于追求环境隔离与便捷迁移的生产级部署，Docker容器化是首选方案。它借助NVIDIA Container Toolkit直接调用GPU，避免了宿主机复杂依赖环境带来的问题。

第一步，拉取官方提供的GPU版本镜像：

docker pull sg-lm/sglang:latest-cu121

随后，通过docker run命令启动容器。需要将存放模型的本地目录挂载到容器内部，并正确配置端口映射：

docker run -d --gpus all -v /data/models:/models -p 30000:30000 sg-lm/sglang:latest-cu121 serve /models/Qwen3.6-35B-A3B-FP8 --host 0.0.0.0 --port 30000 --tp 2 --enable-mtp --mtp-num-speculative-tokens 3 --max-num-seqs 64

参数 --max-num-seqs 64 用于限制最大并发序列数，有助于在资源受限时维持服务的稳定性。

五、低显存设备适配启动（RTX 3090 / 4090 单卡）

仅配备单张24GB显存显卡（如RTX 3090或4090）？通过针对性参数优化，同样可以稳定运行。核心策略是降低KV缓存精度并严格控制序列长度，防止显存溢出。

主要调整以下两个参数：

1. 使用 --kv-cache-dtype int8 将KV缓存精度从默认的FP16降至INT8，可显著节约显存。

2. 通过 --max-num-batched-tokens 4096 限制单批处理的最大令牌数，控制峰值显存占用。

整合后的启动命令如下：

sglang serve /data/models/Qwen3.6-35B-A3B-Q4_K_M.gguf --host 0.0.0.0 --port 30000 --tp 1 --enable-mtp --mtp-num-speculative-tokens 2 --kv-cache-dtype int8 --max-num-batched-tokens 4096 --max-model-len 32768

此处 --tp 1 表示单卡运行，--max-model-len 32768 定义了模型支持的最大上下文长度。根据您的具体资源情况微调这些数值，即可在有限硬件下获得可用的推理服务。

SGLang实战：Qwen3.6-35B本地部署与高吞吐启动命令详解

一、标准 SGLang 启动命令（FP8 量化版）

二、启用专家并行的 MoE 专用启动命令

三、兼容 OpenAI API 的 SGLang 服务启动

四、Docker 容器化 SGLang 部署（带 GPU 支持）

五、低显存设备适配启动（RTX 3090 / 4090 单卡）

相关阅读

最新教程

最新资讯