SGLang实战:Qwen3.6-35B本地部署与高吞吐启动命令详解
要在本地高效运行Qwen3.6-35B并充分发挥其推理吞吐量,SGLang推理框架是核心工具。该框架原生集成了MTP(多令牌预测)推测解码技术,能大幅提升令牌生成速度与并发处理能力,优化大模型推理效率。本文将详细解析几种主流的SGLang部署方案,您可以根据硬件配置和项目需求选择最合适的路径。
一、标准 SGLang 启动命令(FP8 量化版)
若您已获得FP8量化格式的模型权重并存储在本地路径,此方案最为简洁。它通过配置张量并行策略来调用多GPU资源,同时启用MTP进行加速。
首先,在环境中安装sglang:pip install sglang。
接着,确认您的模型文件存储路径,例如 /data/models/Qwen3.6-35B-A3B-FP8。
最后,执行核心启动指令:
sglang serve /data/models/Qwen3.6-35B-A3B-FP8 --host 0.0.0.0 --port 30000 --tp 2 --enable-mtp --mtp-num-speculative-tokens 3
参数 --tp 2 设定了张量并行度为2,即使用2块GPU。--enable-mtp 用于激活推测解码功能,而 --mtp-num-speculative-tokens 3 则定义了每次推测的令牌数量为3,您可根据实际负载微调此值以权衡速度与准确性。
二、启用专家并行的 MoE 专用启动命令
Qwen3.6-35B-A3B采用了混合专家架构,内部包含256个专家。部署此类模型时,必须显式启用专家并行策略,以避免因专家路由负载不均而引发的显存溢出或性能下降问题。
启动前,通过环境变量指定可用GPU,例如 CUDA_VISIBLE_DEVICES=0,1。
关键在于使用 --expert-parallel 参数,并通常需要配合更高的张量并行度(如 --tp=4)来更均衡地分配专家计算。
完整的启动命令参考如下:
sglang serve /data/models/Qwen3.6-35B-A3B-AWQ --host 0.0.0.0 --port 30000 --tp 4 --expert-parallel --enable-mtp --mtp-num-speculative-tokens 2 --reasoning-parser qwen3
请注意,此处额外指定了 --reasoning-parser qwen3,以确保模型特有的思维链格式能被正确解析。
三、兼容 OpenAI API 的 SGLang 服务启动
若您希望部署的服务能够被Claude Code、Ollama等工具或自研前端直接调用,启动一个兼容OpenAI API格式的服务至关重要。SGLang在此模式下仍能保持MTP加速能力。
首先,安装OpenAI扩展:pip install sglang[openai]。
规划好端口映射,例如将宿主机的30000端口映射至容器内的30000端口。
启动命令中,通过 --api-key 设置访问密钥(示例为sk-xxx),并指定Qwen专用的对话模板:
sglang serve /data/models/Qwen3.6-35B-A3B-Q4_K_M.gguf --host 0.0.0.0 --port 30000 --api-key sk-xxx --enable-mtp --mtp-num-speculative-tokens 4 --chat-template qwen3
服务启动后,将提供标准的 /v1/chat/completions 等端点,极大提升了与现有生态的兼容性。
四、Docker 容器化 SGLang 部署(带 GPU 支持)
对于追求环境隔离与便捷迁移的生产级部署,Docker容器化是首选方案。它借助NVIDIA Container Toolkit直接调用GPU,避免了宿主机复杂依赖环境带来的问题。
第一步,拉取官方提供的GPU版本镜像:
docker pull sg-lm/sglang:latest-cu121
随后,通过docker run命令启动容器。需要将存放模型的本地目录挂载到容器内部,并正确配置端口映射:
docker run -d --gpus all -v /data/models:/models -p 30000:30000 sg-lm/sglang:latest-cu121 serve /models/Qwen3.6-35B-A3B-FP8 --host 0.0.0.0 --port 30000 --tp 2 --enable-mtp --mtp-num-speculative-tokens 3 --max-num-seqs 64
参数 --max-num-seqs 64 用于限制最大并发序列数,有助于在资源受限时维持服务的稳定性。
五、低显存设备适配启动(RTX 3090 / 4090 单卡)
仅配备单张24GB显存显卡(如RTX 3090或4090)?通过针对性参数优化,同样可以稳定运行。核心策略是降低KV缓存精度并严格控制序列长度,防止显存溢出。
主要调整以下两个参数:
1. 使用 --kv-cache-dtype int8 将KV缓存精度从默认的FP16降至INT8,可显著节约显存。
2. 通过 --max-num-batched-tokens 4096 限制单批处理的最大令牌数,控制峰值显存占用。
整合后的启动命令如下:
sglang serve /data/models/Qwen3.6-35B-A3B-Q4_K_M.gguf --host 0.0.0.0 --port 30000 --tp 1 --enable-mtp --mtp-num-speculative-tokens 2 --kv-cache-dtype int8 --max-num-batched-tokens 4096 --max-model-len 32768
此处 --tp 1 表示单卡运行,--max-model-len 32768 定义了模型支持的最大上下文长度。根据您的具体资源情况微调这些数值,即可在有限硬件下获得可用的推理服务。
