WorkBuddy双实例本地模型部署指南:月省8500积分 2026-06-28阅读 0热度 0 Buddy # 前言 在 WorkBuddy 平台上部署双实例本地模型,听起来有点折腾,但一旦跑通,积分消耗的压力会大大降低。这篇文章从硬件选型到 LM Studio 配置,再到 API 连通性测试和 WorkBuddy 双实例切换,每一步都做了验证。如果你正好有本地部署的需求,希望能帮你少走弯路。 **适用读者**:有本地部署需求、希望用本地模型降低 WorkBuddy 积分消耗的开发者 **前置条件**:已安装 WorkBuddy 客户端,有 LM Studio 或兼容 OpenAI API 的本地服务 --- ## 一、硬件环境确认 ### 1.1 配置清单 | 项目 | 型号/规格 | |------|----------| | CPU | AMD Ryzen AI MAX 395 | | GPU | Radeon 8060S 核显 | | 内存 | 128 GB(96 GB GPU 共享内存) | | 系统 | Windows 11 | ### 1.2 关键指标 - **GPU 共享内存 96 GB**:这是跑大模型的核心瓶颈。MoE 模型的参数量越大,所需显存自然越多。 - **128 GB 总内存**:足够同时运行模型、WorkBuddy 和其他日常应用。 ### 1.3 踩坑记录 > **问题**:一开始直接上 32B 模型,系统直接卡死。 > **原因**:没有给系统留足内存。 > **解决**:模型大小控制在 GPU 共享内存的 80% 以内,留出 20% 给系统,瞬间稳了。 --- ## 二、LM Studio 安装与配置 ### 2.1 下载 LM Studio 1. 访问 [https://lmstudio.ai/](https://lmstudio.ai/) 2. 下载 Windows 版本(`lmstudio-x64-setup.exe`) 3. 安装到默认路径:`C:\Users\<用户名>\AppData\Local\Programs\lmstudio` ### 2.2 搜索并下载模型 LM Studio 内置了模型搜索功能,支持多种格式,操作很简单: 1. 打开 LM Studio,点击左侧 **搜索图标**(?) 2. 在搜索框输入模型名称,比如 `Qwen3.6-35B-A3B` 3. 选择版本(推荐 `Q4_K_M` 量化版本,大小和质量最平衡) 4. 点击 **Download** 按钮 **模型推荐清单**: | 模型 | 参数量 | 量化版本 | 所需显存 | 用途 | |------|--------|---------|---------|------| | Qwen3.6-35B-A3B | 35B | Q4_K_M | ~20 GB | 主模型(深度推理) | | Qwen3-Coder 30B-A3B | 30B | Q4_K_M | ~18 GB | 代码生成 | | DeepSeek-R1-Distill-Qwen-32B | 32B | Q4_K_M | ~19 GB | 推理分析 |  ### 2.3 模型存储路径 默认存储位置:`C:\Users\<用户名>\.cache\lmstudio` > **建议**:如果 C 盘空间吃紧,可以在 LM Studio 设置里改下载路径,挪到其他分区。 --- ## 三、启动本地 API 服务 ### 3.1 配置 API 服务 1. 点击左侧 **服务器图标**(?️) 2. 选择已下载的模型 3. 设置 **端口号**:默认 `1234`,如果要跑多实例,记得改成不同端口 4. 点击 **Start Server**  ### 3.2 测试 API 连通性 打开终端(PowerShell 或 CMD),运行以下命令: ```bash curl http://localhost:1234/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3.6-35b-a3b", "messages": [{"role": "user", "content": "你好"}], "temperature": 0.7 }' ``` > **预期结果**:返回包含 `你好` 等文字的 JSON 响应。 > **失败排查**: > - 端口被占用 → 换 `1235`、`1236` 等端口 > - 防火墙拦截 → 添加入站规则放行 > - 模型加载失败 → 检查显存是否足够 --- ## 四、WorkBuddy 双实例配置 ### 4.1 什么是双实例 WorkBuddy 支持同时运行多个会话(Instance),可以分别接入不同模型: | 实例 | 接入对象 | 用途 | |------|---------|------| | **Instance 1** | LM Studio(本地模型) | 深度推理、代码生成(不消耗积分) | | **Instance 2** | WorkBuddy 在线模型 | 快速任务、临时查询 | ### 4.2 配置步骤 #### 第一步:创建工作空间 1. 打开 WorkBuddy 2. 点击左侧 **工作空间** → **创建新空间** 3. 命名(例如 `本地模型`) 4. 选择本地文件夹路径 #### 第二步:接入本地 API 1. 进入工作空间设置 2. 找到 **模型配置** 或 **API 设置** 3. 添加自定义 OpenAI 兼容 API: ``` API 地址:http://localhost:1234/v1 API Key:任意字符串(LM Studio 默认不校验) ``` 4. 保存并测试 #### 第三步:切换 thinking 模式 WorkBuddy 支持 `thinking` 模式控制: - **thinking = ON**:启用深度推理,适合复杂任务 - **thinking = OFF**:快速响应,适合简单任务 > **实战技巧**:Instance 1 设置 thinking=ON(深度推理),Instance 2 设置 thinking=OFF(快速任务),根据任务复杂度灵活切换。  --- ## 五、踩坑记录与解决方案 ### 5.1 问题一:模型加载慢 > **症状**:LM Studio 启动后模型加载超过 2 分钟。 > **原因**:硬盘 IO 瓶颈(HDD 而非 SSD)。 > **解决**:将模型文件移到 SSD 分区;使用量化模型减少体积。 ### 5.2 问题二:显存不足 > **症状**:模型加载失败,LM Studio 报错 `out of memory`。 > **原因**:GPU 共享内存不足。 > **解决**: > - 换更小的模型(如 7B、14B 版本) > - 关闭其他占用显存的应用(浏览器、游戏等) > - 使用更低量化版本(Q3、Q2) ### 5.3 问题三:API 端口冲突 > **症状**:第二实例无法启动 API 服务。 > **原因**:端口已被占用。 > **解决**:检查端口占用情况: ```bash netstat -ano | findstr :1234 ``` > 换用空闲端口(如 `1235`、`1236`)。 > **踩坑小结**:这三个问题是初次部署最常见的坑。建议按顺序排查:先确认硬件 → 再测 API → 最后配 WorkBuddy。 --- ## 六、成本对比 ### 6.1 本地模型 vs 在线模型 | 项目 | 本地模型(LM Studio) | WorkBuddy 在线模型 | |------|---------------------|-------------------| | **成本** | 0 积分/次 | 10-800 积分/次 | | **速度** | 受硬件限制 | 受网络限制 | | **隐私** | 数据不出本机 | 数据上传云端 | | **离线可用** | 是 | 否 | ### 6.2 月度节省估算 假设每月: - 100 次简单问答(每次 20 积分)= 2000 积分 - 20 次代码生成(每次 200 积分)= 4000 积分 - 5 次深度调研(每次 500 积分)= 2500 积分 - **总计**:8500 积分 > **如果全部用本地模型**:节省 8500 积分 / 月。 --- ## 七、总结 ### 7.1 核心要点 1. **硬件评估优先**:确认显存、内存是否够用,再选模型。 2. **量化模型是平衡点**:Q4_K_M 在大小和质量之间取得最佳平衡。 3. **双实例切换**:复杂任务用本地模型(深度推理),简单任务用在线模型(快速响应)。 4. **定期维护**:清理旧模型、监控端口占用、更新 LM Studio。 ### 7.2 进阶方向 - **模型自动化切换**:根据任务类型自动选择本地/在线模型。 - **多模型对比**:同时运行 Qwen3、DeepSeek 等不同模型,对比输出质量。 - **自动化工作流**:结合 WorkBuddy 的定时任务功能,用本地模型自动执行内容创作。 --- ## 八、常见问题 FAQ ### Q1:我的电脑配置不够,能跑吗? 如果显存小于 8 GB,建议从 7B 参数量的模型开始尝试(如 Qwen2.5-7B)。虽然能力有限,但简单问答和文本处理完全够用。 ### Q2:LM Studio 和 WorkBuddy 必须一起用吗? 不是。WorkBuddy 支持接入任意 OpenAI 兼容 API。你可以用 Ollama、vLLM、text-generation-webui 等其他本地服务。 ### Q3:本地模型输出质量怎么样? 量化模型(Q4_K_M)的输出质量接近原始模型,日常使用中人眼很难区分。如果追求极致质量,可以用 Q6_K 或 Q8_0 量化版本,但显存占用也会相应增加。 ### Q4:如何检查当前端口是否被占用? **Windows**: ```bash netstat -ano | findstr :1234 ``` **macOS / Linux**: ```bash lsof -i :1234 ``` --- > **参考资料** > - WorkBuddy 官方文档:https://www.codebuddy.cn/docs > - LM Studio 文档:https://lmstudio.ai/docs > - Qwen 系列模型:https://github.com/QwenLM --- _本文根据实战经验撰写,如有问题欢迎在社区交流。_