WorkBuddy双实例本地模型部署指南：月省8500积分

2026-06-28阅读 0热度 0

Buddy

# 前言在 WorkBuddy 平台上部署双实例本地模型，听起来有点折腾，但一旦跑通，积分消耗的压力会大大降低。这篇文章从硬件选型到 LM Studio 配置，再到 API 连通性测试和 WorkBuddy 双实例切换，每一步都做了验证。如果你正好有本地部署的需求，希望能帮你少走弯路。 **适用读者**：有本地部署需求、希望用本地模型降低 WorkBuddy 积分消耗的开发者 **前置条件**：已安装 WorkBuddy 客户端，有 LM Studio 或兼容 OpenAI API 的本地服务 --- ## 一、硬件环境确认 ### 1.1 配置清单 | 项目 | 型号/规格 | |------|----------| | CPU | AMD Ryzen AI MAX 395 | | GPU | Radeon 8060S 核显 | | 内存 | 128 GB（96 GB GPU 共享内存） | | 系统 | Windows 11 | ### 1.2 关键指标 - **GPU 共享内存 96 GB**：这是跑大模型的核心瓶颈。MoE 模型的参数量越大，所需显存自然越多。 - **128 GB 总内存**：足够同时运行模型、WorkBuddy 和其他日常应用。 ### 1.3 踩坑记录 > **问题**：一开始直接上 32B 模型，系统直接卡死。 > **原因**：没有给系统留足内存。 > **解决**：模型大小控制在 GPU 共享内存的 80% 以内，留出 20% 给系统，瞬间稳了。 --- ## 二、LM Studio 安装与配置 ### 2.1 下载 LM Studio 1. 访问 [https://lmstudio.ai/](https://lmstudio.ai/) 2. 下载 Windows 版本（`lmstudio-x64-setup.exe`） 3. 安装到默认路径：`C:\Users\<用户名>\AppData\Local\Programs\lmstudio` ### 2.2 搜索并下载模型 LM Studio 内置了模型搜索功能，支持多种格式，操作很简单： 1. 打开 LM Studio，点击左侧 **搜索图标**（?） 2. 在搜索框输入模型名称，比如 `Qwen3.6-35B-A3B` 3. 选择版本（推荐 `Q4_K_M` 量化版本，大小和质量最平衡） 4. 点击 **Download** 按钮 **模型推荐清单**： | 模型 | 参数量 | 量化版本 | 所需显存 | 用途 | |------|--------|---------|---------|------| | Qwen3.6-35B-A3B | 35B | Q4_K_M | ~20 GB | 主模型（深度推理） | | Qwen3-Coder 30B-A3B | 30B | Q4_K_M | ~18 GB | 代码生成 | | DeepSeek-R1-Distill-Qwen-32B | 32B | Q4_K_M | ~19 GB | 推理分析 | ![屏幕截图 2026-06-20 235540.png](https://developer.qcloudimg.com/http-sa ve/yehe-12080659/77b0db998682af7d3681d2fe48d9e6bf.png) ### 2.3 模型存储路径默认存储位置：`C:\Users\<用户名>\.cache\lmstudio` > **建议**：如果 C 盘空间吃紧，可以在 LM Studio 设置里改下载路径，挪到其他分区。 --- ## 三、启动本地 API 服务 ### 3.1 配置 API 服务 1. 点击左侧 **服务器图标**（?️） 2. 选择已下载的模型 3. 设置 **端口号**：默认 `1234`，如果要跑多实例，记得改成不同端口 4. 点击 **Start Server** ![屏幕截图 2026-06-21 002348.png](https://developer.qcloudimg.com/http-sa ve/yehe-12080659/c48dcd5a30a61eea33b478926fa43b08.png) ### 3.2 测试 API 连通性打开终端（PowerShell 或 CMD），运行以下命令： ```bash curl http://localhost:1234/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3.6-35b-a3b", "messages": [{"role": "user", "content": "你好"}], "temperature": 0.7 }' ``` > **预期结果**：返回包含 `你好` 等文字的 JSON 响应。 > **失败排查**： > - 端口被占用 → 换 `1235`、`1236` 等端口 > - 防火墙拦截 → 添加入站规则放行 > - 模型加载失败 → 检查显存是否足够 --- ## 四、WorkBuddy 双实例配置 ### 4.1 什么是双实例 WorkBuddy 支持同时运行多个会话（Instance），可以分别接入不同模型： | 实例 | 接入对象 | 用途 | |------|---------|------| | **Instance 1** | LM Studio（本地模型） | 深度推理、代码生成（不消耗积分） | | **Instance 2** | WorkBuddy 在线模型 | 快速任务、临时查询 | ### 4.2 配置步骤 #### 第一步：创建工作空间 1. 打开 WorkBuddy 2. 点击左侧 **工作空间** → **创建新空间** 3. 命名（例如 `本地模型`） 4. 选择本地文件夹路径 #### 第二步：接入本地 API 1. 进入工作空间设置 2. 找到 **模型配置** 或 **API 设置** 3. 添加自定义 OpenAI 兼容 API： ``` API 地址：http://localhost:1234/v1 API Key：任意字符串（LM Studio 默认不校验） ``` 4. 保存并测试 #### 第三步：切换 thinking 模式 WorkBuddy 支持 `thinking` 模式控制： - **thinking = ON**：启用深度推理，适合复杂任务 - **thinking = OFF**：快速响应，适合简单任务 > **实战技巧**：Instance 1 设置 thinking=ON（深度推理），Instance 2 设置 thinking=OFF（快速任务），根据任务复杂度灵活切换。 ![屏幕截图 2026-06-21 004336.png](https://developer.qcloudimg.com/http-sa ve/yehe-12080659/12d9e5826f04f55c9f7e25e8e273e705.png) --- ## 五、踩坑记录与解决方案 ### 5.1 问题一：模型加载慢 > **症状**：LM Studio 启动后模型加载超过 2 分钟。 > **原因**：硬盘 IO 瓶颈（HDD 而非 SSD）。 > **解决**：将模型文件移到 SSD 分区；使用量化模型减少体积。 ### 5.2 问题二：显存不足 > **症状**：模型加载失败，LM Studio 报错 `out of memory`。 > **原因**：GPU 共享内存不足。 > **解决**： > - 换更小的模型（如 7B、14B 版本） > - 关闭其他占用显存的应用（浏览器、游戏等） > - 使用更低量化版本（Q3、Q2） ### 5.3 问题三：API 端口冲突 > **症状**：第二实例无法启动 API 服务。 > **原因**：端口已被占用。 > **解决**：检查端口占用情况： ```bash netstat -ano | findstr :1234 ``` > 换用空闲端口（如 `1235`、`1236`）。 > **踩坑小结**：这三个问题是初次部署最常见的坑。建议按顺序排查：先确认硬件 → 再测 API → 最后配 WorkBuddy。 --- ## 六、成本对比 ### 6.1 本地模型 vs 在线模型 | 项目 | 本地模型（LM Studio） | WorkBuddy 在线模型 | |------|---------------------|-------------------| | **成本** | 0 积分/次 | 10-800 积分/次 | | **速度** | 受硬件限制 | 受网络限制 | | **隐私** | 数据不出本机 | 数据上传云端 | | **离线可用** | 是 | 否 | ### 6.2 月度节省估算假设每月： - 100 次简单问答（每次 20 积分）= 2000 积分 - 20 次代码生成（每次 200 积分）= 4000 积分 - 5 次深度调研（每次 500 积分）= 2500 积分 - **总计**：8500 积分 > **如果全部用本地模型**：节省 8500 积分 / 月。 --- ## 七、总结 ### 7.1 核心要点 1. **硬件评估优先**：确认显存、内存是否够用，再选模型。 2. **量化模型是平衡点**：Q4_K_M 在大小和质量之间取得最佳平衡。 3. **双实例切换**：复杂任务用本地模型（深度推理），简单任务用在线模型（快速响应）。 4. **定期维护**：清理旧模型、监控端口占用、更新 LM Studio。 ### 7.2 进阶方向 - **模型自动化切换**：根据任务类型自动选择本地/在线模型。 - **多模型对比**：同时运行 Qwen3、DeepSeek 等不同模型，对比输出质量。 - **自动化工作流**：结合 WorkBuddy 的定时任务功能，用本地模型自动执行内容创作。 --- ## 八、常见问题 FAQ ### Q1：我的电脑配置不够，能跑吗？如果显存小于 8 GB，建议从 7B 参数量的模型开始尝试（如 Qwen2.5-7B）。虽然能力有限，但简单问答和文本处理完全够用。 ### Q2：LM Studio 和 WorkBuddy 必须一起用吗？不是。WorkBuddy 支持接入任意 OpenAI 兼容 API。你可以用 Ollama、vLLM、text-generation-webui 等其他本地服务。 ### Q3：本地模型输出质量怎么样？量化模型（Q4_K_M）的输出质量接近原始模型，日常使用中人眼很难区分。如果追求极致质量，可以用 Q6_K 或 Q8_0 量化版本，但显存占用也会相应增加。 ### Q4：如何检查当前端口是否被占用？ **Windows**： ```bash netstat -ano | findstr :1234 ``` **macOS / Linux**： ```bash lsof -i :1234 ``` --- > **参考资料** > - WorkBuddy 官方文档：https://www.codebuddy.cn/docs > - LM Studio 文档：https://lmstudio.ai/docs > - Qwen 系列模型：https://github.com/QwenLM --- _本文根据实战经验撰写，如有问题欢迎在社区交流。_

WorkBuddy双实例本地模型部署指南：月省8500积分

相关阅读

最新教程

最新资讯