免Token本地AI助手推荐:GPUStack+OpenClaw无限使用测评
这两年,越来越多团队开始把AI接进日常的工作流里。但很快,一个很现实的问题就摆在面前了:
模型用得越多,Token花得越快,成本和心理压力也跟着往上窜。
很多人一边依赖AI提效,一边又不得不“省着用”“少让它多想”。到了最后,AI反而成了一种被精打细算的消耗品,完全背离了提效的初衷。
但如果AI能跑在自己的GPU上呢?不按Token计费、可以随时对话、长期运行在协作工具里——这样它才更像一个真正的“工作助手”。
基于GPUStack提供的本地模型能力,结合OpenClaw(支持WhatsApp、Telegram、Discord、Slack、飞书等多种协作平台)与飞书,这篇文章会一步步演示,如何构建一个可真实使用、可持续运行、几乎不用再惦记Token消耗的本地AI助手。
本文内容
- 使用GPUStack部署模型
- 飞书机器人应用创建与权限配置
- OpenClaw的安装、配置与关键注意事项
- 飞书侧首次授权与连通性测试
- 实战示例:让小助手给GPUStack项目标星
- 小助手内置指令说明
- OpenClaw实用命令与资源入口
一、使用GPUStack部署模型并准备接入信息
在接入OpenClaw之前,我们得先在GPUStack里把模型部署好,并拿到模型服务的访问信息。
这节以Qwen3.5-35B-A3B为例,演示从自定义推理后端→部署模型→获取接入信息的完整流程。
1. 准备环境与版本说明
- GPUStack版本:v2.0.3
- 自定义推理后端镜像:
swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-openai:qwen3_5 - 模型权重:Qwen/Qwen3.5-35B-A3B
⚠️ OpenClaw对模型上下文窗口有要求:最小16K,建议128K及以上。
2. 配置自定义推理后端(vLLM)
在GPUStack控制台中,进入:
「推理后端」→「编辑vLLM」→「添加版本」
3. 部署Qwen3.5-35B-A3B模型
参数示例:
--tensor-parallel-size=2
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--reasoning-parser qwen3
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--speculative-config '{"method": "mtp", "num_speculative_tokens": 1}'
如果遇到:
Error 803: system has unsupported display driver / cuda driver combination
可以试试添加环境变量:
LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu
4. 获取GPUStack模型接入信息
需要记下以下三项:
- API Base URL
- Model ID
- API Key(在GPUStack中自行创建)
二、飞书应用配置
1. 账号说明
飞书个人账号没法创建机器人应用。
需要用企业/组织身份,不过个人用户也可以免费创建。
创建方式(桌面端):
- 飞书左下角「⋯」→登录更多账号
- 选择创建新账户
- 角色选择企业或组织负责人
创建完成后,按提示设置姓名与企业/组织名称:
2. 创建企业自建应用
- 打开https://open.feishu.cn/app?lang=zh-CN
- 登录企业/组织账号
- 点击创建企业自建应用
- 填写应用名称与描述(图标可选)
3. 启用机器人能力
- 左侧菜单进入添加应用能力
- 添加机器人能力
4. 批量导入权限
进入权限管理→批量导入,用以下JSON覆盖默认权限配置:
{
"scopes": {
"tenant": [
"aily:file:read",
"aily:file:write",
"application:application.app_message_stats.overview:readonly",
"application:application:self_manage",
"application:bot.menu:write",
"contact:contact.base:readonly",
"contact:user.employee_id:readonly",
"corehr:file:download",
"event:ip_list",
"im:chat.access_event.bot_p2p_chat:read",
"im:chat.members:bot_access",
"im:message",
"im:message.group_at_msg:readonly",
"im:message.p2p_msg:readonly",
"im:message:readonly",
"im:message:send_as_bot",
"im:resource"
],
"user": [
"aily:file:read",
"aily:file:write",
"im:chat.access_event.bot_p2p_chat:read"
]
}
}
⚠️ 从公众号复制时,注意空格可能被替换成NBSP字符。
提交权限申请:
⚠️ 权限变更后必须创建并发布新版本,否则不生效。
记下App ID / App Secret:
飞书侧还有一项配置,得在接入OpenClaw之后再进行,后面会说明。
三、安装并配置OpenClaw
演示环境:Ubuntu 24.04
1. 一键安装
curl -fsSL https://openclaw.ai/install.sh | bash
脚本会自动安装Node、Git等依赖。
熟悉Linux/Node的用户,推荐用fnm + pnpm手动安装,Node版本管理更清晰。手动安装后需要执行:
openclaw onboard --install-daemon
2. 交互式配置向导
- Model/Auth Provider
选择Custom Provider (Any OpenAI or Anthropic compatible endpoint)
- 填写GPUStack的API Base URL / API Key
- Channel选择
Feishu / Lark
填写App ID / App Secret,
Group chat policy建议选:
Open - respond in all groups (requires mention)
3. 手动调整上下文窗口(必做)
OpenClaw默认上下文长度是4096,需要手动改一下。
vim ~/.openclaw/openclaw.json
本文示例中默认上下文长度被设成4096,不同OpenClaw版本或模型下出现差异都属正常,不用深究。
重启网关:
openclaw gateway restart
4. 设置飞书事件订阅方式(关键)
把事件订阅方式设为长连接,并添加接收消息事件:
⚠️ 改完之后必须创建并发布新版本,否则机器人收不到消息。
四、首次授权与测试
- 在飞书中向机器人发一条消息
- 首次会提示Pairing授权
- 在服务器上执行:
openclaw pairing approve feishu
如果出现反复授权,并提示:
duplicate plugin id detected
可以试试:
rm -rf ~/.openclaw/extensions/feishu
openclaw gateway restart
五、实战示例:让机器人给GPUStack项目标星
1. 准备GitHub PAT
- 使用Tokens (classic)
- 勾选
repo权限
2. 写入环境变量
vim ~/.openclaw/.env
重启:
openclaw gateway restart
3. 飞书中发送指令
六、常用指令说明
/new:开启新会话/status:查看Bot状态/reset:重置上下文/model:查看/切换模型
七、OpenClaw实用命令与资源入口
常用CLI命令
openclaw logs --follow
openclaw doctor
openclaw gateway --help
openclaw dashboard
openclaw tui
文档与生态
- https://docs.openclaw.ai
- https://clawhub.ai
结语:当AI成为基础设施,而不是消耗品
回过头来看,Token焦虑的本质,并不是模型贵,而是AI被当成了一种“外部消耗资源”。
当模型跑在云端、能力掌握在别人手里时,我们习惯了精打细算、限制使用、控制调用频率。
而一旦模型真正跑在自己的GPU上,当推理能力、上下文和工具调用都变成基础设施的一部分,AI的角色也随之发生了变化——
它不再是一次次付费调用的API,而是一个随时可用、长期在线、持续演进的工作助手。
这正是GPUStack与OpenClaw组合所带来的意义:让AI从“成本项”,回归为“生产力”。
如果你已经有GPU资源,不妨亲手试一次,把AI真正接进你的日常工作流里。
当你不再关心Token的时候,你才会真正开始用好AI。
























