免Token本地AI助手推荐：GPUStack+OpenClaw无限使用测评

2026-06-11阅读 0热度 0

人工智能深度学习

这两年，越来越多团队开始把AI接进日常的工作流里。但很快，一个很现实的问题就摆在面前了：

模型用得越多，Token花得越快，成本和心理压力也跟着往上窜。

很多人一边依赖AI提效，一边又不得不“省着用”“少让它多想”。到了最后，AI反而成了一种被精打细算的消耗品，完全背离了提效的初衷。

但如果AI能跑在自己的GPU上呢？不按Token计费、可以随时对话、长期运行在协作工具里——这样它才更像一个真正的“工作助手”。

基于GPUStack提供的本地模型能力，结合OpenClaw（支持WhatsApp、Telegram、Discord、Slack、飞书等多种协作平台）与飞书，这篇文章会一步步演示，如何构建一个可真实使用、可持续运行、几乎不用再惦记Token消耗的本地AI助手。

本文内容

使用GPUStack部署模型
飞书机器人应用创建与权限配置
OpenClaw的安装、配置与关键注意事项
飞书侧首次授权与连通性测试
实战示例：让小助手给GPUStack项目标星
小助手内置指令说明
OpenClaw实用命令与资源入口

一、使用GPUStack部署模型并准备接入信息

在接入OpenClaw之前，我们得先在GPUStack里把模型部署好，并拿到模型服务的访问信息。

这节以Qwen3.5-35B-A3B为例，演示从自定义推理后端→部署模型→获取接入信息的完整流程。

1. 准备环境与版本说明

GPUStack版本：v2.0.3
自定义推理后端镜像：
swr.cn-south-1.myhuaweicloud.com/gpustack/vllm-openai:qwen3_5
模型权重：Qwen/Qwen3.5-35B-A3B

⚠️ OpenClaw对模型上下文窗口有要求：最小16K，建议128K及以上。

2. 配置自定义推理后端（vLLM）

在GPUStack控制台中，进入：

「推理后端」→「编辑vLLM」→「添加版本」

3. 部署Qwen3.5-35B-A3B模型

参数示例：

--tensor-parallel-size=2
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--reasoning-parser qwen3
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--speculative-config '{"method": "mtp", "num_speculative_tokens": 1}'

如果遇到：

Error 803: system has unsupported display driver / cuda driver combination

可以试试添加环境变量：

LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/local/nvidia/lib:/usr/lib/x86_64-linux-gnu

4. 获取GPUStack模型接入信息

需要记下以下三项：

API Base URL
Model ID
API Key（在GPUStack中自行创建）

二、飞书应用配置

1. 账号说明

飞书个人账号没法创建机器人应用。
需要用企业/组织身份，不过个人用户也可以免费创建。

创建方式（桌面端）：

飞书左下角「⋯」→登录更多账号
选择创建新账户
角色选择企业或组织负责人

创建完成后，按提示设置姓名与企业/组织名称：

2. 创建企业自建应用

打开https://open.feishu.cn/app?lang=zh-CN
登录企业/组织账号
点击创建企业自建应用
填写应用名称与描述（图标可选）

3. 启用机器人能力

左侧菜单进入添加应用能力
添加机器人能力

4. 批量导入权限

进入权限管理→批量导入，用以下JSON覆盖默认权限配置：

{
  "scopes": {
    "tenant": [
      "aily:file:read",
      "aily:file:write",
      "application:application.app_message_stats.overview:readonly",
      "application:application:self_manage",
      "application:bot.menu:write",
      "contact:contact.base:readonly",
      "contact:user.employee_id:readonly",
      "corehr:file:download",
      "event:ip_list",
      "im:chat.access_event.bot_p2p_chat:read",
      "im:chat.members:bot_access",
      "im:message",
      "im:message.group_at_msg:readonly",
      "im:message.p2p_msg:readonly",
      "im:message:readonly",
      "im:message:send_as_bot",
      "im:resource"
    ],
    "user": [
      "aily:file:read",
      "aily:file:write",
      "im:chat.access_event.bot_p2p_chat:read"
    ]
  }
}

⚠️ 从公众号复制时，注意空格可能被替换成NBSP字符。

提交权限申请：

⚠️ 权限变更后必须创建并发布新版本，否则不生效。

记下App ID / App Secret：

飞书侧还有一项配置，得在接入OpenClaw之后再进行，后面会说明。

三、安装并配置OpenClaw

演示环境：Ubuntu 24.04

1. 一键安装

curl -fsSL https://openclaw.ai/install.sh | bash

脚本会自动安装Node、Git等依赖。

熟悉Linux/Node的用户，推荐用fnm + pnpm手动安装，Node版本管理更清晰。手动安装后需要执行：

openclaw onboard --install-daemon

2. 交互式配置向导

Model/Auth Provider
选择Custom Provider (Any OpenAI or Anthropic compatible endpoint)

填写GPUStack的API Base URL / API Key

Channel选择Feishu / Lark

填写App ID / App Secret，
Group chat policy建议选：

Open - respond in all groups (requires mention)

3. 手动调整上下文窗口（必做）

OpenClaw默认上下文长度是4096，需要手动改一下。

vim ~/.openclaw/openclaw.json

本文示例中默认上下文长度被设成4096，不同OpenClaw版本或模型下出现差异都属正常，不用深究。

重启网关：

openclaw gateway restart

4. 设置飞书事件订阅方式（关键）

把事件订阅方式设为长连接，并添加接收消息事件：

⚠️ 改完之后必须创建并发布新版本，否则机器人收不到消息。

四、首次授权与测试

在飞书中向机器人发一条消息
首次会提示Pairing授权
在服务器上执行：

openclaw pairing approve feishu

如果出现反复授权，并提示：

duplicate plugin id detected

可以试试：

rm -rf ~/.openclaw/extensions/feishu
openclaw gateway restart

五、实战示例：让机器人给GPUStack项目标星

1. 准备GitHub PAT

使用Tokens (classic)
勾选repo权限

2. 写入环境变量

vim ~/.openclaw/.env

重启：

openclaw gateway restart

3. 飞书中发送指令

六、常用指令说明

/new：开启新会话
/status：查看Bot状态
/reset：重置上下文
/model：查看/切换模型

七、OpenClaw实用命令与资源入口

常用CLI命令

openclaw logs --follow
openclaw doctor
openclaw gateway --help
openclaw dashboard
openclaw tui

文档与生态

https://docs.openclaw.ai
https://clawhub.ai

结语：当AI成为基础设施，而不是消耗品

回过头来看，Token焦虑的本质，并不是模型贵，而是AI被当成了一种“外部消耗资源”。

当模型跑在云端、能力掌握在别人手里时，我们习惯了精打细算、限制使用、控制调用频率。

而一旦模型真正跑在自己的GPU上，当推理能力、上下文和工具调用都变成基础设施的一部分，AI的角色也随之发生了变化——

它不再是一次次付费调用的API，而是一个随时可用、长期在线、持续演进的工作助手。

这正是GPUStack与OpenClaw组合所带来的意义：让AI从“成本项”，回归为“生产力”。

如果你已经有GPU资源，不妨亲手试一次，把AI真正接进你的日常工作流里。

当你不再关心Token的时候，你才会真正开始用好AI。