本地模型部署详细教程:小白接入OpenClaw Hermes Agent获取token自由
OpenClaw、Hermes、Codex、Claude Code等Agent产品接连刷屏,开发者总算对“token”和“算力”有了真实体感。各家模型云厂商也跟风推出coding plan大促,算力从昔日的“冷板凳”一夜挤破门槛,连某国总统都亲自下场当中转站。但坦白讲,当前算力供应仍远超需求——大量用户反馈:怎么感觉被降智了?限速了?要实现真正的token自由,本地跑模型才是最务实的一条路。下面聊聊如何做到0 token养虾(即本地部署小模型)或养马(即本地部署大模型)。
先说一个前提:目前多数技术小白手里的设备是Windows系统,所以本文重点聚焦在Windows上跑大模型,让本地0 token调用OpenClaw、Hermes这类工具成为现实。
第一步,直接访问“牧马人本地推理引擎”官网(Herdsman-牧马人本地推理引擎),一键下载。该工具属于免安装应用,下载后直接打开即可。
下载后双击打开,会弹出新手引导界面,建议快速浏览一遍。随后进入设置模块。
在设置里,需要配置数据目录与存储目录。强烈建议将两个目录均指向D盘——单个模型动辄十几GB,放C盘极易撑爆系统盘。当然,若仅有一块C盘,此条只能略过。
接着打开模型区域,牧马人已按使用场景将模型分类。例如仅需对话聊天,就选择“智能对话”分类下的模型,点击一键下载,操作直观无门槛。
如有图片生成需求,则选择对应生图模型,如z-image、qwen-image-edit-2511等。
模型下载完毕后一键启动。启动时建议将上下文长度拉至最大,并开启思考模式——这样才能充分释放模型性能。
模型启动后即可回到应用界面进行对话、提交需求。你还能在界面上监控输入与输出的token速率。以我手头配置为例:i5第14代处理器、英伟达4050显卡、32GB内存,token输出速度约10t/s——这个速度完全够用。
如何将本地模型接入OpenClaw和Hermes Agent?
模型就绪,算力已本地待命。下一步是将这些算力“分配”给其他应用。这里需要借助FlowyAIPC。打开官网(FlowyAIPC — 让你的PC真正成为主动生产工具)下载安装——安装流程与常规Windows软件无异,不再赘述。
安装完成后启动FlowyAIPC,在顶部的模型选择区域选中“本地模型”,即可开始操作。
这里,本地模型与云端模型的唯一区别在于响应速度。在操作范围上,云端模型能做的事本地模型同样能完成:管理本地文件、采集网络数据、撰写文章、自动化运营,无一不可。比如让它汇总昨天AI圈的热点新闻,完全没有问题。
再如,编辑一篇文章并保存到公众号直接发布,也能轻松搞定。
简言之,FlowyAIPC基于OpenClaw打造,是一款桌面AI助手。相比OpenClaw,它对技术新手更友好:无需配置环境、无需API Key,真正做到开箱即用。















