Whisper本地离线部署指南:QClaw语音转文字实操教程
想象一下这个场景:你刚刚开完一个长达一小时的头脑风暴会议,手机里录满了关键发言。你想把这些语音立刻转成文字存档,又不想把敏感文件传到任何云上,担心隐私泄露。这时候,QClaw和本地Whisper模型的组合,就是你的“终极解法”。它完全离线运行,无需配置复杂的环境变量,下载解压就能用。识别结果可以直接写入本地文件,甚至连保存路径都能用一句话指定。
安装 Whisper 技能并启用本地识别能力
这一步是整个流程的地基。没装好这个技能,后面你发给“龙虾”的任何指令,它都会回复你一句“抱歉,我不懂这个功能”。
打开你的浏览器,访问 SkillHub 的官方地址:https://skillhub.tencent.com/#featured。
在搜索框里输入“Openai Whisper”,找到那个官方标注了「本地离线语音转文本」的技能卡片,然后点一下「一键安装」。
安装过程走的是国内的高速镜像,通常十来秒就能完事,你不需要进行任何手动解压或者复制文件的操作。
【这里有个不容忽视的细节:安装完成后,一定要重启 QClaw 主程序】。不然的话,哪怕你的微信头像亮了,向“龙虾”发送的任何识别指令都不会被响应。
通过微信“龙虾”好友直发语音转文字
这个功能最适合处理60秒以内、语速清晰、背景安静的短语音。比如,你临时想到一个待办事项,或者快速记录一个灵感闪光点,都特别方便。
有两种玩法,你可以根据习惯选择:
方法一:语音+指令组合发送
第一步:在微信中打开与“龙虾”的聊天窗口,确认它的头像右下角亮着绿色的在线标识。
第二步:长按输入框右侧的麦克风图标,录制一段不超过60秒的语音,松手后立即发送。
第三步:紧接着,发送一条纯文字指令,格式是:转文字,存为D:QClaw今日速记.txt(路径可以自定义,但必须包含完整的盘符和.txt后缀)。
第四步:等待3到8秒,QClaw就会调用本地的Whisper引擎完成识别,文件即时生成。如果超过10秒没反应,你得回头检查一下是不是忘了重启主程序。
方法二:发语音后单独触发识别
这个方式比较灵活。你可以先发送语音,过两秒后再发送文字指令:识别上一条语音,输出到D:QClaw草稿临时记录.md。
需要注意的是,上一条消息必须是语音,不能是图片或文字,否则会收到“未检测到可识别语音”的报错。
上传音频文件后批量识别
如果你处理的语音超过60秒,或者背景有音乐、多人交谈、方言口音较重,这个模式就更合适了。它的精度更高,还能保留原始音频文件方便你后续核对。
用手机录音App录好后,建议导出为 .m4a(iOS)或 .wa v(Android推荐) 格式,尽量避免使用压缩率过高的.mp3。
然后,通过QQ浏览器的「跨屏穿越」功能,把文件一键发送到电脑的默认下载目录(通常是在D:Downloads)。
接着,在微信里给“龙虾”发送指令:识别D:Downloads会议_20260618.m4a,输出到D:QClaw整理正式纪要.txt。
QClaw会立刻校验文件是否存在、格式是否支持。如果路径不对或者文件被占用,它会返回一个明确的提示,比如“找不到该文件”或者“文件正在被其他程序使用,请关闭音频播放器后重试”。
开启语音收件箱实现自动归类转写
如果你每天都要处理很多段语音,又希望它们能按日期、主题自动归类,那么“语音收件箱”模式能帮你省去每次都要手动输入路径的麻烦。
你只需要给“龙虾”发送一条文字:开启语音收件箱。
收到指令后,QClaw会自动在本地创建一个名为“D:QClawVoiceInbox”的文件夹,并返回一个动态二维码。
用手机QQ浏览器扫描这个二维码,就能进入一个上传页面,选择语音文件提交就可以了。上传成功后,QClaw会在5秒内自动执行Whisper识别,并将结果存储到“D:QClawVoiceInbox20260618152347.txt”这个带有时间戳的文件里。
特别提醒一下:当你下次再发送“开启语音收件箱”指令时,旧的二维码会失效,新码会绑定一个新的路径。【旧的收件箱不会清空,但新上传的文件只会进入新的目录】。这点在设计工作流时值得留意。
