Python语音转文本库推荐与测评对比

2026-06-01阅读 0热度 0

其他

离线本地语音识别：Whisper 模型（无需联网）

Whisper 工具完全在本地运行，无需任何 API 密钥或网络连接。它能处理长音频、支持多语种翻译，但要求本地硬件具备一定算力。简单来说，用自己的机器跑模型，无调用次数限制，不依赖外部网络。

1. 环境配置

1.1 基础依赖安装

首先安装必备库：

pip install openai-whisper
# 额外依赖（音频解码必备）
pip install ffmpeg-python

Windows、macOS、Linux 均需安装 ffmpeg 并配置环境变量。官方下载地址：ffmpeg.org/

2. 离线识别完整代码

代码非常简洁，几行即可运行：

import whisper

# 加载模型：tiny/base/small/medium/large 模型越小速度越快、精度越低
model = whisper.load_model("base")

# 语音转文字
result = model.transcribe("test.mp3")  # 支持 mp3/wav/flac 等几乎所有音频格式
print("识别结果：")
print(result["text"])

模型选型参考

模型	速度	精度	适用场景
tiny	最快	一般	快速测试、简单任务
base	较快	良好	日常使用（首选）
small	中等	较好	高准确率要求
large	最慢	最高	专业场景、复杂口音

核心优势

完全离线运行，无调用次数限制
支持长音频、中英文混合、嘈杂环境
兼容 mp3、wav、flac、m4a 等主流音频格式

实时麦克风语音转文字（在线与离线方案）

1. 百度API + 麦克风实时转写

如需边说话边输出文字，需要额外安装录音库：

pip install pyaudio

配合百度 SDK 即可实现实时语音转文字体验。

2. Whisper 实时麦克风转写

另一种方案：使用 Whisper 搭配 pyaudio 实时采集音频，分段送入模型识别。虽然延迟略高于专业语音助手，但对个人项目来说效果已足够优秀。