如何使用 OpenAI Whisper 将语音转换为文字
使用 OpenAI Whisper 在本地实现语音转文字的详细指南。涵盖安装、环境配置及运行音频转换命令。
- 安装 FFmpeg 系统依赖. Whisper 依赖 FFmpeg 进行音频处理。在 macOS 上运行 'brew install ffmpeg',或在 Ubuntu 上使用 'sudo apt update && sudo apt install ffmpeg' 安装。完成后,运行 'ffmpeg -version' 验证安装路径。
- 创建 Python 虚拟环境. 在工作目录中运行 'python3 -m venv whisper-env' 创建环境。通过 'source whisper-env/bin/activate' 激活环境,确保后续所有依赖均安装在独立容器内,避免与系统全局库冲突。
- 通过 pip 安装 Whisper. 在激活的虚拟环境中,执行 'pip install -U openai-whisper'。该命令会自动下载并安装 Whisper 框架及其核心组件。等待安装完成,检查依赖树是否完整。
- 运行音频转录命令. 使用终端导航至包含音频文件的目录。运行 'whisper audio.mp3 --model base',其中 audio.mp3 为文件名。系统会自动下载模型权重文件,并开始分析音频流,在终端中实时打印输出结果。
- 选择合适的模型尺寸. Whisper 提供 tiny, base, small, medium, large 等模型版本。对于中文转录,建议使用 '--model medium' 或 '--model large-v3' 以获得最佳准确度。若硬件资源受限,请回退至 small 模型。
- 获取转录输出文件. 任务完成后,Whisper 会自动在当前目录下生成多种格式的文件,包括 .txt, .srt, .vtt, .json 和 .tsv。通过查看这些文件,即可获得时间轴精准的转录文本。