如何使用 OpenAI Whisper 将语音转换为文字

使用 OpenAI Whisper 在本地实现语音转文字的详细指南。涵盖安装、环境配置及运行音频转换命令。

安装 FFmpeg 系统依赖. Whisper 依赖 FFmpeg 进行音频处理。在 macOS 上运行 'brew install ffmpeg'，或在 Ubuntu 上使用 'sudo apt update && sudo apt install ffmpeg' 安装。完成后，运行 'ffmpeg -version' 验证安装路径。
创建 Python 虚拟环境. 在工作目录中运行 'python3 -m venv whisper-env' 创建环境。通过 'source whisper-env/bin/activate' 激活环境，确保后续所有依赖均安装在独立容器内，避免与系统全局库冲突。
通过 pip 安装 Whisper. 在激活的虚拟环境中，执行 'pip install -U openai-whisper'。该命令会自动下载并安装 Whisper 框架及其核心组件。等待安装完成，检查依赖树是否完整。
运行音频转录命令. 使用终端导航至包含音频文件的目录。运行 'whisper audio.mp3 --model base'，其中 audio.mp3 为文件名。系统会自动下载模型权重文件，并开始分析音频流，在终端中实时打印输出结果。
选择合适的模型尺寸. Whisper 提供 tiny, base, small, medium, large 等模型版本。对于中文转录，建议使用 '--model medium' 或 '--model large-v3' 以获得最佳准确度。若硬件资源受限，请回退至 small 模型。
获取转录输出文件. 任务完成后，Whisper 会自动在当前目录下生成多种格式的文件，包括 .txt, .srt, .vtt, .json 和 .tsv。通过查看这些文件，即可获得时间轴精准的转录文本。