Cómo convertir voz a texto con Whisper
OpenAI Whisper es un modelo de reconocimiento automático de voz que convierte audio a texto con alta precisión en múltiples idiomas. Funciona completamente offline y ofrece varios modelos según la precisión y velocidad requeridas.
- Instala Python y pip. Verifica que tengas Python 3.8 o superior instalado ejecutando python --version en la terminal. Si no lo tienes, descarga Python desde python.org. Asegúrate de que pip esté instalado ejecutando pip --version.
- Instala OpenAI Whisper. Abre la terminal y ejecuta pip install openai-whisper. La instalación incluye las dependencias necesarias como torch y ffmpeg. El proceso puede tardar varios minutos dependiendo de tu conexión.
- Prepara tu archivo de audio. Coloca el archivo de audio en una carpeta accesible desde la terminal. Whisper acepta formatos mp3, mp4, wav, m4a, flac y otros. El archivo no necesita conversión previa, Whisper maneja la compatibilidad automáticamente.
- Selecciona el modelo apropiado. Whisper ofrece varios modelos: tiny (más rápido, menos preciso), base, small, medium y large (más lento, más preciso). Para uso general, el modelo base ofrece un buen equilibrio entre velocidad y precisión.
- Ejecuta la transcripción básica. En la terminal, navega hasta la carpeta con tu audio usando cd ruta/a/tu/carpeta. Ejecuta whisper nombre_archivo.mp3 para transcribir con el modelo base. Whisper descargará el modelo automáticamente en la primera ejecución.
- Especifica idioma y modelo. Para mejor precisión, especifica el idioma con --language es y el modelo con --model large. El comando completo sería whisper audio.mp3 --language es --model large. Esto optimiza el reconocimiento para español.
- Configura el formato de salida. Whisper genera automáticamente archivos .txt, .vtt, .srt y .json. Para obtener solo texto plano, agrega --output_format txt. Para subtítulos, usa --output_format srt. Los archivos se guardan en la misma carpeta del audio original.