Cómo convertir voz a texto con Whisper

OpenAI Whisper es un modelo de reconocimiento automático de voz que convierte audio a texto con alta precisión en múltiples idiomas. Funciona completamente offline y ofrece varios modelos según la precisión y velocidad requeridas.

Instala Python y pip. Verifica que tengas Python 3.8 o superior instalado ejecutando python --version en la terminal. Si no lo tienes, descarga Python desde python.org. Asegúrate de que pip esté instalado ejecutando pip --version.
Instala OpenAI Whisper. Abre la terminal y ejecuta pip install openai-whisper. La instalación incluye las dependencias necesarias como torch y ffmpeg. El proceso puede tardar varios minutos dependiendo de tu conexión.
Prepara tu archivo de audio. Coloca el archivo de audio en una carpeta accesible desde la terminal. Whisper acepta formatos mp3, mp4, wav, m4a, flac y otros. El archivo no necesita conversión previa, Whisper maneja la compatibilidad automáticamente.
Selecciona el modelo apropiado. Whisper ofrece varios modelos: tiny (más rápido, menos preciso), base, small, medium y large (más lento, más preciso). Para uso general, el modelo base ofrece un buen equilibrio entre velocidad y precisión.
Ejecuta la transcripción básica. En la terminal, navega hasta la carpeta con tu audio usando cd ruta/a/tu/carpeta. Ejecuta whisper nombre_archivo.mp3 para transcribir con el modelo base. Whisper descargará el modelo automáticamente en la primera ejecución.
Especifica idioma y modelo. Para mejor precisión, especifica el idioma con --language es y el modelo con --model large. El comando completo sería whisper audio.mp3 --language es --model large. Esto optimiza el reconocimiento para español.
Configura el formato de salida. Whisper genera automáticamente archivos .txt, .vtt, .srt y .json. Para obtener solo texto plano, agrega --output_format txt. Para subtítulos, usa --output_format srt. Los archivos se guardan en la misma carpeta del audio original.