Comment convertir la parole en texte avec Whisper

Whisper est le modèle de reconnaissance vocale d'OpenAI qui transcrit automatiquement l'audio en texte avec une précision remarquable. Il fonctionne hors ligne et supporte plus de 99 langues avec des modèles de tailles variées selon vos besoins.

Installez Whisper via pip. Ouvrez votre terminal et tapez `pip install openai-whisper`. Assurez-vous d'avoir Python 3.8 ou supérieur installé. L'installation télécharge automatiquement les dépendances nécessaires incluant PyTorch et ffmpeg.
Choisissez le modèle adapté. Sélectionnez un modèle selon vos ressources : `tiny` (39 MB, rapide), `base` (74 MB), `small` (244 MB), `medium` (769 MB), `large` (1550 MB, le plus précis). Plus le modèle est grand, plus la transcription sera précise mais lente.
Préparez votre fichier audio. Placez votre fichier audio dans un dossier accessible. Whisper accepte les formats MP3, WAV, M4A, FLAC et bien d'autres. Vérifiez que l'audio est audible et sans trop de bruit de fond pour optimiser la transcription.
Lancez la transcription en ligne de commande. Dans le terminal, tapez `whisper nom_fichier.mp3 --model small --language fr`. Remplacez `small` par le modèle choisi et `fr` par le code langue approprié. La transcription s'affiche dans le terminal et génère plusieurs fichiers de sortie.
Utilisez Whisper en Python. Créez un script Python avec `import whisper` puis `model = whisper.load_model('small')` et `result = model.transcribe('fichier.mp3')`. Le texte transcrit se trouve dans `result['text']`. Cette méthode offre plus de contrôle sur les paramètres.
Configurez les options avancées. Ajustez la température avec `--temperature 0.2` pour plus de cohérence, utilisez `--task translate` pour traduire vers l'anglais, ou `--word_timestamps True` pour obtenir les timestamps de chaque mot. Ces options améliorent la précision selon vos besoins.
Exportez dans le format souhaité. Whisper génère automatiquement des fichiers TXT, VTT, SRT et JSON. Spécifiez le répertoire de sortie avec `--output_dir dossier_sortie` et le format avec `--output_format srt` pour des sous-titres par exemple.