Sprache zu Text mit Whisper umwandeln

OpenAI Whisper wandelt Sprache mit hoher Genauigkeit in Text um. Das Tool läuft lokal auf Ihrem Computer und unterstützt über 90 Sprachen ohne Cloud-Verbindung.

Python und pip installieren. Laden Sie Python 3.8 oder neuer von python.org herunter und installieren Sie es. Öffnen Sie die Eingabeaufforderung und geben Sie `python --version` ein, um die Installation zu überprüfen. Pip ist standardmäßig in modernen Python-Installationen enthalten.
Whisper installieren. Öffnen Sie die Eingabeaufforderung oder das Terminal. Geben Sie `pip install openai-whisper` ein und drücken Sie Enter. Die Installation lädt automatisch alle erforderlichen Abhängigkeiten herunter. Warten Sie, bis der Installationsvorgang abgeschlossen ist.
Audio-Datei vorbereiten. Platzieren Sie Ihre Audio-Datei in einem leicht zugänglichen Ordner. Whisper unterstützt MP3, WAV, M4A, FLAC und weitere Formate. Notieren Sie sich den vollständigen Dateipfad oder navigieren Sie mit der Eingabeaufforderung zum Ordner der Audio-Datei.
Whisper-Modell auswählen. Bestimmen Sie das passende Modell für Ihre Anforderungen. Tiny und Base sind schnell aber weniger genau, Medium bietet ausgewogene Leistung, Large liefert höchste Genauigkeit bei längerer Verarbeitungszeit. Das Standard-Modell ist Base.
Transkription starten. Geben Sie in der Eingabeaufforderung `whisper dateiname.mp3` ein und ersetzen Sie 'dateiname.mp3' durch Ihren tatsächlichen Dateinamen. Für ein spezifisches Modell verwenden Sie `whisper dateiname.mp3 --model medium`. Drücken Sie Enter um die Verarbeitung zu starten.
Ausgabeformat festlegen. Whisper erstellt standardmäßig mehrere Ausgabedateien im gleichen Ordner wie die Audio-Datei. Verwenden Sie `--output_format txt` für reine Textdateien oder `--output_format srt` für Untertitel mit Zeitstempeln. Die Dateien werden automatisch gespeichert.
Ergebnis überprüfen. Öffnen Sie die erstellte Textdatei mit einem Texteditor Ihrer Wahl. Überprüfen Sie die Transkription auf Genauigkeit und korrigieren Sie bei Bedarf offensichtliche Fehler. Die Ausgabedateien haben denselben Namen wie die Audio-Datei mit entsprechender Erweiterung.