Como converter fala em texto usando o Whisper

O Whisper é um sistema de reconhecimento de fala desenvolvido pela OpenAI que converte áudio em texto com alta precisão em mais de 50 idiomas. Esta ferramenta gratuita funciona localmente no seu computador e oferece qualidade profissional de transcrição.

Instale o Python e o pip. Acesse python.org e baixe a versão mais recente do Python para o seu sistema operativo. Durante a instalação no Windows, marque a opção 'Add Python to PATH'. No macOS e Linux, o Python geralmente já vem instalado. Abra o terminal ou prompt de comando e digite 'python --version' para verificar a instalação.
Instale o FFmpeg. No Windows, baixe o FFmpeg de ffmpeg.org e adicione-o ao PATH do sistema. No macOS, execute 'brew install ffmpeg' no terminal. No Ubuntu/Debian, use 'sudo apt install ffmpeg'. Verifique a instalação digitando 'ffmpeg -version' no terminal.
Instale o Whisper via pip. Abra o terminal ou prompt de comando e execute 'pip install openai-whisper'. Aguarde o download e instalação automática de todas as dependências. O processo pode demorar alguns minutos dependendo da sua ligação à internet.
Prepare o ficheiro de áudio. Coloque o ficheiro de áudio que deseja transcrever numa pasta acessível. O Whisper suporta formatos MP3, WAV, M4A, FLAC e outros. Anote o caminho completo do ficheiro, incluindo a extensão.
Execute a transcrição básica. No terminal, navegue até à pasta do seu ficheiro usando 'cd caminho/para/pasta'. Execute 'whisper nome_do_ficheiro.mp3' substituindo pelo nome real do seu ficheiro. O Whisper irá descarregar automaticamente o modelo 'small' na primeira utilização e começar a transcrever.
Escolha o modelo apropriado. Para melhor precisão, use modelos maiores: 'whisper ficheiro.mp3 --model medium' ou 'whisper ficheiro.mp3 --model large'. O modelo 'tiny' é mais rápido mas menos preciso, enquanto o 'large' oferece máxima precisão mas demora mais tempo.
Configure idioma e formato de saída. Para forçar o português, adicione '--language portuguese'. Para escolher o formato de saída, use '--output_format txt' para texto simples ou '--output_format srt' para legendas. Exemplo completo: 'whisper audio.mp3 --language portuguese --output_format txt'.
Aceda ao resultado da transcrição. O Whisper cria ficheiros de saída na mesma pasta do áudio original. Procure por ficheiros com o mesmo nome mas extensões diferentes (.txt, .srt, .vtt). Abra o ficheiro .txt num editor de texto para ver a transcrição completa.