Qual a melhor IA para transcrever áudio?

Eu utilizo a WhisperAI através do Google Colab para transcrever meus áudios. É muito simples, conveniente, e, acima de tudo, gratuito.

Tutorial: Como utilizar a IA que transcreve áudio de graça ilimitado

Transformar áudio em texto é uma tarefa que demanda muita atenção e tempo. Felizmente, essa atividade vem sendo gradativamente assumida por máquinas: No começo, programas automáticos, como o Closed Captions do YouTube, já possibilitavam uma transcrição limitada. Nos dias de hoje, a Inteligência Artificial avançada é capaz de assumir essa tarefa de forma mais eficiente e precisa.

Como utilizar a IA que transcreve áudio de graça ilimitado (Whisper AI)

Neste tutorial vamos ensinar como utilizar a Whisper AI, uma inteligência artificial criada pela Open AI, o mesmo grupo que desenvolveu o popular Chat GPT. Todos os arquivos de vídeo ou áudio enviados para ela serão automaticamente convertidos para texto em um clique, totalmente gratuito e sem programas. Uma ótima notícia para quem precisa transcrever áudio para texto diariamente.

O WhisperAI é extremamente poderoso e consegue transcrever até áudios de baixa qualidade, como audiências, aulas EAD, apresentações gravadas da platéia, etc.

📝 O que você vai precisar?

Uma conta no Gmail para acessar o Google Drive;
15 minutos do seu tempo

Confira esse tutorial em vídeo:

Como transcrever áudio utilizando inteligência artificial - Whisper AI

Tempo necessário: 15 minutos

Siga todos os passos com atenção e vamos aprender a transcrever áudio utilizando IA.

Acesse o Google Drive. Se você não tem uma conta Gmail, basta criar uma de graça.

No Google Drive, clique no botão “Novo” no canto superior esquerdo da tela;
Na parte de baixo clique em “Mais” e depois em “Conectar mais apps";
Na aba de pesquisa, digite “Google Colaboratory”. Clique em "Instalar" e o aplicativo será instalado dentro do seu Google Drive;
Agora vamos no botão "Novo" mais uma vez, agora clique em "Mais", e clique no "Google Colaboratory", aplicativo que acabamos de instalar;
Pronto, chegamos no aplicativo Google Colab. Antes de qualquer coisa, temos de fazer uma pequena configuração para garantir que tudo funcione. Clique em Ambiente de execução, e depois em Alterar o tipo de ambiente de execução;
No "Tipo de ambiente de execução" certifique-se que esteja em Python 3. No "Acelerador de hardware", selecione T4 GPU. Agora clique em Salvar;
Agora vamos instalar Whisper AI no Google Colab. Clique na barra de texto para digitar o texto do passo seguinte. Se não encontrar essa barra de texto, clique em + Código;
Copie e cole o seguinte código e depois clique no botão para instalar o Whisper AI:

!pip install git+https://github.com/openai/whisper.git

!sudo apt update && sudo apt install ffmpeg
A instalação demora aproximadamente 3 minutos. Agora, no lado esquerdo, clique no ícone de pasta para abrirmos os arquivos;
Aqui dentro podemos clicar e arrastar todos os arquivos de áudio que desejamos transcrever. No caso, utilizarei o áudio da nosas análise de um celular da Samsung como exemplo. Arraste o(s) arquivo(s) de áudio;
Agora basta clicar em +Código e digitar na barra de texto o seguinte código para iniciar o processo de transcrição:

!whisper "nome do arquivo aqui.mp3" --model medium

Pressione o botão para iniciar, aguarde alguns minutos e pronto! O seu arquivo foi transcrito com sucesso.

(No “nome do arquivo aqui”, não se esqueça de incluir o formato no nome, como .mp3, .FLAC, .WAV, etc).
No lado direito, temos os tempos e a transcrição. No lado esquerdo, junto do arquivo de áudio que arrastamos anteriormente, temos os arquivos ".srt" e ".vtt", que podem ser utilizados para legendar vídeos utilizando um player compatível como o VLC Media. Já o arquivo ".txt" é a transcrição completa e pode ser aberta no bloco de notas do Windows.

Restou alguma dúvida? Algum passo ficou confuso? Deixe um comentário abaixo que responderemos o mais rápido possível.

Detectou o idioma errado, e agora?

Caso o idioma detectado pela inteligência artificial seja diferente do idioma correto, utilize o comando "--task transcribre -- language br" no final do código.

Exemplo:

!whisper "nomedoarquivoaqui.mp3" --model medium --task transcribe --language br

Como corrigir o erro "No such file or directory" no Whisper AI

Se você enfrentou esse erro no passo 11, significa que o arquivo de áudio está corrompido OU você digitou o nome errado. Lembrando que, além do nome do arquivo, é necessário adicionar o formato do mesmo, como .mp3, WAV, FLAC...

Para descobrir o formato do arquivo, faça o seguinte:

1.Clique com o botão direito no arquivo e depois em Propriedades;

2. No caso do arquivo que utilizamos para testar aqui no tutorial, é um .mp3, ou seja, temos de colocar o ".mp3" no final do nome do arquivo, fica assim:

!whisper "Samsung Galaxy A34 Review_ O MELHOR ACERTO da Samsung em 2023.mp3" --model medium