Office

Como extrair texto de um arquivo PDF (4 Soluções)

Extrair texto de um arquivo PDF pode ser desafiante, especialmente porque nem todos os editores de PDF permitem selecionar o texto para extração. Isso fica mais evidente quando o PDF inclui muitas imagens ou tabelas. No entanto, existem diversas soluções que o vão conseguir ajudar a extrair o texto do PDF.

pub

Solução 1: Usando o seu navegador

Os navegadores atuais (Chrome, Edge ou Firefox) permitem ler e criar arquivos PDF. Com alguma imaginação, é possível usar essa funcionalidade para dividir um documento PDF, extrair páginas indesejadas, etc. Se estiver perante um documento “tradicional” (maioritariamente texto), será possível selecionar o conteúdo normalmente e com o botão direito do mouse escolher “Copiar”.

Dica: No Microsoft Edge irá encontrar uma funcionalidade muito útil, que lhe permite ler documentos PDF em voz alta. Para isso, basta abrir o seu documento PDF no Edge e pressionar as teclas de atalho CTRL+SHIFT+U.

Solução 2: Converter PDF em .doc

Claro que a maioria dos documentos irá possuir grafismo ou tabelas, que irá dificultar a extração do texto. Uma das soluções, passa por converter o documento PDF para .doc, um formato do Microsoft Word. Mesmo que não possua o Microsoft Office instalado, será possível converter o seu documento usando o Word Online.

O Word Online não permite o Upload direto do PDF, para isso, será necessário recorrer a um pequeno “truque” que consiste em usar o OneDrive, para fazer o upload do PDF, e posteriormente editar no Word.

  1. Comece por aceder ao site OneDrive e faça o login com a sua conta Microsoft (se necessário).
  2. Clique no botão “Carregar” e faça o upload do seu documento PDF.
  3. Selecione o seu documento PDF e escolha a opção “Abrir” – “Abrir no Word Online”.
abrir no word online

O seu documento irá ser convertido para .doc, sendo possível selecionar todo o texto extraído do seu documento.

Solução 3: Editor de PDF

Extrair texto de um PDF é uma tarefa simples se usar um editor poderoso como o Nitro PDF. Na prática, basta abrir o seu documento PDF no Nitro PDF e no menu superior escolher a opção “Home ” > Select > Select Text / Graphic. Agora, basta selecione o texto que pretende extrair e com o botão direito do mouse clique em “Copy Text” (Atalho CTRL+ C).

extrair texto de pdf no nitro pdf

Este é o procedimento mais “simplista”, no entanto, é importante recordar que o NitroPDF é um programa gratuito para testar, e o preço de uma licença não é nada “simpático”.

Solução 4: OCR

Outra solução, consiste na utilização de um aplicativo que permita extrair texto de uma imagem, uma técnica conhecida como OCR (Optical character recognition, em português Reconhecimento ótico de carateres). A desvantagem, é que apenas poderá trabalhar com pequenas secções do documento.

Caso o documento possua demasiado grafismo, que prejudique a extração do texto, poderá usar uma captura de tela (no Windows 10, pressione a tecla Windows + Print Screen), ou usar a ferramenta “Recorte” para capturar uma parte específica do documento (tecla de atalho Windows + Shift + S).

pub

Agora, basta usar um serviço OCR para extrair o texto da imagem. Uma solução gratuita é o Google Docs, bastando para isso aceder ao Google Drive (serviço de armazenamento em nuvem) e fazer o upload da imagem que contém o texto que pretende extrair. Para isso, basta clicar no botão “+Novo” > “Carregar Ficheiro” > Escolher a imagem.

Após o upload ser concluído, a imagem passa a constar na lista de arquivos. Se não encontrar a imagem, basta ordenar os arquivos por data de upload. Com o botão direito do mouse escolha a opção “Abrir com” > Google Docs. Surgirá uma nova janela contendo a imagem e o texto extraído.

Conclusão

Aqui ficaram várias soluções para extrair texto de um arquivo PDF, que embora não sejam perfeitas, seguramente vão-lhe poupar imenso trabalho. Caso possua outra sugestão, ou alguma dúvida, envie o seu comentário para o Guia Informática 😉

O que você achou disso?

Clique nas estrelas

Como você achou esse post útil...

Siga nossas redes sociais e fique ligado em todas as novidades

Lamentamos que este post não tenha sido útil para você!

Vamos melhorar este post!

Diga-nos, como podemos melhorar este post?

Jorge Sampaio

Jorge Sampaio é um técnico de informática apaixonado pelo mundo da informática. Sempre em busca de novas funcionalidades, e testando os limites para partilhar com a nossa comunidade.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *