quarta-feira, 13 de agosto de 2014

Convertendo aquivo scanneado de PDF para imagem e depois para texto (Word)

Vamos imaginar o seguinte cenário:

Temos um PDF cujo conteúdo é resultante do scanner de documentos com imagens, tabela, texto, etc, e precisa que tudo seja convertido para um documento Word, inclusive as tabelas pra editar os valores e tudo mais, carimbos, ou seja, exatamente como estava na imagem.

Converter isso pro Word direto é muito complicado e geralmente as ferramentas de OCR gratuitas não fazem de forma satisfatória.
Então segue um meio que tenho utilizado de forma satisfatória:

Convertendo o PDF para imagem

Quando seu arquivo está em PDF, o qual é resultado do scaneamento de um documento que não ficou na verdade como PDF puro, mas sim como uma imagem atachada no PDF, precisa antes converter esse arquivo para imagem de verdade, caso não utilize uma ferramenta que faça a conversão direto para o Word, as quais ainda não consegui encontrar uma que realmente funcione free. As que utilizei apenas converte o texto do PDF como uma grande imagem e cola no arquivo Word. O que não adianta nada, já que a intenção é poder editar e formatar o texto convertido.Para isso pode utilizar a seguinte ferramente também online: 

http://pdf2jpg.net




O passo seguinte então é converter as imagens em texto


Convertendo a Imagem para texto (Word)

Para converter uma imagem que contenha ou que seja texto pra word, deve se utilizar uma tecnologia chamada OCR (http://pt.wikipedia.org/wiki/Optical_character_recognition) 

Pode lançar mão de ferramentas que atualmente já tem online na web e gratuitas, como pode ser visto no site




Nenhum comentário: