Como extrair o texto de um documento pdf

Pode ser muito frustrante para tentar extrair o texto de um arquivo PDF para uso em outro aplicativo. Não é incomum para os gráficos para ficar no caminho ou para o layout do documento para tornar mais difícil para o teste a ser transferido em frases com sentido. Embora não seja impossível extrair o texto com uma abordagem de copiar-e-colar, pode ser demorado e não permite texto de arquivos PDF para ser exportado como um formato diferente. Há, no entanto, algumas maneiras de extrair o texto de um arquivo PDF.

Coisas que você precisa

  • arquivo PDF
  • Adobe Acrobat Reader
  • conta do Gmail (opcional)
  • PDF para software de conversão de texto (opcional)
  1. Extrair texto usando Acrobat Reader

  2. 1

    Abra o arquivo no Acrobat Reader. No Windows, selecione "File - gt; Exportação documento para texto," nomear o documento e salvá-lo.

  3. 2

    Copie o texto em um Mac ou Linux OS, acessando o menu Exibir e escolhendo "Contínuo" ou "Contínua para a frente." (O antigo irá fornecer-lhe com o texto em uma coluna, enquanto o segundo irá formatar o texto como páginas lado a lado.) Ir para "Edit - gt; Selecionar tudo" e depois" Edit - gt; Cópia."

  4. 3


    Use a ferramenta Select se só deseja extrair a parte do texto. Clique no "texto Select" ferramenta e, em seguida, escolher as informações que deseja. Em um documento formatado em várias colunas, você precisará usar o "coluna Select" primeira ferramenta. Vamos para "Edit - gt; Copiar."

  5. Converter PDF para HTML

    • 1

      Use o Gmail como um atalho. Anexe o arquivo PDF para um e-mail e enviá-lo à sua conta Gmail. Quando você abre o e-mail, você verá um número de opções ao lado do anexo. Escolher "Ver como HTML" e salve o arquivo que se abre em uma janela separada. Embora você não será capaz de ver todos os gráficos, o arquivo HTML irá reter a formatação de texto do documento.

    • 2

      Extrair e converter arquivos na linha de comando. Usuários de Linux podem usar um comando de conversão básica que vai mudar um arquivo .pdf para um arquivo .txt: "filename.pdf pdftotext." Certifique-se de substituir o nome do arquivo com o nome do arquivo PDF.

    • 3

      Download de um PDF para o programa de conversão de texto. Há um número de código aberto e programas freeware disponíveis, tais como PDFBox e PDF fácil para Conversor de Texto (ver Recursos abaixo). Muitos destes programas também pode converter arquivos PDF para HTML também.

dicas & avisos

  • Determinar se o documento está formatado para conter texto e gráficos. A abordagem Adobe Acrobat só irá funcionar se o arquivo PDF contém both- que não vai funcionar para arquivos com apenas imagens. Em alguns casos, o texto de um documento PDF é realmente formatado como uma imagem. Isso geralmente acontece quando um documento original é digitalizado e um arquivo PDF é criado a partir da imagem digitalizada.
  • Esteja preparado para reformatar parte do texto ao usar o Acrobat Reader. Este modo de extração simplesmente exporta o arquivo PDF para um arquivo de texto - não irá reter necessariamente manter a formatação. No entanto, se você só precisa usar as palavras isso não deve ser um problema.
De esta maneira? Compartilhar em redes sociais:

LiveInternet