29Jun

Como converter um arquivo PDF para texto editável usando a linha de comando no Linux

Existem várias razões pelas quais você pode querer converter um arquivo PDF para texto editável. Talvez você precise revisar um documento antigo e tudo o que você tem é a versão em PDF do mesmo. Converter arquivos PDF no Windows é fácil, e se você estiver usando o Linux?

Não se preocupe. Vamos mostrar-lhe como converter facilmente arquivos PDF em texto editável usando uma ferramenta de linha de comando chamada pdftotext, que faz parte do pacote "poppler-utils".Esta ferramenta pode já estar instalada. Para verificar se o pdf totext está instalado no seu sistema, pressione "Ctrl + Alt + T" para abrir uma janela de terminal. Digite o seguinte comando no prompt e pressione "Enter".

dpkg -s poppler-utils

NOTA: Quando dizemos digitar algo neste artigo e existem citações em torno do texto, NÃO digite aspas, a menos que especifiquemos o contrário.

Se o pdftotext não estiver instalado, digite o seguinte comando no prompt e pressione "Enter".

sudo apt-get install poppler-utils

Digite sua senha quando solicitado e pressione "Enter".

Existem várias ferramentas disponíveis no pacote poppler-utils para converter PDF em diferentes formatos, manipulação de arquivos PDF e extração de informações de arquivos.

O seguinte é o comando básico para converter um arquivo PDF em um arquivo de texto editável. Pressione "Ctrl + Alt + T" para abrir uma janela do Terminal, digite o comando no prompt e pressione "Enter".

pdftotext /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt

Altere o caminho para cada arquivo para corresponder à localização e ao nome do seu arquivo PDF original e onde deseja salvar o arquivo de texto resultante. Além disso, altere os nomes dos arquivos para corresponder aos nomes dos seus arquivos.

O arquivo de texto é criado e pode ser aberto apenas como você abriria qualquer outro arquivo de texto no Linux.

O texto convertido pode ter quebras de linha em locais que você não deseja. As quebras de linha são inseridas após cada linha de texto no arquivo PDF.

Você pode preservar o layout do seu documento( cabeçalhos, rodapés, paginação, etc.) do arquivo PDF original no arquivo de texto convertido usando o sinalizador "-layout".

pdftotext -layout /home/lori/Documents/ Amostra.pdf /home/lori/Documents/ Sample.txt

Se você deseja apenas converter um intervalo de páginas em um arquivo PDF, use as bandeiras "-f" e "-l"( uma minúscula "L") para especificar oprimeira e última páginas no intervalo que deseja converter.

pdftotext -f 5 -l 9 /home/lori/Documents/ Amostra.pdf /home/lori/Documents/ Sample.txt

Para converter um arquivo PDF protegido e criptografado com uma senha de proprietário, use o sinalizador "-opw"( o primeiro caractere na bandeira é uma letra minúscula "O ", não um zero).

pdftotext -opw 'senha' /home/lori/Documents/ Exemplo.pdf /home/lori/Documents/ Sample.txt

Mude a "senha" para a usada para proteger o arquivo PDF original que está sendo convertido. Certifique-se de que há aspas simples, não dobro, em torno de "senha".

Se o arquivo PDF estiver protegido e criptografado com uma senha de usuário, use o sinalizador "-upw" em vez do sinalizador "-opw".O resto do comando é o mesmo.

Você também pode especificar o tipo de caractere de fim de linha que é aplicado ao texto convertido. Isso é especialmente útil se você planeja acessar o arquivo em um sistema operacional diferente, como o Windows ou o Mac. Para fazer isso, use o sinalizador "-eol"( o caractere médio na bandeira é uma letra minúscula "O", não um zero) seguido de um espaço e do tipo de caractere de fim de linha que deseja usar( "unix "," dos "ou" mac ").

NOTA: se você não especificar um nome de arquivo para o arquivo de texto, o pdf totext usa automaticamente a base do nome do arquivo PDF e adiciona a extensão ".txt".Por exemplo, "file.pdf" será convertido em "file.txt".Se o arquivo de texto for especificado como "-", o texto convertido será enviado para stdout, o que significa que o texto é exibido na janela do terminal e não é salvo em um arquivo.

Para fechar a janela do Terminal, clique no botão "X" no canto superior esquerdo.

Para obter mais informações sobre o comando pdftotext, digite "man page pdftotext" no prompt em uma janela do Terminal.