29Jun
Existem várias razões pelas quais você pode querer converter um arquivo PDF para texto editável. Talvez você precise revisar um documento antigo e tudo o que você tem é a versão em PDF do mesmo. Converter arquivos PDF no Windows é fácil, e se você estiver usando o Linux?
Não se preocupe. Vamos mostrar-lhe como converter facilmente arquivos PDF em texto editável usando uma ferramenta de linha de comando chamada pdftotext, que faz parte do pacote "poppler-utils".Esta ferramenta pode já estar instalada. Para verificar se o pdf totext está instalado no seu sistema, pressione "Ctrl + Alt + T" para abrir uma janela de terminal. Digite o seguinte comando no prompt e pressione "Enter".
dpkg -s poppler-utils
NOTA: Quando dizemos digitar algo neste artigo e existem citações em torno do texto, NÃO digite aspas, a menos que especifiquemos o contrário.
Se o pdftotext não estiver instalado, digite o seguinte comando no prompt e pressione "Enter".
sudo apt-get install poppler-utils
Digite sua senha quando solicitado e pressione "Enter".
Existem várias ferramentas disponíveis no pacote poppler-utils para converter PDF em diferentes formatos, manipulação de arquivos PDF e extração de informações de arquivos.
O seguinte é o comando básico para converter um arquivo PDF em um arquivo de texto editável. Pressione "Ctrl + Alt + T" para abrir uma janela do Terminal, digite o comando no prompt e pressione "Enter".
pdftotext /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt
Altere o caminho para cada arquivo para corresponder à localização e ao nome do seu arquivo PDF original e onde deseja salvar o arquivo de texto resultante. Além disso, altere os nomes dos arquivos para corresponder aos nomes dos seus arquivos.
O arquivo de texto é criado e pode ser aberto apenas como você abriria qualquer outro arquivo de texto no Linux.
O texto convertido pode ter quebras de linha em locais que você não deseja. As quebras de linha são inseridas após cada linha de texto no arquivo PDF.
Você pode preservar o layout do seu documento( cabeçalhos, rodapés, paginação, etc.) do arquivo PDF original no arquivo de texto convertido usando o sinalizador "-layout".
pdftotext -layout /home/lori/Documents/ Amostra.pdf /home/lori/Documents/ Sample.txt
Se você deseja apenas converter um intervalo de páginas em um arquivo PDF, use as bandeiras "-f" e "-l"( uma minúscula "L") para especificar oprimeira e última páginas no intervalo que deseja converter.
pdftotext -f 5 -l 9 /home/lori/Documents/ Amostra.pdf /home/lori/Documents/ Sample.txt
Para converter um arquivo PDF protegido e criptografado com uma senha de proprietário, use o sinalizador "-opw"( o primeiro caractere na bandeira é uma letra minúscula "O ", não um zero).
pdftotext -opw 'senha' /home/lori/Documents/ Exemplo.pdf /home/lori/Documents/ Sample.txt
Mude a "senha" para a usada para proteger o arquivo PDF original que está sendo convertido. Certifique-se de que há aspas simples, não dobro, em torno de "senha".
Se o arquivo PDF estiver protegido e criptografado com uma senha de usuário, use o sinalizador "-upw" em vez do sinalizador "-opw".O resto do comando é o mesmo.
Você também pode especificar o tipo de caractere de fim de linha que é aplicado ao texto convertido. Isso é especialmente útil se você planeja acessar o arquivo em um sistema operacional diferente, como o Windows ou o Mac. Para fazer isso, use o sinalizador "-eol"( o caractere médio na bandeira é uma letra minúscula "O", não um zero) seguido de um espaço e do tipo de caractere de fim de linha que deseja usar( "unix "," dos "ou" mac ").
NOTA: se você não especificar um nome de arquivo para o arquivo de texto, o pdf totext usa automaticamente a base do nome do arquivo PDF e adiciona a extensão ".txt".Por exemplo, "file.pdf" será convertido em "file.txt".Se o arquivo de texto for especificado como "-", o texto convertido será enviado para stdout, o que significa que o texto é exibido na janela do terminal e não é salvo em um arquivo.
Para fechar a janela do Terminal, clique no botão "X" no canto superior esquerdo.
Para obter mais informações sobre o comando pdftotext, digite "man page pdftotext" no prompt em uma janela do Terminal.