15Sep
Você pode facilmente converter arquivos PDF para texto editável em Linux usando a ferramenta de linha de comando "pdf totext".No entanto, se houver imagens no arquivo PDF original, elas não são extraídas. Para extrair imagens de um arquivo PDF, você pode usar outra ferramenta de linha de comando chamada "pdfimages".
NOTA: Quando dizemos digitar algo neste artigo e há citações em torno do texto, NÃO digite as cotações, a menos que especifiquemos o contrário.
A ferramenta "pdfimages" faz parte do pacote poppler-utils. Você pode verificar se está instalado no seu sistema e instalá-lo, se necessário, usando as etapas descritas neste artigo.
Para extrair imagens de um arquivo PDF usando imagens pdf, pressione "Ctrl + Alt + T" para abrir uma janela do Terminal. Digite o seguinte comando no prompt.
pdfimages /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
NOTA: Para todos os comandos mostrados neste artigo, substitua o primeiro caminho no comando e o nome do arquivo PDF pelo caminho e nome do arquivo para o seu arquivo PDF original. O segundo caminho deve ser o caminho para a pasta raiz na qual você deseja salvar as imagens extraídas. A palavra "imagem" no final do segundo caminho representa o que quer que você prefira com o nome do arquivo. Os nomes dos arquivos das imagens são numerados automaticamente( 000, 001, 002, 003, etc.).Se quiser adicionar texto ao início de cada imagem, insira esse texto no final do segundo caminho. No nosso exemplo, cada nome de arquivo de imagem começará com "imagem", como imagem-001.ppm, imagem-002.ppm, etc. Um dash é adicionado entre o texto que você especifica e o número.
O formato de imagem padrão é PPM( pixmap portátil) para imagens não monocromáticas, ou PBM( bitmap portátil) para imagens monocromáticas. Esses formatos são projetados para serem facilmente trocados entre plataformas.
NOTA: Você pode obter dois arquivos de imagem para cada imagem em seu arquivo PDF.A segunda imagem para cada imagem está em branco, então, você poderá indicar quais imagens contêm as imagens do arquivo pela miniatura no arquivo no Gerenciador de arquivos.
Para criar arquivos de imagem. jpg, adicione a opção "-j" ao comando, conforme mostrado abaixo.
pdfimages -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
NOTA: Você também pode alterar a saída padrão para PNG usando a opção "-png" ou TIFF usando a opção "-tiff".
O arquivo de imagem principal para cada imagem é salvo como um arquivo. jpg. A segunda imagem em branco ainda é um arquivo. ppm ou. pbm.
Se você quiser apenas converter imagens em e depois de uma determinada página, use a opção "-f" com um número para indicar a primeira página a ser convertida, conforme mostrado no comando de exemplo abaixo.
pdfimages -f 2 -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ imagem
NOTA: Combinamos a opção "-j" com a opção "-f", então nós obteríamos imagens. jpg e fizemos o mesmo com a opção "-l" mencionadaabaixo também.
Para converter todas as imagens antes e em uma determinada página, use a opção "-l"( uma minúscula "L", não o número "1") com um número para indicar a última página a ser convertida, conforme mostrado abaixo.
pdfimages -l 1 -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
NOTA: Você pode usar as opções "-f" e "-l" juntas para converter imagens em um intervalo de páginas específico no meio do seu documento.
Se houver uma senha de proprietário no arquivo PDF, use a opção "-opw" e a senha com aspas simples, conforme mostrado abaixo. Se a senha no arquivo PDF for uma senha de usuário, use a opção "-upw" com a senha.
NOTA: Certifique-se de que há alocações simples em torno de sua senha no comando.
pdfimages -opw 'senha' -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
Para obter mais informações sobre como usar o comando pdfimages, digite "pdfimages" no prompt em uma janela do terminal e pressione "Enter".O uso do comando é exibido com uma lista de opções disponíveis para uso no comando.