15Sep
È possibile convertire facilmente file PDF in testo modificabile in Linux utilizzando lo strumento da riga di comando "pdftotext".Tuttavia, se nel file PDF originale sono presenti immagini, non vengono estratte. Per estrarre immagini da un file PDF, puoi utilizzare un altro strumento da riga di comando chiamato "pdfimages".
NOTA: quando diciamo di digitare qualcosa in questo articolo e ci sono citazioni attorno al testo, NON digitare le virgolette, a meno che non specifichiamo diversamente.
Lo strumento "pdfimages" fa parte del pacchetto poppler-utils. Puoi verificare se è installato sul tuo sistema e installarlo se necessario utilizzando i passaggi descritti in questo articolo.
Per estrarre immagini da un file PDF utilizzando pdfimages, premere "Ctrl + Alt + T" per aprire una finestra di Terminale. Digitare il seguente comando al prompt.
pdfimages /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
NOTA: per tutti i comandi mostrati in questo articolo, sostituire il primo percorso nel comando e il nome file PDF nel percorso e nel nome file del file PDF originale. Il secondo percorso dovrebbe essere il percorso della cartella radice in cui si desidera salvare le immagini estratte. La parola "immagine" alla fine del secondo percorso rappresenta qualunque cosa tu voglia prefiggere il nome del tuo file con. I nomi dei file delle immagini sono numerati automaticamente( 000, 001, 002, 003, ecc.).Se vuoi aggiungere del testo all'inizio di ogni immagine, inserisci quel testo alla fine del secondo percorso. Nel nostro esempio, ciascun nome file dell'immagine inizierà con "immagine", ad esempio image-001.ppm, image-002.ppm, ecc. Viene aggiunto un trattino tra il testo specificato e il numero.
Il formato immagine predefinito è PPM( pixmap portatile) per immagini non monocromatiche o PBM( bitmap portatile) per immagini monocromatiche. Questi formati sono progettati per essere facilmente scambiati tra piattaforme.
NOTA: è possibile ottenere due file immagine per ogni immagine nel file PDF.La seconda immagine per ogni immagine è vuota, quindi sarai in grado di dire quali immagini contengono le immagini dal file con la miniatura sul file nel File Manager.
Per creare file immagine. jpg, aggiungere l'opzione "-j" al comando, come mostrato di seguito.
pdfimages -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
NOTA: Puoi anche cambiare l'output di default in PNG usando l'opzione "-png" o TIFF usando l'opzione "-tiff".
Il file immagine principale per ogni immagine viene salvato come file. jpg. La seconda immagine vuota è ancora un file. ppm o. pbm.
Se si desidera convertire solo le immagini su e dopo una determinata pagina, utilizzare l'opzione "-f" con un numero per indicare la prima pagina da convertire, come mostrato nel seguente comando di esempio.
pdfimages -f 2 -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
NOTA: abbiamo combinato l'opzione "-j" con l'opzione "-f" in modo da ottenere immagini. jpg e fare lo stesso con l'opzione "-l" menzionataanche qui di seguito.
Per convertire tutte le immagini prima e su una determinata pagina, utilizzare l'opzione "-l"( una "L" minuscola, non il numero "1") con un numero per indicare l'ultima pagina da convertire, come mostrato di seguito.
pdfimages -l 1 -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
NOTA: è possibile utilizzare le opzioni "-f" e "-l" insieme per convertire le immagini in un intervallo di pagine specifico nel mezzo del documento.
Se nel file PDF è presente una password del proprietario, utilizzare l'opzione "-opw" e la password tra virgolette singole, come mostrato di seguito. Se la password del file PDF è una password utente, utilizzare l'opzione "-upw" con la password.
NOTA: assicurarsi che ci siano singole virgolette sulla password nel comando.
pdfimages -opw 'password' -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image
Per ulteriori informazioni sull'utilizzo del comando pdfimages, digitare "pdfimages" al prompt di una finestra di Terminale e premere "Invio".L'utilizzo del comando viene visualizzato con un elenco di opzioni disponibili per l'uso nel comando.