15Sep

Afbeeldingen uit een PDF-bestand extraheren en opslaan in Linux

click fraud protection

U kunt PDF-bestanden eenvoudig converteren naar bewerkbare tekst in Linux met behulp van het opdrachtregelhulpprogramma "pdftotext".Als er echter afbeeldingen in het originele PDF-bestand staan, worden deze niet geëxtraheerd. Om afbeeldingen uit een PDF-bestand te extraheren, kunt u een ander opdrachtregelprogramma gebruiken met de naam "pdfimages".

OPMERKING: Wanneer we zeggen om iets in dit artikel te typen en er zijn aanhalingstekens rond de tekst, typt u NIET de aanhalingstekens, tenzij we anders specificeren.

De tool "pdfimages" maakt deel uit van het pakket poppler-utils. U kunt controleren of het op uw systeem is geïnstalleerd en installeer het indien nodig met behulp van de stappen die in dit artikel worden beschreven.

Om afbeeldingen uit een PDF-bestand te extraheren met pdfimages, drukt u op "Ctrl + Alt + T" om een ​​terminalvenster te openen. Typ de volgende opdracht bij de prompt.

pdf afbeeldingen /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image

instagram viewer

OPMERKING: vervang voor alle opdrachten in dit artikel het eerste pad in de opdracht en de PDF-bestandsnaam naar het pad en de bestandsnaam voor uw originele PDF-bestand. Het tweede pad moet het pad naar de hoofdmap zijn waarin u de geëxtraheerde afbeeldingen wilt opslaan. Het woord "afbeelding" aan het einde van het tweede pad staat voor alles waarmee u uw bestandsnaam wilt invoegen. De bestandsnamen van de afbeeldingen zijn automatisch genummerd( 000, 001, 002, 003, etc.).Als u tekst aan het begin van elke afbeelding wilt toevoegen, voert u die tekst aan het einde van het tweede pad in. In ons voorbeeld begint elke bestandsnaam van de afbeelding met "image", zoals image-001.ppm, image-002.ppm, enz. Een streepje wordt toegevoegd tussen de tekst die u opgeeft en het nummer.

Het standaardbeeldformaat is PPM( portable pixmap) voor niet-monochrome afbeeldingen of PBM( portable bitmap) voor monochrome afbeeldingen. Deze formaten zijn ontworpen om eenvoudig tussen platforms te worden uitgewisseld.

OPMERKING: Mogelijk krijgt u twee afbeeldingsbestanden voor elke afbeelding in uw PDF-bestand. De tweede afbeelding voor elke afbeelding is leeg. U kunt dus zien welke afbeeldingen de afbeeldingen uit het bestand bevatten door de miniatuur op het bestand in Bestandsbeheer.

Als u. jpg-afbeeldingsbestanden wilt maken, voegt u de optie "-j" toe aan de opdracht, zoals hieronder wordt weergegeven.

pdfimages -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/-afbeelding

OPMERKING: U kunt de standaarduitvoer ook wijzigen in PNG met de optie "-png" of TIFF met de optie "-tiff".

Het hoofdbeeldbestand voor elke afbeelding wordt opgeslagen als een. jpg-bestand. De tweede lege afbeelding is nog steeds een bestand van. ppm of. pbm.

Als u alleen afbeeldingen op en na een bepaalde pagina wilt converteren, gebruikt u de optie "-f" met een cijfer om de eerste pagina aan te geven die moet worden geconverteerd, zoals weergegeven in de onderstaande voorbeeldopdracht.

pdfimages -f 2 -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image

OPMERKING: We combineerden de "-j" optie met de "-f" optie zodat we. jpg afbeeldingen zouden krijgen en hetzelfde deden met de "-l" optie genoemdhieronder ook.

Als u alle afbeeldingen vóór en op een bepaalde pagina wilt converteren, gebruikt u de optie "-l"( een kleine letter "L", niet het cijfer "1") met een cijfer om de laatste pagina aan te geven die moet worden geconverteerd, zoals hieronder wordt weergegeven.

pdfimages -l 1 -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ afbeelding

OPMERKING: U kunt de "-f" en "-l" opties samen gebruiken om afbeeldingen in een specifiek paginabereik in het midden van uw document te converteren.

Als het PDF-bestand een eigenaarswachtwoord bevat, gebruikt u de optie "-opw" en het wachtwoord tussen enkele aanhalingstekens, zoals hieronder wordt weergegeven. Als het wachtwoord van het PDF-bestand een gebruikerswachtwoord is, gebruik dan de "-upw" -optie met het wachtwoord.

OPMERKING: Zorg ervoor dat er enkele aanhalingstekens rond uw wachtwoord staan ​​in de opdracht.

pdfimages -opw 'password' -j /home/lori/Documents/ SampleWithImages.pdf /home/lori/Documents/ExtractedImages/ image

Voor meer informatie over het gebruik van de opdracht pdfimages, typ "pdfimages" bij de prompt in een terminalvenster en druk op "Enter".Het gebruik van de opdracht wordt weergegeven met een lijst met beschikbare opties voor gebruik in de opdracht.