29Jun

Πώς να μετατρέψετε ένα αρχείο PDF σε επεξεργάσιμο κείμενο Χρησιμοποιώντας τη γραμμή εντολών στο Linux

Υπάρχουν διάφοροι λόγοι για τους οποίους μπορεί να θέλετε να μετατρέψετε ένα αρχείο PDF σε επεξεργάσιμο κείμενο.Ίσως πρέπει να αναθεωρήσετε ένα παλιό έγγραφο και το μόνο που έχετε είναι η έκδοση PDF του.Η μετατροπή των αρχείων PDF στα Windows είναι εύκολη, αλλά τι γίνεται αν χρησιμοποιείτε το Linux;

Δεν υπάρχει καμία ανησυχία.Θα σας δείξουμε πώς μπορείτε εύκολα να μετατρέψετε αρχεία PDF σε επεξεργάσιμο κείμενο χρησιμοποιώντας ένα εργαλείο γραμμής εντολών που ονομάζεται pdftotext, το οποίο είναι μέρος του πακέτου "poppler-utils".Αυτό το εργαλείο μπορεί να εγκατασταθεί ήδη.Για να ελέγξετε εάν το pdftotext είναι εγκατεστημένο στο σύστημά σας, πατήστε "Ctrl + Alt + T" για να ανοίξετε ένα παράθυρο τερματικού.Πληκτρολογήστε την ακόλουθη εντολή στη γραμμή εντολών και πατήστε "Enter".

dpkg -s poppler-utils

ΣΗΜΕΙΩΣΗ: Όταν λέμε να πληκτρολογήσετε κάτι σε αυτό το άρθρο και υπάρχουν εισαγωγικά γύρω από το κείμενο, ΜΗΝ πληκτρολογείτε τα αποσπάσματα, εκτός αν καθορίζουμε διαφορετικά.

Εάν το pdftotext δεν είναι εγκατεστημένο, πληκτρολογήστε την ακόλουθη εντολή στη γραμμή εντολών και πατήστε "Enter".

sudo apt-get install poppler-utils

Πληκτρολογήστε τον κωδικό σας όταν σας ζητηθεί και πατήστε "Enter".

Υπάρχουν πολλά διαθέσιμα εργαλεία στο πακέτο poppler-utils για τη μετατροπή του PDF σε διαφορετικές μορφές, τον χειρισμό αρχείων PDF και την εξαγωγή πληροφοριών από αρχεία.

Η παρακάτω είναι η βασική εντολή για τη μετατροπή ενός αρχείου PDF σε ένα επεξεργάσιμο αρχείο κειμένου.Πατήστε "Ctrl + Alt + T" για να ανοίξετε ένα παράθυρο τερματικού, πληκτρολογήστε την εντολή στη γραμμή εντολών και πατήστε "Enter".

pdftotext /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt Αλλαγή της διαδρομής σε κάθε αρχείο ώστε να αντιστοιχεί στη θέση και το όνομα του αρχικού σας αρχείου PDF και όπου θέλετε να αποθηκεύσετε το αρχείο κειμένου που προκύπτει.Επίσης, αλλάξτε τα ονόματα αρχείων ώστε να αντιστοιχούν στα ονόματα των αρχείων σας.

Το αρχείο κειμένου δημιουργείται και μπορεί να ανοίξει ακριβώς όπως θα ανοίγατε οποιοδήποτε άλλο αρχείο κειμένου στο Linux.

Το κείμενο που μετατράπηκε μπορεί να έχει διαλείμματα γραμμής σε μέρη που δεν θέλετε.Τα γραμμικά σφάλματα εισάγονται μετά από κάθε γραμμή κειμένου στο αρχείο PDF.

Μπορείτε να διατηρήσετε τη διάταξη του εγγράφου σας( κεφαλίδες, υποσέλιδα, σελιδοποίηση κλπ.) Από το αρχικό αρχείο PDF στο αρχείο μετατροπής χρησιμοποιώντας τη σημαία "-layout".

pdftotext -layout /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt

Αν θέλετε να μετατρέψετε μια σειρά σελίδων σε ένα αρχείο PDF, χρησιμοποιήστε τις σημαίες "-f" και "-l"( πεζά γράμματα "L") για να καθορίσετετην πρώτη και την τελευταία σελίδα του εύρους που θέλετε να μετατρέψετε.

pdftotext -f 5 -l 9 /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt

Για να μετατρέψετε ένα αρχείο PDF που προστατεύεται και κρυπτογραφείται με έναν κωδικό πρόσβασης ιδιοκτήτη, χρησιμοποιήστε τη σημαία "-opw"( ο πρώτος χαρακτήρας στη σημαία είναι μικρό γράμμα "Ο ", όχι μηδέν).

pdftotext -opw 'κωδικός πρόσβασης' /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt

Αλλάξτε τον "κωδικό πρόσβασης" σε αυτόν που χρησιμοποιείται για την προστασία του αρχικού αρχείου PDF που μετατρέπεται.Βεβαιωθείτε ότι υπάρχουν μοναδικά εισαγωγικά, όχι διπλά, γύρω από τον "κωδικό πρόσβασης".

Εάν το αρχείο PDF προστατεύεται και κρυπτογραφείται με κωδικό πρόσβασης χρήστη, χρησιμοποιήστε τη σημαία "-upw" αντί της σημαίας "-opw".Η υπόλοιπη εντολή είναι ίδια.

Μπορείτε επίσης να καθορίσετε τον τύπο του χαρακτήρα από το τέλος της γραμμής που εφαρμόζεται στο κείμενο που μετατράπηκε.Αυτό είναι ιδιαίτερα χρήσιμο εάν σκοπεύετε να αποκτήσετε πρόσβαση στο αρχείο σε διαφορετικό λειτουργικό σύστημα όπως τα Windows ή Mac.Για να το κάνετε αυτό, χρησιμοποιήστε τη σημαία "-eol"( ο μεσαίος χαρακτήρας στη σημαία είναι ένα πεζά γράμμα "O", όχι ένα μηδέν) ακολουθούμενο από ένα κενό και τον τύπο του χαρακτήρα από το τέλος της γραμμής που θέλετε να χρησιμοποιήσετε( "unix "," dos "ή" mac ").

ΣΗΜΕΙΩΣΗ: Εάν δεν καθορίσετε ένα όνομα αρχείου για το αρχείο κειμένου, το pdftotext χρησιμοποιεί αυτόματα τη βάση του αρχείου PDF και προσθέτει την επέκταση ".txt".Για παράδειγμα, το "file.pdf" θα μετατραπεί σε "file.txt".Εάν το αρχείο κειμένου έχει οριστεί ως "-", το μετατρεπόμενο κείμενο αποστέλλεται στο stdout, πράγμα που σημαίνει ότι το κείμενο εμφανίζεται στο παράθυρο του τερματικού και δεν αποθηκεύεται σε ένα αρχείο.

Για να κλείσετε το παράθυρο του τερματικού, κάντε κλικ στο κουμπί "X" στην επάνω αριστερή γωνία.

Για περισσότερες πληροφορίες σχετικά με την εντολή pdftotext, πληκτρολογήστε "man page pdftotext" στη γραμμή εντολών σε ένα παράθυρο τερματικού.