11Sep
PDF, η πανταχού παρούσα μορφή εγγράφων, είναι ιδανικό για την κοινή χρήση εγγράφων, διατηρώντας ταυτόχρονα τις γραμματοσειρές, τις εικόνες και τη γενική διάταξη σε διάφορες πλατφόρμες.Υπάρχει όμως ένας εύκολος τρόπος να διατηρηθεί αυτή η πολύ μορφοποίηση κατά την αντιγραφή και επικόλληση κειμένου από το έγγραφο;
Η σημερινή ερώτηση &Η συνάντηση απαντήσεων έρχεται με την ευγένεια του SuperUser - μια υποδιαίρεση του Stack Exchange, μια κοινότητα-καθοδηγούμενη ομαδοποίηση Q & A ιστοσελίδες.
Η ερώτηση
Ο αναγνώστης SuperUser Colen ψάχνει για έναν τρόπο εξαγωγής κειμένου από αρχεία PDF διατηρώντας παράλληλα τη μορφοποίηση:
Όταν αντιγράφω ένα κείμενο από ένα αρχείο PDF και σε ένα πρόγραμμα επεξεργασίας κειμένου, καταλήγει κατεστραμμένο με διάφορους τρόπους.Η μορφοποίηση με έντονους χαρακτήρες και πλάγια γράμματα χάνεται.Τα μαλακά σπασμένα γραμμικά μέσα σε μια παράγραφο του κειμένου μετατρέπονται σε σπάσματα σκληρών γραμμών.οι παύλες για να σπάσουν μια λέξη πάνω από δύο γραμμές διατηρούνται ακόμη και όταν δεν πρέπει να είναι?και οι μονές και οι διπλές εισαγωγικές τιμές αντικαθίστανται με;σημάδια.
Ιδανικά, θα ήθελα να μπορώ να αντιγράψω κείμενο από PDF και να μετατρέψω τη μορφοποίηση σε κώδικες HTML, τα "έξυπνα αποσπάσματα" που μετατράπηκαν σε "και" και τα διακεκομμένα γραμμάτια έγιναν σωστά.Υπάρχει κάποιος τρόπος να γίνει αυτό;
Υπάρχει ένας γρήγορος και εύκολος τρόπος για τον Colen( και τους υπόλοιπους) να πάρει το κείμενο χωρίς να θυσιάζεται η μορφοποίηση;
Η απάντηση
Συνεργάτης SuperUser Frabjous προσφέρει μια λύση σε συνδυασμό με μια μεγάλη δόση προσοχής:
Πρώτον, πρέπει να καταλάβετε τι είναι το PDF.Τα αρχεία PDF έχουν σχεδιαστεί για να μιμούνται μια εκτυπωμένη σελίδα και έχουν σχεδιαστεί μόνο ως μορφή εξόδου και όχι ως μορφή εισόδου.ένα PDF είναι βασικά ένας χάρτης που περιέχει την ακριβή θέση των χαρακτήρων( ξεχωριστά γράμματα ή σημεία στίξης κ.λπ.) ή εικόνες.Στις περισσότερες περιπτώσεις, ένα PDF δεν αποθηκεύει ακόμη πληροφορίες σχετικά με το πού τελειώνει μία λέξη και ξεκινάει μια άλλη, πολύ λιγότερα πράγματα όπως μαλακά σπασίματα ή σκληρά διαλείμματα για τελειώματα στις παραγράφους.
( Ορισμένα πρόσφατα αρχεία PDF αποθηκεύουν κάποιες πληροφορίες σχετικά με αυτό το υλικό, αλλά αυτή είναι μια νέα τεχνολογία και θα είχατε την τύχη να βρούμε τέτοια PDF αρχεία. Ακόμα κι αν το κάνατε, το πρόγραμμα προβολής PDF μπορεί να μην το γνωρίζει.)
Τέλος πάντων,εξαρτάται από το λογισμικό σας να εφαρμόσει κάποιο είδος «τεχνητής νοημοσύνης» για να εξαγάγει απλώς από τις θέσεις των επιμέρους χαρακτήρων τι είναι μια λέξη, ποια είναι μια παράγραφο και ούτω καθεξής.Το διαφορετικό λογισμικό πρόκειται να το κάνει αυτό καλύτερα από τους άλλους και θα εξαρτηθεί επίσης από τον τρόπο με τον οποίο έγινε το PDF.Σε κάθε περίπτωση, δεν πρέπει ποτέ να περιμένετε τέλεια αποτελέσματα.Έχοντας το PDF εξόδου δεν είναι το ίδιο με το έγγραφο προέλευσης.Πολύ καλύτερα να προσπαθήσετε να το αποκτήσετε αν μπορείτε.
Η βασική λύση για το είδος του προβλήματός σας είναι να χρησιμοποιήσετε το Adobe Acrobat Professional( το ακριβό και όχι το δωρεάν πρόγραμμα ανάγνωσης) για να μετατρέψετε το PDF σε HTML.Ακόμα και αυτό δεν πρόκειται να πάρει τέλεια αποτελέσματα.
Υπάρχει δωρεάν λογισμικό που μπορεί να χρησιμοποιηθεί για την εξαγωγή κειμένου από PDF με κάποια μορφοποίηση άθικτα, αλλά πάλι, μην περιμένετε τέλεια αποτελέσματα.Δείτε, π.χ., το διαμέτρημα( το οποίο μπορεί να μετατρέψει σε μορφή RTF), pdftohtml / pdfreflow ή τον επεξεργαστή κειμένου AbiWord( με όλα τα πρόσθετα εισαγωγής / εξαγωγής ενεργοποιημένα).Υπάρχει επίσης ένα plugin εισαγωγής PDF για το OpenOffice.
Αλλά παρακαλώ μην περιμένετε τελειότητα με οποιοδήποτε από αυτά τα αποτελέσματα.Είσαι ενάντια στους κόκκους εδώ.Το PDF απλώς δεν εννοείται ως επεξεργάσιμη μορφή εισόδου.
Αν έχετε πρόβλημα να αποφασίσετε ποιο εργαλείο θα ξεκινήσετε, το Caliber είναι ένα πραγματικό έγγραφο ελβετικό μαχαίρι στρατού.Μπορείτε επίσης να το χρησιμοποιήσετε για να μετατρέψετε αρχεία PDF για χρήση στον αναγνώστη ebook σας και να οργανώσετε τη βιβλιοθήκη ebook / εγγράφων σας.
Έχετε κάτι να προσθέσετε στην εξήγηση;Απενεργοποιήστε τα σχόλια.Θέλετε να διαβάσετε περισσότερες απαντήσεις από άλλους χρήστες τεχνολογίας Stack Exchange;Δείτε το πλήρες νήμα συζήτησης εδώ.