11Sep

Wie kann ich Text aus einer PDF-Datei kopieren, während die Formatierung beibehalten wird?

click fraud protection

PDF, das allgegenwärtige Dokumentformat, eignet sich hervorragend für die gemeinsame Nutzung von Dokumenten, während Schriftarten, Bilder und das allgemeine Layout plattformübergreifend erhalten bleiben. Gibt es jedoch einen einfachen Weg, diese Formatierung beim Kopieren und Einfügen von Text aus dem Dokument beizubehalten?

Die heutige Frage &Die Antwortsitzung kommt dank SuperUser, einer Unterteilung von Stack Exchange, einer Community-gesteuerten Gruppierung von Q & A-Websites, zu uns.

Die Frage

SuperUser-Leser Colen sucht nach einer Möglichkeit, Text aus PDF-Dateien zu extrahieren, während die Formatierung beibehalten wird:

Wenn ich Text aus einer PDF-Datei in einen Texteditor kopiere, wird er auf verschiedene Arten beschädigt. Formatierungen wie fett und kursiv sind verloren;Weiche Zeilenumbrüche innerhalb eines Textabschnitts werden in harte Zeilenumbrüche umgewandelt;Striche, um ein Wort über zwei Zeilen zu unterbrechen, bleiben erhalten, auch wenn sie nicht sein sollten;und einfache und doppelte Anführungszeichen werden durch ersetzt? Zeichen.

instagram viewer

Im Idealfall möchte ich in der Lage sein, Text aus einer PDF-Datei zu kopieren und die Formatierung in HTML-Codes umzuwandeln, "intelligente Anführungszeichen" in "und" umzuwandeln und Zeilenumbrüche korrekt auszuführen. Gibt es eine Möglichkeit, dies zu tun?

Gibt es einen schnellen und einfachen Weg für Colen( und den Rest von uns), um Grippentext zu erhalten, ohne die Formatierung zu opfern?

Die Antwort

SuperUser Frabjous bietet eine Lösung kombiniert mit einer großen Dosis Vorsicht:

Zuerst müssen Sie verstehen, was ein PDF ist. PDFs sind so konzipiert, dass sie eine gedruckte Seite nachahmen, und sie sind nur als Ausgabeformat und nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde eine Karte, die den genauen Ort von Zeichen( einzelne Buchstaben oder Interpunktion, etc.) oder Bilder enthält. In den meisten Fällen speichert ein PDF nicht einmal Informationen darüber, wo ein Wort endet und ein anderes beginnt, viel weniger Dinge wie weiche Brüche im Vergleich zu harten Brüchen für Absatzendungen.

( Einige aktuelle PDFs enthalten einige Informationen zu diesem Thema, aber das ist eine neue Technologie, und Sie würden froh sein, PDFs so zu finden. Selbst wenn Sie das täten, könnte Ihr PDF-Viewer davon nichts wissen.)

Es liegt an Ihrer Software, irgendeine Art von "künstlicher Intelligenz" zu implementieren, um lediglich aus den Positionen einzelner Zeichen zu extrahieren, was ein Wort ist, was ein Absatz ist und so weiter. Unterschiedliche Software wird dies besser als andere tun, und es wird auch davon abhängen, wie das PDF erstellt wurde. Auf keinen Fall sollten Sie perfekte Ergebnisse erwarten. Die Ausgabe-PDF-Datei ist nicht mit dem Quelldokument identisch. Viel besser versuchen, das zu erreichen, wenn Sie können.

Die Standardlösung für Ihr Problem ist die Verwendung von Adobe Acrobat Professional( dem teuren, nicht dem kostenlosen Reader), um das PDF in HTML zu konvertieren. Selbst das wird keine perfekten Ergebnisse erzielen.

Es gibt kostenlose Software, die verwendet werden kann, um Text aus PDFs mit einiger Formatierung intakt zu extrahieren, aber erwarten Sie auch hier keine perfekten Ergebnisse. B. calibre( das in das RTF-Format konvertiert werden kann), pdftohtml / pdfreflow oder das AbiWord-Textverarbeitungsprogramm( wobei alle Import- / Export-Plugins aktiviert sind).Es gibt auch ein PDF-Import-Plugin für OpenOffice.

Aber bitte erwarten Sie keine Perfektion mit irgendeinem dieser Ergebnisse. Sie gehen hier gegen den Strich. PDF ist nicht als editierbares Eingabeformat gedacht.

Wenn Sie sich nicht entscheiden können, mit welchem ​​Werkzeug Sie anfangen sollen, ist Calibre ein echtes Schweizer Taschenmesser. Sie können es auch verwenden, um PDF-Dateien zur Verwendung auf Ihrem Ebook-Reader zu konvertieren und Ihre E-Book- / Dokumentbibliothek zu organisieren.

Haben Sie etwas zur Erklärung hinzuzufügen? Ton in den Kommentaren ab. Möchten Sie mehr Antworten von anderen technisch versierten Stack Exchange Benutzern lesen? Sehen Sie sich den vollständigen Diskussionsfaden hier an.