11Sep

Come posso copiare il testo da un PDF conservando la formattazione?

PDF, il formato di documento onnipresente, è ottimo per condividere documenti preservando font, immagini e il layout generale su tutte le piattaforme. C'è un modo semplice, tuttavia, per preservare quella stessa formattazione quando si copia e incolla del testo fuori dal documento?

Today's Question &La sessione di risposta ci viene fornita per gentile concessione di SuperUser, una suddivisione di Stack Exchange, un raggruppamento di Q & A basato su community.

La domanda

SuperUser reader Colen sta cercando un modo per estrarre il testo dai PDF preservando la formattazione:

Quando copio il testo da un file PDF e in un editor di testo, esso finisce in una varietà di modi. La formattazione come grassetto e corsivo sono persi;le interruzioni di linea morbide all'interno di un paragrafo di testo vengono convertite in interruzioni di linea dura;i trattini per spezzare una parola su due righe vengono mantenuti anche quando non dovrebbero essere;e le virgolette singole e doppie vengono sostituite con?segni.

Idealmente, mi piacerebbe essere in grado di copiare il testo da un PDF e avere formattazione convertita in codici HTML, "virgolette" convertite in "e" e interruzioni di riga fatte correttamente. C'è un modo per fare questo?

C'è un modo semplice e veloce per Colen( e il resto di noi) di prendere il testo senza sacrificare la formattazione?

La risposta

SuperUser contributor Frabjous offre una soluzione combinata con una forte dose di cautela:

Innanzitutto, devi capire cos'è un PDF.I PDF sono progettati per imitare una pagina stampata e sono progettati solo come formato di output, non come formato di input.un PDF è fondamentalmente una mappa che contiene l'esatta posizione dei caratteri( singole lettere o punteggiatura, ecc.) o immagini. Nella maggior parte dei casi, un PDF non memorizza nemmeno le informazioni su dove termina una parola e ne inizia un'altra, molto meno cose come interruzioni morbide rispetto a interruzioni forzate per terminazioni di paragrafi.

( Alcuni PDF recenti memorizzano alcune informazioni su questa roba, ma questa è una nuova tecnologia e potresti essere fortunato a trovare file PDF del genere. Anche se lo facessi, il tuo visualizzatore PDF potrebbe non saperlo.)

Ad ogni modo,spetta al tuo software implementare una sorta di "intelligenza artificiale" per estrarre semplicemente dalle posizioni dei singoli personaggi che cos'è una parola, che cos'è un paragrafo e così via. Software diversi lo faranno meglio di altri, e dipenderanno anche da come è stato realizzato il PDF.In ogni caso, non dovresti mai aspettarti risultati perfetti. Avere il PDF di output non è come avere il documento di origine. Molto meglio cercare di ottenerlo se puoi.

La soluzione standard al tuo tipo di problema è usare Adobe Acrobat Professional( il costoso, non il lettore gratuito) per convertire il PDF in HTML.Anche questo non otterrà risultati perfetti.

Esiste un software gratuito che può essere utilizzato per estrarre il testo dai PDF con alcune formattazioni intatte, ma, di nuovo, non aspettatevi risultati perfetti. Vedi, ad esempio, calibre( che può convertire in formato RTF), pdftohtml / pdfreflow o il word processor AbiWord( con tutti i plugin di importazione / esportazione abilitati).C'è anche un plug-in di importazione PDF per OpenOffice.

Ma per favore non aspettarti la perfezione con nessuno di questi risultati. Stai andando contro il grano qui. PDF non è da intendersi come un formato di input modificabile.

Se hai problemi a decidere quale strumento iniziare, Caliber è un vero e proprio coltello svizzero per documenti. Puoi anche usarlo per convertire i file PDF da utilizzare sul tuo lettore di ebook e organizzare il tuo ebook / libreria di documenti.

Hai qualcosa da aggiungere alla spiegazione? Sound off nei commenti. Vuoi leggere più risposte dagli altri utenti di Stack Exchange esperti di tecnologia? Controlla la discussione completa qui.