11Sep

Cum pot copia textul dintr-un PDF în timp ce păstrez formatul?

PDF, format omniprezent de document, este excelent pentru partajarea documentelor în timp ce se păstrează fonturile, imaginile și aspectul general pe platforme. Există însă o modalitate ușoară de a păstra acea foarte formatare atunci când copiați și lipiți textul din document?

Întrebarea de astăzi &Sesiunea de răspuns vine de la amabilitatea SuperUser - o subdiviziune a Stack Exchange, o grupare bazată pe comunitate a site-urilor web Q & A.

Întrebarea

Cititorul SuperUser Colen caută o modalitate de a extrage textul din PDF-uri în timp ce păstrează formatul:

Când copiez text dintr-un fișier PDF și într-un editor de text, acesta se sfârșește prin manganizare într-o varietate de moduri. Formatarea cu caractere aldine și cursive este pierdută;rupturile liniei moale într-un paragraf de text sunt convertite în linii de rupere dure;liniuțele pentru a sparge un cuvânt pe două rânduri sunt păstrate chiar și atunci când nu ar trebui să fie;iar citatele unice și duble sunt înlocuite cu?semne.

În mod ideal, aș dori să pot copia textul dintr-un PDF și să pot fi convertite formatarea în coduri HTML, "citate inteligente" convertite în "și" și întreruperile de linie efectuate corect. Există vreo modalitate de a face asta?

Există o cale rapidă și ușoară pentru Colen( și pentru restul dintre noi) pentru a obține textul fără a sacrifica formatul?

Răspunsul

Contribuitor SuperUser Frabjous oferă o soluție combinată cu o doză mare de precauție:

În primul rând, trebuie să înțelegeți ce este un PDF.PDF-urile sunt concepute astfel încât să imite o pagină imprimată și sunt proiectate doar ca format de ieșire, nu ca format de intrare.un PDF este în principiu o hartă care conține locația exactă a caracterelor( litere individuale sau punctuație etc.) sau imagini.În majoritatea cazurilor, un PDF nu stochează nici măcar informații despre locul în care se termină un cuvânt, iar altul începe, mai puține lucruri, cum ar fi pauze moi sau pauze dure pentru terminațiile paragrafelor.

( Câteva PDF-uri recente stochează câteva informații despre aceste lucruri, dar aceasta este o tehnologie nouă și veți fi norocoși să găsiți PDF-uri de genul asta. Chiar dacă ați făcut-o, vizualizatorul dvs. PDF ar putea să nu știe despre asta.)

Oricum,depinde de software-ul dvs. să pună în aplicare un fel de "inteligență artificială" pentru a extrage numai din locațiile personajelor individuale ceea ce este un cuvânt, ceea ce este un paragraf și așa mai departe. Software-ul diferit va face acest lucru mai bine decât altele și va depinde și de modul în care a fost realizat PDF-ul.În orice caz, nu trebuie să așteptați niciodată rezultate perfecte. Având PDF-ul de ieșire nu este același lucru cu documentul sursă.Este mai bine să încercați să obțineți acest lucru dacă puteți.

Soluția standard pentru problema dvs. este de a folosi Adobe Acrobat Professional( cel scump, nu cititorul gratuit) pentru a converti PDF-ul în HTML.Chiar și asta nu va obține rezultate perfecte.

Există software liber care poate fi folosit pentru a extrage textul din PDF-uri cu unele din formatarea intactă, dar din nou, nu vă așteptați la rezultate perfecte. A se vedea, de exemplu, calibrul( care poate converti în format RTF), pdftohtml / pdfreflow sau procesorul de text AbiWord( cu toate pluginurile de import / export activate).Există, de asemenea, un plugin de import PDF pentru OpenOffice.

Dar vă rog să nu vă așteptați la perfecțiune cu niciunul din aceste rezultate. Te duci împotriva cerealelor aici. PDF-ul nu este doar un format de intrare editabil.

Dacă aveți dificultăți în a decide cu ce instrument să începeți, Caliber este un adevărat document cuțit elvețian. Puteți, de asemenea, să-l utilizați pentru a converti fișiere PDF pentru utilizare pe cititorul de cărți electronice și pentru a vă organiza biblioteca de cărți electronice / de documente.

Aveți ceva de adăugat la explicație? Sunați în comentariile. Doriți să citiți mai multe răspunsuri de la alți utilizatori de tehnologie Stack Exchange? Check out discuția completă aici.