11Sep

Kako mogu kopirati tekst iz PDF-a dok čuvam oblikovanje?

PDF, sveprisutan format dokumenta, odličan je za dijeljenje dokumenata uz očuvanje fontova, slika i općeg izgleda na svim platformama. Postoji li, međutim, jednostavan način za očuvanje tog formata kada kopirate i zalijepite tekst iz dokumenta?

Današnje pitanje &Sesija odgovora nam dolazi zahvaljujući SuperUseru - podjele Stack Exchange, grupiranjem zajednice Q & A web stranica.

Pitanje

SuperUser čitač Colen traži način za izdvajanje teksta iz PDF-ova dok zadržava oblikovanje:

Kada kopiram tekst iz PDF datoteke i u uređivač teksta, završava razbijena na različite načine. Oblikovanje kao podebljano i kurzivno je izgubljeno;meke linije pauze unutar odlomka teksta pretvaraju se u teške prekide linije;crtice da razbije riječ preko dvije linije su sačuvane čak i kada ne bi trebale biti;i jednokratne i dvostruke navodnike zamjenjuju se?znakovi.

Idealno, želim biti u mogućnosti kopirati tekst iz PDF-a i formatirati se pretvoriti u HTML kodove, "pametni citati" pretvoriti u "i", i prekidne linije ispravno. Postoji li neki način za to?

Postoji li brz i jednostavan način da Colen( i ostali od nas) dobije tekst bez žrtvovanja formata?

Odgovor

SuperUser suradnik Frabjous nudi rješenje u kombinaciji s teškom dozom opreza:

Prvo, morate razumjeti što je PDF.PDF-ovi su dizajnirani tako da oponašaju ispisanu stranicu i oni su dizajnirani samo kao izlazni format, a ne kao ulazni format. PDF je u osnovi karta koja sadrži točno mjesto znakova( pojedinačna slova ili interpunkcija, itd.) ili slike. U većini slučajeva, PDF čak ne pohranjuje informacije o tome gdje završava jedna riječ, a drugi počinje, a manje stvari kao što su mekane stanke i teške stanke za završetak odlomaka.

( Nekoliko nedavnih PDF-ova ne pohranjuje neke informacije o ovoj stvari, ali to je nova tehnologija, a vi biste imali sreće pronaći takve PDF datoteke. Čak i ako jeste, vaš PDF preglednik možda neće znati o tome.)

Anyway,to je do vašeg softvera da implementira neku vrstu "umjetne inteligencije" da se izvuče samo iz mjesta pojedinačnih znakova što je riječ, što je odlomak i tako dalje. Različiti softver će to učiniti bolje od drugih, a također će ovisiti o tome kako je PDF napravljen. U svakom slučaju, nikada ne biste trebali očekivati ​​savršene rezultate. Izlazni PDF nije isti kao izvorni dokument. Mnogo je bolje da to pokušate dobiti ako je moguće.

Standardno rješenje za vašu vrstu problema je korištenje Adobe Acrobat Professional( skupo, a ne besplatni čitač) za pretvaranje PDF u HTML.Čak i to neće postići savršene rezultate.

Postoji besplatni softver koji se može koristiti za izdvajanje teksta iz PDF-ova s ​​nekim formatiranjem netaknutima, ali opet, nemojte očekivati ​​savršene rezultate. Vidi, na primjer, kalibar( koji se može pretvoriti u RTF format), pdftohtml / pdfreflow ili AbiWord program za obradu teksta( sa svim dodatkom za uvoz / izvoz omogućen).Tu je i dodatak za uvoz PDF-a za OpenOffice.

Ali nemojte očekivati ​​savršenstvo s bilo kojim od tih rezultata. Idete na zrno ovdje. PDF se jednostavno ne odnosi na format unosa za uređivanje.

Ako imate poteškoća u odlučivanju o tome koji alat želite početi, Kalibar je pravi švicarski vojni nož.Također ga možete koristiti za pretvaranje PDF datoteka za upotrebu na čitaču e-knjiga i organiziranje e-knjige / biblioteke dokumenata.

Imate li nešto za objašnjenje? Zvuči u komentarima.Želite li pročitati više odgovora od drugih tehnoloških korisnika Stack Exchangea? Pogledajte ovdje cijelu raspravu.