11Sep

Kako lahko kopiram besedilo iz PDF-ja ob ohranjanju oblikovanja?

PDF, povsod format, je odličen za izmenjavo dokumentov, hkrati pa ohranja pisave, slike in splošno postavitev na različnih platformah. Ali obstaja preprost način, da ohranite to zelo oblikovanje pri kopiranju in lepljenju besedila iz dokumenta?

Današnje vprašanje &S sejo odgovora prihaja uporaba SuperUserja, ki je razdeljena na Stack Exchange, skupinsko spletno stran Q & A.

Vprašalnik

bralnik SuperUserja Colen išče način za pridobivanje besedila iz PDF-jev, hkrati pa ohranja oblikovanje:

Ko kopiram besedilo iz datoteke PDF in v urejevalnik besedil, se razkrije na različne načine. Oblikovanje kot krepko in poševno je izgubljeno;Mehke prelomi vrstic v odstavku besedila se pretvorijo v prelomne črte vrstic;črtice, da bi prekinili besedo prek dveh vrstic, se ohranijo, čeprav ne smejo biti;in enojnih in dvojnih narekov se nadomestita z?znaki.

V idealnem primeru bi rad, da bi lahko kopirali besedilo iz PDF-ja in formatiranje pretvorili v kode HTML, "pametne narekovaje", pretvorjene v "in" in prekinitve vrstic, ki so bile opravljene pravilno. Ali obstaja način za to?

Ali ima Colen( in ostali nas) hitro in enostavno, da se zgrabijo besedilo brez žrtvovanja oblikovanja?

Odgovor na

SuperUser prispevek Frabjous ponuja rešitev v kombinaciji z velikim odmerkom previdnosti:

Najprej morate razumeti, kaj je PDF.PDF-ji so zasnovani tako, da posnemajo natisnjeno stran in so zasnovani le kot izhodni format in ne vhodni format. PDF je v bistvu zemljevid, ki vsebuje točno lokacijo znakov( posamezne črke ali ločila itd.) ali slike. V večini primerov PDF sploh ne shranjuje informacij o tem, kje se ena beseda konča, druga pa se začne, še manj pa stvari, kot so mehki odmori in trdi odmori za končne točke.

( nekaj nedavnih PDF-jev shranjuje nekaj informacij o teh stvareh, toda to je nova tehnologija, in vam bi bilo srečo, da bi našli takšne PDF-je. Tudi če to storite, vaš pregledovalnik PDF morda ne bo vedel o tem.)

Kakorkoli že,na vaši programski opremi je, da izvedete nekakšno "umetno inteligenco", da bi izločili le lokacije posameznih znakov, kaj je beseda, kaj je odstavek, in tako naprej. Različna programska oprema bo to naredila bolje od drugih, odvisna pa bo tudi od tega, kako je bil izdelan PDF.V vsakem primeru ne smete nikoli pričakovati odličnih rezultatov. Ob izhodni obliki PDF ni enako, kot da ima izvorni dokument. Daleč bolje je poskusiti pridobiti to, če lahko.

Standardna rešitev za vaš problem je uporaba Adobe Acrobat Professional( dragega, ne brezplačnega bralca) za pretvorbo PDF v HTML.Tudi to ne bo prineslo odličnih rezultatov.

Obstaja brezplačna programska oprema, ki jo lahko uporabite za ekstrahiranje besedila iz PDF-jev, pri čemer so nekatere oblike nedotaknjene, vendar spet ne pričakujte odličnih rezultatov. Glej, na primer, kalibra( ki se lahko pretvori v format RTF), pdftohtml / pdfreflow ali besedni procesor AbiWord( z vsemi omogočenimi plugins za uvoz / izvoz).Za OpenOffice je tudi vtičnik za uvoz PDF.

Prosimo, ne pričakujte popolnosti s katerim koli od teh rezultatov. Tukaj greš proti žitu. PDF prav tako ni mišljen kot urejalni vhodni format.

Če imate težave pri odločanju, s katerim orodjem naj začnemo, je Caliber pravi dokument Swiss Army nož.Uporabite ga lahko tudi za pretvorbo PDF datotek, ki jih lahko uporabljate v bralniku e-knjig, in organizirajte svojo ebook / knjižnico dokumentov.

Ali želite dodati nekaj pojasnila? Zvok v komentarjih.Želite prebrati več odgovorov od drugih uporabniških članov stack Exchange? Oglejte si celotno temo za razpravo tukaj.