11Sep
PDF, det allestedsnærværende dokumentformat, er fantastisk til deling af dokumenter, samtidig med at skrifttyper, billeder og det generelle layout på tværs af platforme bevares. Er der imidlertid en nem måde at bevare den meget formatering, når man kopierer og indsætter tekst ud af dokumentet?
Dagens Spørgsmål &Svar session kommer til os høflighed af SuperUser-en underafdeling af Stack Exchange, en community-drevet gruppe af Q & A-websteder.
Spørgsmål
SuperUser-læser Colen søger efter en måde at udtrække tekst fra PDF-filer, mens formatering bevares:
Når jeg kopierer tekst ud af en PDF-fil og til en tekstredigeringsprogram, bliver den manglet på mange forskellige måder. Formatering som fed og kursiv tabt;bløde linjeskift inden for et stykke tekst konverteres til hurtige linjeskift;bindestreger at slå et ord over to linjer bevares, selv når de ikke burde være;og enkelt og dobbelt citater erstattes med?skilte.
Ideelt set vil jeg gerne kunne kopiere tekst fra en PDF og have formatering konverteret til HTML-koder, "smarte citater" konverteret til "og" og linjeskift udført korrekt. Er der nogen måde at gøre dette på?
Er der en hurtig og nem måde for Colen( og resten af os) at få fat i tekst uden at ofre formateringen?
Svaret
SuperUser-bidragsyderen Frabjous tilbyder en løsning kombineret med en stor dosis forsigtighed:
For det første skal du forstå, hvad en PDF er. PDF-filer er designet til at efterligne en udskrevet side, og de er kun udformet som et outputformat, ikke et inputformat.en PDF er stort set et kort, der indeholder den nøjagtige placering af tegn( individuelle bogstaver eller tegnsætning osv.) eller billeder. I de fleste tilfælde gemmer en PDF ikke engang oplysninger om, hvor ét ord slutter, og en anden begynder, meget mindre ting som bløde pauser vs. hårde pauser for afslutning af afsnit.
( Nogle få nyere PDF-filer gemmer nogle oplysninger om disse ting, men det er en ny teknologi, og du ville være heldig at finde PDF-filer sådan. Selvom du gjorde det, kan din PDF-viewer måske ikke vide det.)
Anyway, Det er op til din software at gennemføre en form for "kunstig intelligens" for kun at udtrække fra placeringen af individuelle tegn, hvad er et ord, hvad er et afsnit osv. Forskellige software vil gøre dette bedre end andre, og det vil også afhænge af, hvordan PDF'en blev lavet. Under alle omstændigheder bør du aldrig forvente perfekte resultater. At have output-PDF er ikke det samme som at have kildedokumentet. Langt bedre at forsøge at opnå det, hvis du kan.
Standardopløsningen til dit slags problem er at bruge Adobe Acrobat Professional( den dyre, ikke den gratis læser) til at konvertere PDF til HTML.Selv det vil ikke få perfekte resultater.
Der er gratis software, som kan bruges til at udtrække tekst fra PDF-filer med noget af formateringen intakt, men igen forvent ikke perfekte resultater. Se f.eks. Kaliber( som kan konvertere til RTF format), pdftohtml / pdfreflow eller AbiWord tekstbehandlingsprogrammet( med alle import / eksport plugins aktiveret).Der er også et PDF-import plugin til OpenOffice.
Men vær venlig at forvente ikke perfektion med nogen af disse resultater. Du går mod kornet her. PDF er bare ikke et redigerbart inputformat.
Hvis du har problemer med at bestemme hvilket værktøj der skal begynde med, er Caliber et ægte dokument Swiss Army knife. Du kan også bruge den til at konvertere PDF-filer til brug på din ebook-læser og organisere dit e-bog / dokumentbibliotek.
Har du noget at tilføje til forklaringen? Lyde af i kommentarerne. Vil du læse flere svar fra andre tech-savvy Stack Exchange brugere? Tjek den fulde diskussionstråd her.