11Sep

Hvordan kan jeg kopiere tekst fra en PDF mens du beholder formatering?

click fraud protection

PDF, det allestedsnærværende dokumentformatet, er flott for deling av dokumenter samtidig som skrifttyper, bilder og det generelle oppsettet over plattformene opprettholdes. Er det imidlertid en enkel måte å bevare så mye formatering når du kopierer og limer tekst ut av dokumentet?

Dagens spørsmål &Svar-sesjon kommer til oss med høflighet av SuperUser-en underavdeling av Stack Exchange, en fellesskapsdrevet gruppering av Q & A-nettsteder.

Spørsmålet

SuperUser-leser Colen søker etter en måte å trekke ut tekst fra PDF-filer samtidig som formateringen holdes:

Når jeg kopierer tekst ut av en PDF-fil og til en tekstredigerer, kommer den til å mangle på en rekke måter. Formatering som fet og kursiv er tapt;Myke linjeskift i et avsnitt med tekst konverteres til raske linjeskift;bindestreker for å slå et ord over to linjer blir bevart selv når de ikke burde være det;og enkelt og dobbelt anførselstegn erstattes med?tegn.

Ideelt sett vil jeg kunne kopiere tekst fra en PDF og ha formatering konvertert til HTML-koder, "smarte sitater" konvertert til "og" og linjeskift gjort riktig. Er det noen måte å gjøre dette på?

instagram viewer

Er det en rask og enkel måte for Colen( og resten av oss) å få tak i tekst uten å ofre formateringen?

Svaret

SuperUser-bidragsyter Frabjous tilbyr en løsning kombinert med en stor forsiktighet:

For det første må du forstå hva en PDF er. PDF-filer er utformet for å etterligne en utskrevet side, og de er kun utformet som et utdataformat, ikke et innspillingsformat.en PDF er i utgangspunktet et kart som inneholder den eksakte plasseringen av tegn( individuelle bokstaver eller tegnsetting, etc.) eller bilder. I de fleste tilfeller lagrer en PDF ikke engang informasjon om hvor ett ord slutter, og en annen begynner, mye mindre ting som myke pauser versus harde pauser for avsnittsendringer.

( Noen få nyere PDF-filer lagrer litt informasjon om dette, men det er en ny teknologi, og du vil ha det heldig å finne PDF-filer som dette. Selv om du gjorde det, kan PDF-visningsprogrammet ditt kanskje ikke vite om det.)

Uansett, Det er opp til programvaren din for å implementere en slags "kunstig intelligens" for å trekke ut bare fra plasseringene til individuelle tegn, hva er et ord, hva er et avsnitt, og så videre. Ulike programvare skal gjøre dette bedre enn andre, og det kommer også til å stole på hvordan PDF ble laget. I alle fall bør du aldri forvente perfekte resultater.Å ha utdata PDF er ikke det samme som å ha kildedokumentet. Det er langt bedre å prøve å få det hvis du kan.

Standardløsningen til ditt type problem er å bruke Adobe Acrobat Professional( den dyra, ikke den gratis leseren) for å konvertere PDF til HTML.Selv det kommer ikke til å få perfekte resultater.

Det er gratis programvare som kan brukes til å trekke ut tekst fra PDF-filer med noe av formatering intakt, men igjen, forvent ikke perfekte resultater. Se for eksempel kaliber( som kan konvertere til RTF-format), pdftohtml / pdfreflow eller AbiWord tekstbehandler( med alle import / eksport plugins aktivert).Det er også et PDF-importtillegg for OpenOffice.

Men vær så snill å ikke forvente fullkommenhet med noen av disse resultatene. Du går mot kornet her. PDF er bare ikke ment som et redigerbart inngangsformat.

Hvis du har problemer med å bestemme hvilket verktøy du skal begynne med, er Caliber et veritabelt dokument Swiss Army knife. Du kan også bruke den til å konvertere PDF-filer til bruk på eBok-leseren og organisere eBok / dokumentbiblioteket.

Har du noe å legge til forklaringen? Lyde av i kommentarene. Vil du lese flere svar fra andre tech-savvy Stack Exchange-brukere? Sjekk ut hele diskusjonstråden her.