11Sep

Kuinka tekstin voi kopioida PDF-muotoa säilyttäen muotoilu?

PDF, joka on kaikkialla käytössä oleva dokumentti, sopii erinomaisesti asiakirjojen jakamiseen samalla, kun säilytetään fontit, kuvat ja yleinen asettelu kaikilla alustoilla. Onko olemassa kuitenkin helppo tapa säilyttää tämä hyvin muotoilu kopioimalla ja liittämällä tekstiä asiakirjasta?

Päivän kysymys &Vastausistunto tulee meille kohteliaasti SuperUser-osastoon Stack Exchange, yhteisöllinen ryhmittely Q & A verkkosivuilla.

Kysymys

SuperUser-lukija Colen etsii tapaa poimia tekstiä PDF-tiedostoista säilyttäen muotoilun:

Kun kopioin tekstiä PDF-tiedostosta ja tekstieditoriksi, se päätyy hajautettuun monin eri tavoin. Muotoilu kuten lihavointi ja kursiivi menettää;tekstin kappaleessa olevat pehmeät riviosuudet muunnetaan kovan linjan katkeiksi;viivat rikkomaan sanaa kahteen riviin säilyvät, vaikka ne eivät olisikaan;ja yhden ja kaksinkertaisen lainausmerkinnät korvataan?merkkejä.

Ihannetapauksessa haluaisin pystyä kopioimaan tekstin PDF-tiedostosta ja muotoilemalla HTML-koodit, "älykkäät lainausmerkit" muunnetaan "ja" ja rivinvaihto tehdään oikein. Onko mitään tapaa tehdä tämä?

Onko Colenille( ja muillekin) helppo ja nopea tapa saada teksti tarttumatta muotoilusta?

Vastaus

SuperUser-avustaja Frabjous tarjoaa ratkaisun yhdistettynä raskasta varovaisuutta:

Ensinnäkin sinun on ymmärrettävä, mitä PDF-tiedosto on. PDF-dokumentit on suunniteltu jäljittelemään tulostettua sivua, ja ne on suunniteltu vain tulostusmuodoksi, ei tulomuotoon. PDF on pohjimmiltaan kartta, joka sisältää merkit( yksittäiset kirjaimet tai välimerkit, jne.) tai kuvat. Useimmissa tapauksissa PDF-tiedosto ei edes tallenna tietoja siitä, mihin sana päättyy, ja toinen alkaa, paljon vähemmän kuin pehmeät tauot tai kappaleen päättymiseen liittyvät vaikeat tauot.

( Muutamat viimeisimmät PDF-tiedostot tallentavat joitain tietoja tästä tavasta, mutta se on uusi tekniikka, ja sinulla olisi onnekas löytää tällaiset PDF-tiedostot.) Vaikka

ei ehkä tiedä sitä.)

Joka tapauksessa,ohjelmiston on toteutettava jonkinlainen "tekoäly", jotta voidaan erottaa vain yksittäisten merkkien sijainnit, mikä on sana, mikä on kappale ja niin edelleen. Eri ohjelmistot tekevät tämän paremmin kuin toiset, ja se riippuu myös siitä, miten PDF-tiedosto on tehty. Joka tapauksessa sinun ei pitäisi koskaan odottaa täydellisiä tuloksia. Lähtö-PDF-tiedosto ei ole sama kuin lähdedokumentin. Paljon parempi yrittää saada, jos voit.

Standardi ratkaisu ongelmaan on käyttää Adobe Acrobat Professionalia( kallista, ei vapaata lukijaa) muuntaa PDF HTML: ään. Jopa tämä ei aio saada täydellisiä tuloksia.

On vapaata ohjelmistoa, jota voidaan käyttää tekstin poistamiseen PDF-tiedostoista jonkin muotoilun ollessa ehjä, mutta toisaalta, älä odota täydellisiä tuloksia. Katso esim. Kaliiperi( joka voi muuntaa RTF-muodossa), pdftohtml / pdfreflow tai AbiWord-tekstinkäsittelyohjelma( kaikki tuonti- ja vientisovittimet ovat käytössä).Myös OpenOfficen PDF-tuontisovellus on saatavana.

Mutta älä odota täydellisyyttä mihinkään näistä tuloksista. Olet menossa jyviä vastaan ​​täällä.PDF ei ole tarkoitettu muokattavaksi syöttömuodoksi.

Jos sinulla on vaikeuksia päättää, mikä työkalu aloittaa, Caliber on todellinen asiakirja Sveitsin armeijan veitsi. Voit myös käyttää sitä muuntamaan PDF-tiedostoja käytettäväksi eBook-lukijaan ja järjestämään eBook- tai dokumenttikirjasto.

Onko sinulla jotain lisättävä selitykseen? Kuulkaa kommentit. Haluatko lukea lisää vastauksia muilta tech-tajuilta Stack Exchange-käyttäjiltä?Katso koko keskusteluketju täältä.