11Sep

Kaip galima kopijuoti tekstą iš PDF formato išsaugojimo metu?

PDF, visuotinis dokumento formatas, puikiai tinka dalijantis dokumentais, tuo pačiu išlaikant šriftus, vaizdus ir bendrą išdėstymą visose platformose. Tačiau ar yra paprastas būdas išsaugoti tą patį formatą kopijuoti ir įklijuoti tekstą iš dokumento?

Šiandienos klausimas &Atsakymų sesija ateina pas mus iš "SuperUser" - "Stack Exchange", bendruomenės pagrįstos "Q & A" svetainių grupės pasidalijimo.

Klausimas

SuperUser skaitytuvas "Colen" ieško būdų, kaip ištraukti tekstą iš PDF formato, tuo pačiu išsaugant formatavimą:

Kai kopijuoju tekstą iš PDF failo ir į teksto redaktorių, jis baigiasi įvairiais būdais. Panašios brusančios ir kursyvu formos yra prarandamos;minkštos linijos pertraukos teksto pastraipoje paverčiamos kietos linijos pertraukomis;brūkšneliai, norėdami perbraukti žodį per dvi eilutes, yra išsaugoti, net jei jie neturėtų būti;ir vienos ir dvigubos kabutės pakeičiamos?ženklai.

Geriausia, norėčiau, kad galėtume kopijuoti tekstą iš PDF formato ir konvertuoti į HTML kodus, "išmaniuosius" kaitus paversti "ir", o eilutės pertraukos atliekamos tinkamai. Ar yra koks nors būdas tai padaryti?

Ar yra greitas ir paprastas būdas "Colen"( ir kitiems mums) pasiekti tekstą, neprarandant formatavimo?

Atsakymas

SuperUser autorius Frabjous siūlo sprendimą kartu su sunkia atsargumo priemone:

Pirmiausia turite suprasti, kas yra PDF.PDF yra sukurta imituojant spausdintą puslapį ir yra sukurtas tik kaip išvesties formatas, o ne įvesties formatas. PDF yra iš esmės žemėlapis, kuriame yra tiksli ženklų( atskirų raidžių, skyrybos ženklų ir pan.) vieta ar vaizdai. Daugeliu atvejų PDF failas net neužsaugo informacijos apie tai, kur baigiasi vienas žodis, o kitas prasideda, daug mažiau dalykų, pavyzdžiui, minkštųjų plyšių ir sunkių pertraukų, skirtų pastraipų galūnėms.

( keliuose naujausiuose PDF rinkmenose pateikiama tam tikra informacija apie šias medžiagas, tačiau tai yra nauja technologija, todėl jums pavyks surasti tokius PDF failus. Net jei jūs tai padarėte, jūsų PDF žiūryklė gali nežinoti apie tai.)

Bet kokiu atveju,jūsų "programinė įranga" reikalauja įgyvendinti tam tikrą "dirbtinio intelekto" rūšį, kad būtų galima išskleisti tik atskirų simbolių vietas, tai yra žodis, kas yra pastraipa ir kt. Skirtinga programinė įranga tai padarys geriau nei kiti, ir tai taip pat priklauso nuo to, kaip buvo sukurta PDF.Bet kuriuo atveju jūs neturėtumėte tikėtis puikių rezultatų.Turint išvesties PDF yra ne tas pats kaip turėti šaltinio dokumentą.Labiau pabandykite tai gauti, jei galėsite.

Standartinis jūsų problemos sprendimo būdas yra PDF "HTML" konvertavimas naudojant "Adobe Acrobat Professional"( brangios, o ne laisvą skaitytoją).Net ir tai nesieks puikių rezultatų.

Yra nemokama programinė įranga, kuri gali būti naudojama teksto ištraukimui iš PDF rinkmenų su tam tikra formatavimo nepažeista, bet dar kartą nesitikėkite puikių rezultatų.Žr., Pvz., Kalibras( kuris gali konvertuoti į RTF formatą), pdftohtml / pdfreflow arba tekstinio procesoriaus AbiWord( su visais įjungtais importo / eksporto papildinimais).Taip pat yra "OpenOffice" PDF įpylimo papildinys.

Bet nesitikėkite, kad tobulintumėte nė vieno iš šių rezultatų.Tu eisi prieš grūdus. PDF tiesiog nėra skirtas redaguoti įvesties formatą.

Jei kyla problemų sprendžiant, nuo kurio įrankio pradėti, Caliber yra tikras dokumentas Šveicarijos armijos peilis. Taip pat galite naudoti ją konvertuoti PDF rinkmenas naudoti savo ebook reader ir organizuoti savo ebook / dokumentų biblioteką.

Ar ką nors įtraukti į paaiškinimą?Garsas išjungtas komentaruose. Norite skaityti daugiau atsakymų iš kitų "Tech-savvy Stack Exchange" vartotojų?Patikrinkite visą diskusijų temą čia.