11Sep

Kā es varu kopēt tekstu no PDF formātā, saglabājot formatējumu?

PDF, visuresošais dokumentu formāts, ir lieliski piemērots dokumentu koplietošanai, vienlaikus saglabājot fontus, attēlus un vispārējo izkārtojumu visā platformās. Tomēr ir vienkāršs veids, kā saglabāt šo formatējumu, kopējot un ielīmējot tekstu no dokumenta?

Šodienas jautājums &Atbildes sesija mums priecājas par SuperUser - Stack Exchange, kas ir kopienas un Q & A tīmekļa vietņu grupa.

Jautājums

SuperUser lasītājs Colen meklē veidu, kā iegūt tekstu no PDF failiem, vienlaikus saglabājot formatējumu:

Kad es kopiju tekstu no PDF faila un teksta redaktorā, tas nonāk dažādos veidos. Formatēšana, piemēram, treknrakstā un slīprakstā, tiek zaudēta;mīksto līniju pārtraukumi teksta rindā tiek pārvērsti par cieto līniju pārtraukumiem;domuzīme, lai salauztu vārdu divās rindās, tiek saglabāti pat tad, ja tiem nav jābūt;un ar vienvietīgām un dubultām kotētām?zīmes.

Ideālā gadījumā es gribētu, lai būtu iespējams kopēt tekstu no PDF un formatējumu pārveidot par HTML kodiem, "viedās cenas" pārvēršot par "un" un taisnīgi veiktas līniju pārtraukumus. Vai ir kāds veids, kā to izdarīt?

Vai Colen( un pārējais no mums) ir ātrs un vienkāršs veids, kā iegūt tekstu, neupurējot formatējumu?

Atbildes

SuperUser atbildīgais Frabjous piedāvā risinājumu apvienojumā ar lielu piesardzības pakāpi:

Pirmkārt, jums ir jāsaprot, kas ir PDF.PDF faili ir veidoti tā, lai atdarinātu izdrukātu lapu, un tie ir veidoti tikai kā izvades formāts, nevis ievades formāts. PDF pamatā ir karte, kurā ir precīza rakstzīmju atrašanās vieta( atsevišķas burti vai pieturzīmes uc) vai attēli. Lielākajā daļā gadījumu PDF failā pat netiek saglabāta informācija par to, kur beidzas viens vārds un sākas kāds cits, un vēl jo vairāk - piemēram, mīksto pārtraukumu un stingru pārtraukumu attiecībā uz rindkopu galiem.

( dažos nesenajos PDF failos tiek saglabāta neliela informācija par šo stuff, taču tā ir jauna tehnoloģija, un jums būs laimīgs atrast šādus PDF failus. Pat ja jūs to darījāt, jūsu PDF skatītājs var to nezināt.)

Jebkurā gadījumā,jūsu programmatūra ir atkarīga no tāda veida "mākslīgā intelekta", kuru var iegūt tikai no atsevišķu rakstzīmju atrašanās vietas, kāds ir vārds, kāds ir punkts un tā tālāk. Dažāda programmatūra to darīs labāk nekā citi, un tā arī būs atkarīga no tā, kā tika izveidots PDF.Jebkurā gadījumā nekad nevajadzētu gaidīt nevainīgus rezultātus. Atskaņošanas PDF faili nav tādi paši kā avota dokumenta izmantošana. Labāk mēģiniet to iegūt, ja varēsiet.

Standarta risinājums jūsu veida problēmai ir izmantot Adobe Acrobat Professional( dārgu, nevis bezmaksas lasītāju), lai PDF pārvērstu par HTML.Pat tas nenāks par perfektiem rezultātiem.

Ir bezmaksas programmatūra, ko var izmantot teksta no PDF failiem, ar dažiem noformējumiem neskartiem, bet atkal neparedziet perfektu rezultātu. Skatiet, piemēram, kalibrs( kas var konvertēt uz RTF formātu), pdftohtml / pdfreflow vai tekstapstrādes AbiWord( ar visiem iespējotajiem importēšanas / eksporta spraudņiem).OpenOffice ir arī PDF importēšanas spraudnis.

Bet, lūdzu, nedodiet pilnību ar kādu no šiem rezultātiem. Jūs atrodaties šeit pret graudu. PDF vienkārši nav domāts kā rediģējams ievades formāts.

Ja jums ir grūti izlemt, ar kuru instrumentu sākt, Caliber ir īsts dokuments Šveices armijas nazis. Jūs to varat arī izmantot, lai pārveidotu PDF failus lietošanai jūsu ebook lasītājā un organizētu savu ebook / dokumentu bibliotēku.

Vai kaut kas jāpievieno paskaidrojumam? Skatieties komentāros. Vēlaties lasīt citas atbildes no citiem tehnoloģiju savvy Stack Exchange lietotājiem?Šeit skatiet pilnu diskusiju pavedienu.