11Sep

Ako môžem kopírovať text z PDF pri zachovaní formátovania?

click fraud protection

PDF, všadeprítomný formát dokumentu, je skvelý pre zdieľanie dokumentov pri zachovaní písma, obrázkov a všeobecné rozloženie na rôznych platformách. Existuje však jednoduchý spôsob, ako zachovať toto veľmi formátovanie pri kopírovaní a vkladaní textu z dokumentu?

Dnešná otázka &Odpoveď na zasadnutie nám príde s láskavým dovolením SuperUser - subdivíziu Stack Exchange, komunitne riadeného zoskupenia webových stránok Q & A.

Otázka

čítačka SuperUser Colen hľadá spôsob, ako extrahovať text z PDF súborov pri zachovaní formátovania:

Keď skopírujem text zo súboru PDF a do textového editora, končí rozmiešaný rôznymi spôsobmi. Formátovanie ako tučné a kurzíva sa stratilo;prerušenia mäkkej čiary v rámci textu textu sa premenia na prestávky s pevnými riadkami;pomlčky prelomiť slovo na dvoch riadkoch sú zachované, aj keď by nemali byť;a jedno a dvojité úvodzovky sú nahradené?príznaky.

V ideálnom prípade by som chcel byť schopný skopírovať text z PDF a formátovať previesť na kódy HTML, "inteligentné úvodzovky" konvertované na "a" a riadkové prestávky správne. Existuje nejaký spôsob, ako to urobiť?

instagram viewer

Existuje pre kolena( a ostatných z nás) rýchly a jednoduchý spôsob, ako získať text bez obetovania formátovania?

Odpoveď

SuperUser prispievateľ Frabjous ponúka riešenie v kombinácii s veľkou dávkou obozretnosti:

Najprv musíte pochopiť, čo je PDF.Dokumenty PDF sú navrhnuté tak, aby napodobňovali vytlačenú stránku a sú navrhnuté iba ako výstupný formát, nie ako vstupný formát. PDF je v podstate mapa obsahujúca presné umiestnenie znakov( jednotlivé písmená alebo interpunkčné znamienka atď.) alebo obrázky. Vo väčšine prípadov dokument PDF neumožňuje ani ukladať informácie o tom, kde skončí jedno slovo a začiatok iného, ​​oveľa menej veci, ako sú mäkké prestávky alebo tvrdé prestávky pre koncovky odstavcov.

( Niekoľko nedávnych súborov PDF ukladá nejaké informácie o týchto veciach, ale to je nová technológia a mali by ste mať šťastie, že nájdete takéto súbory PDF.) Aj keď ste to urobili, váš prehliadač PDF nemusí o tom vedieť.)

V každom prípade,je na vašom softvéri, aby zaviedol nejaký druh "umelej inteligencie", aby z miesta jednotlivých znakov získal iba to, čo je to slovo, čo je odsek a tak ďalej. Rôzny softvér bude robiť to lepšie ako ostatné, a to tiež bude závisieť na tom, ako PDF bol vyrobený.V žiadnom prípade by ste nikdy nemali očakávať dokonalé výsledky. S výstupom PDF nie je to isté, ako so zdrojovým dokumentom. Daleko lepšie sa pokúsiť získať, že ak môžete.

Štandardným riešením vášho druhu problému je použitie programu Adobe Acrobat Professional( drahý, nie bezplatný čítač) na konverziu PDF na HTML.Aj to nebude mať dokonalé výsledky.

K dispozícii je bezplatný softvér, ktorý možno použiť na extrahovanie textu z PDF súborov s niektorými formátmi neporušenými, ale opäť neočakávame dokonalé výsledky. Pozrite si napríklad kalibru( ktorý môže konvertovať na formát RTF), pdftohtml / pdfreflow alebo AbiWord textový procesor( so všetkými importovanými / exportnými doplnkami povolenými).K dispozícii je aj doplnok importu PDF pre OpenOffice.

Ale prosím, neočakávajte dokonalosť s niektorým z týchto výsledkov. Chystáte sa proti zrnu. Dokument PDF sa nepovažuje za editovateľný vstupný formát.

Ak máte problémy s rozhodnutím, ktorý nástroj na začiatok, Caliber je skutočný dokument švajčiarsky armádny nôž.Môžete ju použiť aj na konverziu súborov PDF na použitie vo vašom ebook reader a usporiadanie knižnice ebook / dokumentov.

Musíte niečo doplniť k vysvetleniu? Zvuk vypnúť v komentároch. Chcete si prečítať viac odpovedí od iných používateľov technológie Stack Exchange? Pozrite sa na celý diskusný príspevok tu.