11Sep
PDF, üldlevinud dokumendi formaat, on suurepärane dokumentide jagamiseks, säilitades samal ajal fonte, pilte ja üldist paigutust üle platvormide. Kas on aga lihtne seda teksti vormindamist säilitada teksti kopeerimisel ja kleepimisel dokumendist välja?
tänapäeva küsimus &Vastuste seanss tuleb meile viisakalt SuperUseriga - Q & A veebisaitide kogukonnapõhise grupi Stack Exchange jagunemisest.
Küsimus
SuperUser-lugeja Colen otsib failide teksti väljavõtteid vormingu säilitamise ajal:
Kui kopeerin teksti välja PDF-failist ja tekstiredaktorisse, lõpeb see mitmel viisil. Parandatud kujul nagu paks ja kaldkriips on kadunud;tekstijoonte pealispinnad katkestatakse kõva rea vahedega;sõrmejälgi kahe rea väljalangemisel säilivad isegi siis, kui nad ei peaks olema;ja ühe ja kahekohalised hinnapakkumised on asendatud?märke.
Ideaalis tahaksin, et oleks võimalik kopeerida teksti PDF-failist ja vormindamine teisendatakse HTML-koodidena, "smart quotes" teisendatakse "ja" ning rea vaheajad tehakse korralikult. Kas on mingit võimalust seda teha?
Kas Colen'ile( ja ülejäänud meist) on kiire ja lihtne võimalus hankida teksti, pakkudes vormingut ohverdamata?
Vastuse
SuperUseri kaastöötaja Frabjous pakub lahendust kombineerituna raskekujulise ettevaatusega annusega:
Esiteks peate mõistma, mis PDF on. PDF-failid on loodud trükitud lehe jäljendamiseks ja need on mõeldud ainult väljundvormingutena, mitte sisendvorminguks. PDF on põhimõtteliselt kaart, mis sisaldab tähemärke( üksikud tähed või kirjavahemärgid jne) või pilte. Enamikul juhtudel ei PDF-failis isegi teavet selle kohta, kus üks sõna lõpeb, ja teine algab, veel vähem asju nagu pehmed paarid ja lõpu lõpus olevad rasked paarid.
( mõned hiljutised PDF-failid salvestavad mõnda infot selle kraami kohta, kuid see on uus tehnoloogia ja teil oleks õnnelik leida sellised PDF-failid. Isegi kui te seda teete, ei pruugi teie PDF-i vaataja selle kohta midagi teada pidada.)
Igal juhulteie tarkvara rakendab teatud tüüpi "tehisintellekti", et eraldada ainult üksikute märkide asukohadest, milline on sõna, milline on lõik ja nii edasi. Erinevad tarkvarad teevad seda paremini kui teised, ja see sõltub ka sellest, kuidas PDF-i valmistati. Igal juhul ei tohiks te kunagi eeldada täiuslikke tulemusi. Väljundipõhine PDF-fail ei ole sama kui algdokumendi olemasolu. Parem on proovida seda saada, kui saate.
Teie probleemi lahenduseks on Adobe Acrobat Professional( kallis, mitte tasuta lugeja) PDF-i teisendamiseks HTML-vormingus. Isegi see ei saavuta täiuslikke tulemusi.
On tasuta tarkvara, mida saab PDF-failidest teksti mõnel vormindamisel puutumata kasutada, kuid jällegi ei oota täiuslikke tulemusi. Vaadake näiteks kaliibrit( mis saab konverteerida RTF vormingusse), pdftohtml / pdfreflow või tekstitöötlusprogramm AbiWord( kõik impordi / ekspordi pluginad on lubatud).OpenOffice'ile on olemas ka PDF-i importimisplugin.
Aga palun ärge oodake täiustamist ühegi nimetatud tulemusega. Sa oled siin tera vastu. PDF-i lihtsalt ei peeta redigeeritavaks sisendvorminguks.
Kui teil on raskusi otsustada, milline tööriist alustada, on Caliber tõeline dokument Šveitsi armee nuga. Samuti võite seda kasutada PDF-failide teisendamiseks oma e-raamatu lugejas ning korraldada oma ebook / dokumentide kogu.
Kas teil on seletamiseks midagi lisada? Helistage kommentaarides. Kas soovite lugeda rohkem vastuseid teistelt tech-savvy Stack Exchange'i kasutajatelt? Tutvu täieliku arutelu teemaga siit.