11Sep

Како могу копирати текст из ПДФ-а док очувам форматирање?

ПДФ, свеобухватни формат документа, одличан је за дељење докумената док се чувају фонтови, слике и општи распоред на различитим платформама.Међутим, постоји ли лак начин да сачувамо то врло формирање приликом копирања и лепљења текста из документа?

Данашње питање & амп;Сесија одговора долази нам захваљујући СуперУсер-у подскупу Стацк Екцханге-а, заједничком групом К & амп; А веб страница.

Питање

СуперУсер читач Цолен тражи начин за екстрахирање текста из ПДФ док истовремено сачува форматирање:

Када копирам текст из ПДФ датотеке и у текст едитор, он се завршава на разне начине.Изгубили су се форматирање болд и курзиву;меки преломи линије унутар ставка текста претварају се у чврсте линије;цртице за сломање речи преко две линије чувају се чак и када не требају бити;и једнократни и двоструки наводници се замењују?знаци.

Идеално би да ћу моћи да копирам текст из ПДФ-а и да форматирање буде конвертовано у ХТМЛ кодове, "паметне цитате" претворене у "и", а линијски прекиди су исправно извршени.Да ли постоји начин да то учините?

Постоји ли Брзи и једноставан начин за Цолен( и остале нас) да преузмемо текст без жртвовања форматирања?

Одговорност

СуперУсер сарадник Фрабјоус нуди решење у комбинацији са великом дозом упозорења:

Прво, морате разумети шта је ПДФ.ПДФ-ови су дизајнирани да имитирају штампану страницу, а они су дизајнирани само као излазни формат, а не улазни формат.ПДФ је у основи мапа која садржи тачну локацију знакова( појединачна слова или интерпункција, итд.) или слике.У већини случајева, ПДФ чак не складишти информације о томе гдје се једна реч завршава, а други почиње, а много мање ствари попут меких пауза и тешких пауза за завршетак параграфа.

( Неколико скорашњих ПДФ датотека чувају неке информације о овим стварима, али то је нова технологија и бићете срећни што ћете наћи ПДФ-ове. Чак и ако сте то учинили, ваш прегледач ПДФ-а можда не зна о томе.)

У сваком случају,на вашем софтверу је да примените неку врсту "вештачке интелигенције" да бисте се извукли само из локација појединачних ликова која је реч, шта је параграф, и тако даље.Различити софтвер ће то учинити боље од других, а такође ће зависити од тога како је направљен ПДФ.У сваком случају, никада не бисте требали очекивати савршене резултате.Излаз ПДФ-а није исти као што има изворни документ.Боље је да покушате то да урадите ако можете.

Стандардно решење за ваш проблем је да користите Адобе Ацробат Профессионал( скупо, а не слободни читач) да бисте претворили ПДФ у ХТМЛ.Чак и то неће добити савршене резултате.

Постоји бесплатан софтвер који се може искористити за екстракцију текста из ПДФ-а са неким обликовањем неоштећеним, али опет, не очекујте савршене резултате.Погледајте, на пример, калибар( који се може претворити у РТФ формат), пдфтохтмл / пдфрефлов или АбиВорд ворд процессор( са свим омогућеним плугинс импорт / екпорт).Постоји и ПДФ плугин за увоз за ОпенОффице.

Али молимо вас да не очекујете перфекцију са било којим од ових резултата.Идите против зрна овде.ПДФ једноставно није означен као формат за унос који се може уредити.

Ако имате проблема да одлучите о којем од почетних алата, Цалибер је прави документ Свисс Арми нож.Такође можете да користите за претворбу ПДФ датотека за употребу на вашем читачу ебоок-а и организујете своју библиотеку е-књига / докумената.

Имате ли нешто да додате објашњењу?Звучи у коментарима.Желите да прочитате више одговора од других корисничких корисника Стацк Екцханге?Овде погледајте комплетну тему.