11Sep
PDF, wszechobecny format dokumentów, doskonale nadaje się do udostępniania dokumentów przy jednoczesnym zachowaniu czcionek, obrazów i ogólnego układu na różnych platformach. Czy istnieje jednak prosty sposób na zachowanie tego samego formatowania podczas kopiowania i wklejania tekstu z dokumentu?
Dzisiejsze pytanie &Sesja odpowiedzi przychodzi do nas dzięki uprzejmości SuperUser - poddziału Stack Exchange, opartego na społecznościach grupy Q & A.
Pytanie Czytnik
SuperUser Colen szuka sposobu na wyodrębnienie tekstu z plików PDF przy jednoczesnym zachowaniu formatowania:
Kiedy kopiuję tekst z pliku PDF i do edytora tekstowego, zostaje on zmanipulowany na różne sposoby. Formatowanie takie jak pogrubienie i kursywa zostanie utracone;łagodne łamania linii w akapicie tekstu są konwertowane na twarde podziały wierszy;kreski, aby złamać słowo na dwóch liniach, są zachowane nawet wtedy, gdy nie powinny;a pojedyncze i podwójne cudzysłowy są zastępowane?znaki.
Idealnie byłoby móc skopiować tekst z pliku PDF i sformatować go na kod HTML, "inteligentne cytaty" przekonwertować na "i", a podziały wierszy zrobić poprawnie. Czy jest jakiś sposób to zrobić?
Czy Colen( i reszta z nas) może szybko i łatwo uzyskać tekst przechwytywania bez rezygnacji z formatowania?
Odpowiedź Pomocnik
SuperUser Frabjous oferuje rozwiązanie w połączeniu z dużą dozą ostrożności:
Po pierwsze, musisz zrozumieć, co to jest plik PDF.Pliki PDF mają naśladować wydrukowaną stronę i są zaprojektowane wyłącznie jako format wyjściowy, a nie format wejściowy.plik PDF jest w zasadzie mapą zawierającą dokładną lokalizację znaków( pojedyncze litery lub znaki interpunkcyjne itp.) lub obrazy. W większości przypadków plik PDF nie przechowuje nawet informacji o tym, gdzie kończy się jedno słowo, a inny zaczyna, a tym bardziej rzeczy takie, jak miękkie przerwy w stosunku do twardych przerw dla końcówek akapitu.
( Kilka ostatnich plików PDF przechowuje pewne informacje na ten temat, ale jest to nowa technologia i możesz mieć szczęście, aby znaleźć takie pliki PDF, nawet jeśli to zrobiłeś, Twoja przeglądarka plików PDF może o tym nie wiedzieć.)
od oprogramowania zależy wdrożenie "sztucznej inteligencji", która wyodrębnia się jedynie z lokalizacji poszczególnych znaków, co to jest słowo, co to jest akapit i tak dalej. Różne oprogramowanie zrobi to lepiej niż inne, a także zależy od tego, w jaki sposób powstał plik PDF.W każdym razie nigdy nie powinieneś oczekiwać doskonałych rezultatów. Posiadanie wyjściowego pliku PDF nie jest tym samym, co dokument źródłowy. O wiele lepiej jest spróbować to zdobyć, jeśli możesz.
Standardowym rozwiązaniem problemu jest użycie programu Adobe Acrobat Professional( drogi, a nie darmowy czytnik) do przekonwertowania pliku PDF na format HTML.Nawet to nie przyniesie doskonałych rezultatów.
Dostępne jest darmowe oprogramowanie, które może być użyte do wyodrębnienia tekstu z plików PDF z nietkniętymi formatami, ale znowu nie oczekuj doskonałych rezultatów. Zobacz np. Kaliber( który może konwertować do formatu RTF), pdftohtml / pdfreflow lub edytor tekstu AbiWord( z włączonymi wszystkimi wtyczkami importu / eksportu).Istnieje również wtyczka do importowania PDF dla OpenOffice.
Ale nie oczekuj doskonałości z żadnym z tych wyników. Idziecie tutaj przeciwko ziarnu. PDF nie jest po prostu edytowalnym formatem wejściowym.
Jeśli masz kłopot z wyborem narzędzia, od którego zaczynasz, Calibre jest prawdziwym dokumentem szwajcarskiego scyzoryka. Możesz także użyć go do konwersji plików PDF do użytku w czytniku e-booków i uporządkowania biblioteki ebook / dokumentów.
Czy chcesz coś dodać do wyjaśnienia? Dźwięk w komentarzach. Chcesz przeczytać więcej odpowiedzi od innych użytkowników Stack Exchange, którzy znają się na technologii? Sprawdź cały wątek dyskusji tutaj.