29Jun

Jak przekonwertować plik PDF do edytowalnego tekstu za pomocą wiersza poleceń w systemie Linux

Istnieje wiele powodów, dla których warto przekonwertować plik PDF na tekst do edycji. Może trzeba zmienić stary dokument, a wszystko, co masz, to jego wersja PDF.Konwersja plików PDF w systemie Windows jest łatwa, ale co jeśli używasz Linuksa?

Bez obaw. Pokażemy, jak łatwo konwertować pliki PDF na tekst edytowalny za pomocą narzędzia wiersza poleceń o nazwie pdftotext, które jest częścią pakietu "poppler-utils".To narzędzie może być już zainstalowane. Aby sprawdzić, czy pdftotext jest zainstalowany w systemie, naciśnij "Ctrl + Alt + T", aby otworzyć okno terminala. Wpisz następujące polecenie w wierszu polecenia i naciśnij "Enter".

dpkg -s poppler-utils

UWAGA: Kiedy mówimy, aby wpisać coś w tym artykule i są cytaty wokół tekstu, NIE wpisuj cytatów, chyba że określimy inaczej.

Jeśli pdftotext nie jest zainstalowany, wpisz następujące polecenie w wierszu polecenia i naciśnij klawisz "Enter".

sudo apt-get install poppler-utils

Po wyświetleniu zapytania wpisz swoje hasło i naciśnij "Enter".

W pakiecie poppler-utils dostępnych jest kilka narzędzi do konwersji plików PDF do różnych formatów, manipulowania plikami PDF i wydobywania informacji z plików.

Poniżej znajduje się podstawowe polecenie konwersji pliku PDF do edytowalnego pliku tekstowego. Naciśnij "Ctrl + Alt + T", aby otworzyć okno terminala, wpisz polecenie w monicie i naciśnij "Enter".

pdftotext /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt

Zmień ścieżkę do każdego pliku odpowiadającą lokalizacji i nazwie oryginalnego pliku PDF i miejscu, w którym chcesz zapisać wynikowy plik tekstowy. Zmień także nazwy plików, aby odpowiadały nazwom twoich plików.

Plik tekstowy jest tworzony i można go otworzyć tak, jak otworzysz dowolny inny plik tekstowy w systemie Linux.

Przekonwertowany tekst może zawierać podziały wierszy w miejscach, których nie chcesz. Podziały linii wstawiane są po każdym wierszu tekstu w pliku PDF.

Możesz zachować układ dokumentu( nagłówki, stopki, stronicowania itp.) Z oryginalnego pliku PDF w przekonwertowanym pliku tekstowym za pomocą flagi "-layout".

pdftotext -layout /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt

Jeśli chcesz przekonwertować tylko zakres stron w pliku PDF, użyj znaczników "-f" i "-l"( małe litery "L"), aby określićpierwsza i ostatnia strona zakresu, który chcesz przekonwertować.

pdftotext -f 5 -l 9 /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt

Aby przekonwertować plik PDF, który jest chroniony i zaszyfrowany hasłem właściciela, użyj flagi "-opw"( pierwszy znak w nazwie flagi to mała litera "O ", a nie zero).

pdftotext -opw 'password' /home/lori/Documents/ Sample.pdf /home/lori/Documents/ Sample.txt

Zmień "hasło" na używane do ochrony oryginalnego konwertowanego pliku PDF.Upewnij się, że są pojedyncze cudzysłowy, a nie podwójne, wokół "hasła".

Jeśli plik PDF jest chroniony i szyfrowany hasłem użytkownika, użyj flagi "-upw" zamiast flagi "-opw".Reszta polecenia jest taka sama.

Można również określić typ znaku końca wiersza zastosowanego do przekonwertowanego tekstu. Jest to szczególnie przydatne, jeśli planujesz uzyskać dostęp do pliku w innym systemie operacyjnym, takim jak Windows lub Mac. Aby to zrobić, użyj flagi "-eol"( środkową postacią flagi jest mała litera "O", a nie zero), po której następuje spacja i typ znaku końca wiersza, którego chcesz użyć( "unix "," dos "lub" mac ").

UWAGA: Jeśli nie określisz nazwy pliku dla pliku tekstowego, pdftotext automatycznie użyje podstawy nazwy pliku PDF i doda rozszerzenie ".txt".Na przykład "plik.pdf" zostanie przekonwertowany na "plik.txt".Jeśli plik tekstowy zostanie określony jako "-", przekonwertowany tekst zostanie wysłany na standardowe wyjście, co oznacza, że ​​tekst jest wyświetlany w oknie Terminala i nie jest zapisywany w pliku.

Aby zamknąć okno Terminal, kliknij przycisk "X" w lewym górnym rogu.

Aby uzyskać więcej informacji o poleceniu pdftotext, wpisz "man pdftotext" w monicie w oknie terminala.