12Sep
Wszyscy lubimy pobierać rzeczy z Internetu, a jest mnóstwo świetnych narzędzi do zarządzania plikami, które możemy wykorzystać do planowania pobierania. Korzystanie z menedżera pobierania może być prostsze, ale nie ma nic złego w odkrywaniu narzędzi, które są już dostępne w naszym Ubuntu i w pełni go wykorzystują.
W tym artykule pokażemy Wbudowane oprogramowanie w Ubuntu, którego możemy użyć do pobrania rzeczy z Internetu za pomocą wget .Oprócz tego pokażemy, jak zaplanować pobieranie za pomocą Cron.
Pobieranie przy użyciu Wget
Wget to pakiet wolnego oprogramowania do pobierania plików za pomocą HTTP, HTTPS i FTP, najczęściej używanych protokołów internetowych. Jest to nieinterakcyjne narzędzie wiersza poleceń, więc można je łatwo wywołać ze skryptów, zadań crona, terminali bez obsługi X-Windows, itp.
Otwórz terminal i sprawdźmy, jak możemy użyć wget do pobierania rzeczy z sieci. Podstawowa składnia pobierania z wget jest następująca:
wget [opcja]. .. [URL]. ..
Polecenie to pobierze instrukcję wget na twój dysk lokalny
wget http: //www.gnu.org/software/wget/manual/ wget.pdf
Linux Cron
Ubuntu jest dostarczany z cronemdemon używany do planowania zadań do wykonania w określonym czasie. Crontab pozwala ci określić akcje i czasy ich wykonania. W ten sposób zwykle planujesz zadanie za pomocą narzędzia wiersza poleceń.
Otwórz okno terminalu i wpisz crontab -e.
Każda z sekcji w pliku crontab jest oddzielona spacją, a ostatnia sekcja zawiera jedną lub więcej spacji. Wpis crona składa się z minuty( 0-59), godziny( 0-23, 0 = północ), dnia( 1-31), miesiąca( 1-12), dnia tygodnia( 0-6, 0 = niedziela), polecenia. Trzeci wpis w powyższym crontab pobiera pliki wget.pdf o 2 rano. Pierwszy wpis( 0) i drugi wpis( 2) oznaczają 2:00.Trzeci do piątego wpisu( *) oznacza dowolną porę dnia, miesiąca lub tygodnia. Ostatni wpis to polecenie wget, aby pobrać plik wget.pdf z podanego adresu URL.
To jest podstawowa funkcja wget i jak działa Cron. Weźmy łup na przykład, jak zaplanować pobieranie.
Planowanie pobierania
Pobieramy Firefox 3.6 o 2 rano. Skoro nasz ISP podaje tylko ograniczoną ilość danych, musimy zatrzymać pobieranie o 8 rano. Tak wygląda konfiguracja.
Zignoruj pierwsze 2 wpisy w powyższym pliku crontab. Trzecie i czwarte polecenie są jedynymi 2 poleceniami, których potrzebujesz. Trzecie polecenie konfiguruje zadanie, które pobierze Firefoksa o godzinie 2:
[kod]
0 2 * * * wget -c http: //download.mozilla.org/? Produkt = firefox-3.6.6 & os = win & lang = en-GB
[/ code]
Opcje -c oznaczają, że wget powinien wznowić istniejące pobieranie, jeśli nie zostało ono zakończone.
Czwarta komenda zatrzyma wget o 8 rano.'Killall' jest poleceniem unix, które zabija procesy według nazwy.
[kod]
0 8 * * * killall wget
[/ code]
The killall wget mówi Ubuntu, aby powstrzymał wget przed pobraniem pliku o 8 rano.
Inne użyteczne polecenia wget
1. Określanie katalogu do pobrania pliku
[kod]
wget -output-document = /home/zainul/Downloads/ wget manual.pdf http: //www.gnu.org/software/wget/manual/ wget.pdf
[/ code]
opcja -output-document letsokreślasz katalog i nazwę pliku, który pobierzesz
2. Pobieranie strony internetowej
wget jest również w stanie pobrać stronę internetową.
[kod]
wget -m http: //www.google.com/profiles/ zainul.franciscus
[/ code]
Powyższe polecenie spowoduje pobranie całej mojej strony internetowej profilu google. Opcja "-m" nakazuje wget pobranie "lustrzanego" obrazu określonego adresu URL.
Kolejną ważną opcją jest powiedzenie wget, ile linków powinno nastąpić podczas pobierania witryny.
[kod]
wget -r -l1 http: //www.google.com/profiles/ zainul.franciscus
[/ code]
Powyższe polecenie wget używa dwóch opcji. Pierwsza opcja "-r" mówi wget, aby pobrać rekursywnie określoną witrynę.Druga opcja "-l1" mówi wget, aby uzyskać tylko pierwszy poziom linków z określonej strony. Możemy ustawić do trzech poziomów "-l2" i "-l3".
3. Ignorowanie wejścia robota
Web master utrzymuje plik tekstowy o nazwie Robot.txt."Robot.txt" utrzymuje listę adresów URL, których robot indeksujący strony internetowe, taki jak wget, nie powinien przeszukiwać.Możemy powiedzieć wget, aby zignorował plik "Robot.txt" z opcją "-erobots = off".Poniższe polecenie mówi wget, aby pobrać pierwszą stronę mojego profilu google i zignorować plik "Robot.txt".
[kod]
wget -erobots = off http: //www.google.com/profiles/ zainul.franciscus
[/ code]
Kolejną przydatną opcją jest -U.Ta opcja maskuje wget jako przeglądarkę.Zauważ, że maskowanie aplikacji jako innej aplikacji może naruszyć termin i usługę dostawcy usług internetowych.
[kod]
wget -erobots = off -U Mozilla http: //www.google.com/profiles/ zainul.franciscus
[/ code]
Wniosek
Wget to bardzo stary szkolny pakiet oprogramowania GNU, który można wykorzystać do pobierania plików. Wget to interaktywne narzędzie wiersza poleceń, co oznacza, że możemy pozwolić mu działać na naszym komputerze w tle bez konieczności uruchamiania jakiejkolwiek aplikacji. Sprawdź stronę wget man
[kod]
$ man wget
[/ code]
, aby zrozumieć inne opcje, których możemy użyć z wget.
Łącza
Podręcznik Wget
Jak połączyć dwa pobierane pliki Gdy wget zawiedzie w połowie
Linux QuickTip: Pobieranie i usuwanie z pamięci w jednym kroku