12Sep

Construiți un planificator de descărcare cu puțină abilitate de programare

click fraud protection

Cu toții le place să descarce lucruri de pe internet și există grămezi de instrumente de manager de descărcări foarte bune pe care le putem folosi pentru a programa descărcările noastre. S-ar putea să fie mai ușor să utilizați un manager de descărcare, dar nu există nici un rău în explorarea instrumentelor care apar deja cu Ubuntu și să îl folosiți pe deplin.

În acest articol vă vom arăta un software construit în Ubuntu pe care îl putem folosi pentru a descărca chestii de pe internet folosind wget .În plus, vă vom arăta cum să programați descărcarea utilizând Cron.

Descărcare Utilizarea Wget

Wget este un pachet software gratuit pentru recuperarea fișierelor utilizând HTTP, HTTPS și FTP, cele mai utilizate protocoale Internet. Este un instrument non-interactiv pentru linia de comanda, deci poate fi usor apelat din script-uri, job-uri cron, terminale fara suport X-Windows etc.

Deschideti terminalul si sa exploram modul in care putem folosi wget pentru a descarca lucruri de pe net. Sintaxa de bază a descărcării cu wget este următorul:

instagram viewer

wget [opțiune]. .. [URL]. ..

Această comandă va descărca manualul wget în unitatea locală

wget http: //www.gnu.org/software/wget/manual/ wget.pdf

Linux Cron

Ubuntu vine cu un crondaemon utilizat pentru programarea sarcinilor care urmează a fi executate la un moment dat. Crontab vă permite să specificați acțiunile și orele în care acestea ar trebui executate. Acesta este modul în care ați programa în mod normal o sarcină utilizând instrumentul pentru linia de comandă.

Deschideți o fereastră terminal și introduceți crontab -e.

Fiecare secțiune dintr-un crontab este separată de un spațiu, secțiunea finală având unul sau mai multe spații în el. O intrare cron constă în minute( 0-59), oră( 0-23, 0 = miezul nopții), zi( 1-31), lună( 1-12), săptămână( 0-6, 0 = duminică).A treia intrare în crontabul de mai sus descarcă wget.pdf la ora 2 dimineața. Prima intrare( 0) și a doua intrare( 2) înseamnă 2:00.A treia până la a cincea intrare( *) înseamnă orice oră din zi, lună sau săptămână.Ultima intrare este comanda wget pentru a descărca wget.pdf din adresa URL specificată.

Asta este de bază pe wget și cum funcționează Cron. Să luăm o pradă într-un exemplu de viață reală despre cum să programați o descărcare.

Programare Descărcați

Vom descărca Firefox 3.6 la ora 2 AM.Deoarece ISP oferă doar o cantitate limitată de date, trebuie să oprim descărcarea la ora 8 AM.Acesta este aspectul configurației.

Ignoră primele 2 intrări în crontabul de mai sus. A treia și a patra comandă sunt singurele două comenzi de care aveți nevoie. A treia configurare de comandă o sarcină care va descărca Firefox de la 2 AM:

[cod]
0 2 * * * wget -c http: //download.mozilla.org/ produs = firefox-3.6.6 & os = câștiga & lang = ro-RO
[/ code]

Opțiunile -c indică faptul că wget ar trebui să reia descărcarea existentă dacă nu a fost finalizată.

A patra comandă se va opri la ora 8 dimineața."Killall" este o comandă unix care ucide procesele după nume.

[code]
0 8 * * * killall wget
[/ code]

Wget-ul killall spune Ubuntu să oprească wget de la descărcarea fișierului la 8 AM.Comenzi

Alte wget utile

1. Specificarea directorul pentru a descărca un fișier

[cod]
wget -output document = /home/zainul/Downloads/ wget Manual.pdf http: //www.gnu.org/software/wget/manual/ wget.pdf
[/ code]

opțiunea -output-document care permitespecificați directorul și numele fișierului pe care îl descărcați

2. Descărcarea unui site web

wget este de asemenea capabil să descarce un site Web.

[code]
wget -m http: //www.google.com/profiles/ zainul.franciscus
[/ code]

Comanda de mai sus va descărca întreaga mea pagină web a profilului Google. Opțiunea "-m" îi spune lui wget să descarce o imagine "mirror" a adresei URL specificate.

O altă opțiune importantă este de a spune wget câte linkuri ar trebui să aibă în vedere atunci când descarcă un site Web.

[cod]
wget -r -L1 http: //www.google.com/profiles/ zainul.franciscus
[/ code]

de mai sus wget de comandă utilizează două opțiuni. Prima opțiune '-r' spune Wget să descarce site-ul web specificat recursiv. A doua opțiune "-l1" îi spune lui wget să obțină doar primul nivel de link-uri de pe acel site specificat. Putem seta până la trei niveluri "-12" și "-13".

3. Ignorarea intrării robotului

Web master menține un fișier text numit Robot.txt."Robot.txt" menține o listă de adrese URL pe care un crawler de pagină web, cum ar fi wget, nu ar trebui să acceseze cu crawlere. Putem spune wget să ignore opțiunea 'Robot.txt' cu '-erobots = off'.Următoarea comandă îi spune lui wget să descarce prima pagină a profilului meu google și să ignore "Robot.txt".

[cod]
wget -erobots = dezactivat http: //www.google.com/profiles/ zainul.franciscus
[/ code]

O altă opțiune utilă este -U.Această opțiune va masca wget ca browser. Rețineți că mascarea unei aplicații ca o altă aplicație poate încălca termenul și serviciul unui furnizor de servicii web.

[code]
wget -erobots = off -U Mozilla http: //www.google.com/profiles/ zainul.franciscus
[/ code]

Concluzie

Wget este un pachet foarte vechi de școală, încă hackble GNU, pe care le putem folosi pentru a descărca fișiere. Wget este un instrument interactiv de linie de comandă, ceea ce înseamnă că îl putem lăsa să ruleze pe computerul nostru în fundal fără a fi nevoie să pornească nici o aplicație. Verificați pagina man wget

[code]
$ man wget
[/ code]

pentru a înțelege alte opțiuni pe care le putem folosi cu wget.

Linkuri

Wget Manual
Cum se combină două fișiere descărcate Când wget nu reușește la jumătatea drumului prin
Linux QuickTip: Descărcarea și un-tartering într-un singur pas