12Sep
Tutti noi adoriamo scaricare materiale da Internet e ci sono un sacco di ottimi strumenti per il download manager che possiamo usare per pianificare i nostri download. Potrebbe essere più semplice usare un gestore di download, ma non c'è nulla di male nell'esplorare gli strumenti che già vengono forniti con Ubuntu e sfruttarli appieno.
In questo articolo ti mostreremo un software integrato in Ubuntu che possiamo usare per scaricare materiale da Internet usando wget .Inoltre, ti mostreremo come pianificare il download utilizzando Cron.
Download utilizzando Wget
Wget è un pacchetto software gratuito per il recupero di file tramite HTTP, HTTPS e FTP, i protocolli Internet più utilizzati.È uno strumento da riga di comando non interattivo, quindi può essere facilmente chiamato da script, cron jobs, terminali senza supporto X-Windows, ecc.
Apri il tuo terminale ed esploriamo come possiamo usare wget per scaricare elementi dalla rete. La sintassi di base del download con wget è la seguente:
wget [opzione]. .. [URL]. ..
Questo comando scaricherà il manuale di wget nell'unità locale
wget http: //www.gnu.org/software/wget/manual/ wget.pdf
Linux Cron
Ubuntu viene fornito con un crondaemon utilizzato per pianificare le attività da eseguire in un determinato momento. Crontab ti permette di specificare azioni e tempi che dovrebbero essere eseguiti. In questo modo si pianifica normalmente un'attività utilizzando lo strumento della riga di comando.
Apre una finestra di terminale e inserisce crontab -e.
Ciascuna sezione di un crontab è separata da uno spazio, con la sezione finale che contiene uno o più spazi. Una voce cron è composta da minuti( 0-59), ore( 0-23, 0 = mezzanotte), giorno( 1-31), mese( 1-12), giorno della settimana( 0-6, 0 = domenica), comando. La terza voce di cui sopra crontab scarica wget.pdf alle 2 del mattino. La prima voce( 0) e la seconda voce( 2) significa 2:00.La terza alla quinta voce( *) indica qualsiasi ora del giorno, mese o settimana. L'ultima voce è il comando wget per scaricare wget.pdf dall'URL specificato.
Questa è la base su wget e su come funziona Cron. Prendiamo un bottino per un esempio di vita reale su come pianificare un download.
Scheduling Download
Stiamo per scaricare Firefox 3.6 alle 2 AM. Dal momento che il nostro ISP fornisce solo una quantità limitata di dati, dobbiamo interrompere il download alle 8 del mattino. Questo è l'aspetto del setup.
Ignora le prime 2 voci in crontab sopra. Il terzo e il quarto comando sono gli unici 2 comandi di cui hai bisogno. Il terzo comando imposta un'attività che scaricherà Firefox alle 2:00:
[codice]
0 2 * * * wget -c http: //download.mozilla.org/? Product = firefox-3.6.6 & os = win & lang = it-GB
[/ code]
Le opzioni -c indicano che wget dovrebbe riprendere il download esistente se non è stato completato.
Il quarto comando interromperà wget alle 8 del mattino.'Killall' è un comando unix che uccide i processi per nome.
[codice]
0 8 * * * killall wget
[/ code]
Il killall wget dice a Ubuntu di impedire a wget di scaricare il file alle 8 del mattino.
Altri comandi wget utili
1. Specifica della directory per scaricare un file
[codice]
wget -output-document = /home/zainul/Downloads/ wget manual.pdf http: //www.gnu.org/software/wget/manual/ wget.pdf
[/ code]
l'opzione -output-document consentesi specifica la directory e il nome del file che si scarica
2. Download di un sito Web
wget è anche in grado di scaricare un sito Web.
[codice]
wget -m http: //www.google.com/profiles/ zainul.franciscus
[/ code]
Il comando sopra riportato scaricherà la mia intera pagina web del profilo google. L'opzione '-m' dice a wget di scaricare un'immagine 'speculare' dell'URL specificato.
Un'altra opzione importante è quella di dire a wget quanti collegamenti dovrebbe seguire quando scarica un sito web.
[codice]
wget -r -l1 http: //www.google.com/profiles/ zainul.franciscus
[/ code]
Il comando wget precedente utilizza due opzioni. La prima opzione '-r' dice a wget di scaricare ricorsivamente il sito web specificato. La seconda opzione '-l1' dice a wget di ottenere solo il primo livello di link dal sito web specificato. Possiamo impostare fino a tre livelli '-l2' e '-l3'.
3. Ignorando la voce del robot
Il master Webgestisce un file di testo denominato Robot.txt.'Robot.txt' mantiene un elenco di URL che un crawler di pagine Web come wget non dovrebbe eseguire la scansione. Possiamo dire a wget di ignorare l'opzione 'Robot.txt' con '-erobots = off'.Il seguente comando dice a wget di scaricare la prima pagina del mio profilo google e di ignorare il 'Robot.txt.
[codice]
wget -erobots = off http: //www.google.com/profiles/ zainul.franciscus
[/ code]
Un'altra opzione utile è -U.Questa opzione maschererà wget come browser. Prendete nota che mascherare un'applicazione come un'altra applicazione può violare il termine e il servizio di un fornitore di servizi web.
[codice]
wget -erobots = off -U Mozilla http: //www.google.com/profiles/ zainul.franciscus
[/ code]
Conclusione
Wget è un pacchetto software GNU molto vecchio ma hackerabile che possiamo usare per scaricare file. Wget è uno strumento da riga di comando interattivo che significa che possiamo lasciarlo girare sul nostro computer in background senza dover avviare alcuna applicazione. Controlla la pagina man wget
[codice]
$ man wget
[/ code]
per capire altre opzioni che possiamo usare con wget.
Links
Wget Manual
Come combinare due file scaricati quando wget fallisce a metà strada tramite
Linux QuickTip: download e smascheramento in un solo passaggio