Skip to content

AMBERLIGHTSOCIETY.INFO

Amberlight Society

SCARICARE FILE CON WGET


    Contents
  1. I comandi per scaricare con wget.
  2. Scaricare le immagini dei CD/DVD Debian via HTTP/FTP
  3. Scaricare un intero sito internet (o delle cartelle) con wget
  4. usando wget per scaricare tutti i dati da una pagina web - wget

Il mondo Linux mette a disposizione molti programmi per scaricare file da Internet tramite linea di comando. I più popolari sono curl (ora integrato anche in. Se dovessimo scaricare un file da un'area protetta di un sito, possiamo indicare nome utente e password anche in questo modo: $ wget. Lo sapevate che con wget si possono scaricare interi siti?? Utilizzare wget è scarica dal sito specificato solo i file di estensione gif e jpg. mi sento impedito, ma come diavolo si fa con wget a scaricare tutti i file di una determinata pagina web, e solo di quella pagina web?. Un programma molto piccolo ma potente, con wget è possibile scaricare qualsiasi file direttamente dalla shell ma non solo permette anche il download di interi.

Nome: re file con wget
Formato:Fichier D’archive
Sistemi operativi: iOS. Android. Windows XP/7/10. MacOS.
Licenza:Gratuito (* Per uso personale)
Dimensione del file:70.24 MB

Se il download si interrompe, la maggior parte dei browser non è in grado di riprenderlo dal punto al quale era arrivato. Si consiglia di utilizzare uno strumento che supporti il resume. È possibile consultare un confronto dei gestori di download e scegliere il programma che piace di più. Per evitare di scaricare cose inutili, non scaricare i file con le immagini degli altri CD o DVD a meno che non si sia certi che si ha bisogno dei pacchetti in essi contenuti.

Prima di procedere con l'installazione si dovrebbe consultare la documentazione. Volendo leggere un solo documento per l'installazione, leggere l' Installation Howto , una passeggiata di tutto il processo di installazione. Altri documenti utili sono:.

Al momento, ad esempio, il mio Google Chrome su Windows 10 sta comunicando ai vari server quanto segue:. Per scoprire questa stringa possiamo usare gli strumenti di sviluppo integrati nel browser web oppure impiegare un servizio come questo:. Anche curl e wget inviano il proprio user-agent. Sul sistema dal quale ho svolto le prove, si tratta di:. Alcuni server verificano esplicitamente lo user-agent e, quando rilevano che l'utente sta cercando di scaricare tramite un programma diverso da uno dei browser web riconosciuti, impediscono il download.

Per aggirare questa sciocca limitazione basta esplicitare lo user-agent da usare. A questo punto potete ripetere il tentativo di download del file "protetto", utilizzando come user-agent quello di un browser qualsiasi.

Potete, ad esempio, copia-incollare uno dei due esempi Chrome o Firefox su Windows 10 che ho citato poco sopra.

Si tratta di una misura di sicurezza in più che garantisce l'integrità e l'autenticità dei file scaricati ma, in alcune circostanze, è necessario forzare e scaricare comunque. Allo scopo, bisogna esplicitare un argomento in più:.

In questa guida abbiamo visto come scaricare un file da linea di comando con Windows 10 o Linux tramite wget e curl. Entrambi i comandi prevedono molte altre opzioni che ne modificano il comportamento. Per maggiori informazioni, si veda la rispettiva documentazione ufficiale:. Windows Novembre 20H1 Aprile Questo articolo è stato scritto mesi fa!

Il download è non interattivo, si esegue il comando facendolo puntare su un indirizzo e impostandone il comportamento sono disponibili molte opzioni. Il processo di download, se nel comando scritto non ci sono errori e se l'indirizzo è corretto o raggiungibile, viene eseguito in background.

Con wget possiamo scaricare file attraverso la rete oppure creare la versione locale di un sito. La sintassi del comando è la seguente: wget opzioni url. Se non indichiamo al comando un url quest'ultimo si limiterà a scaricare il file indicato proprio dall'url nella directory di lavoro. Il mirroring di un sito simile richiede che Wget mandi gli stessi cookie mandati dal browser nel comunicare con il sito.

I comandi per scaricare con wget.

Browser differenti mantengono i file dei cookie in locazioni differenti: Netscape 4. Mozilla e Netscape 6. Internet Explorer. La procedura è stata testata con Internet Explorer 5, non si garantisce il funzionamento con altre versioni. Altri browsers. I cookie il cui tempo di vita non è specificato, o che sono già annullati espirati , non verranno salvati. Tramite quest'opzione, Wget ignorerà l'intestazione Content-Length , come se mai fosse esistita.

Wget codificherà questi dati con lo schema di autenticazione basic. Utile per il recupero di documenti con elaborazione dal server, che assume che questi vengano sempre recuperati da browser web interattivi e terminano correttamente solo se il Referer è impostato a una delle pagine che puntano a questi documenti. Questo permette di distinguere il software per WWW, di solito per scopi statistici o per tracciare violazioni di protocollo.

Peraltro, alcuni siti seguono la politica di modificare la loro uscita in accordo alle informazioni ricevute con User-Agent. Concettualmente non è una cattiva idea, ma essa è abusata da server che negano informazioni a client diversi da Mozilla o Microsoft Internet Explorer. Quest'opzione permette di cambiare la linea User-Agent spedita da Wget. L'uso di quest'opzione peraltro è sconsigliato, a meno che non si sappia cosa si sta facendo. Normalmente questi file contengono l'elenco grezzo delle directory ricevuto da server FTP.

Anche se questa situazione non è problematica, comunque, root non dovrebbe mai lanciare Wget nella directory di un utente non fidato. Si potrebbe dover quotare l'URL per proteggerla da un'espansione effettuata dalla shell in cui si lavora. Il globbing porta Wget a cercare un elenco di directory, che è specifico del sistema. Al contrario, viene creato un link simbolico corrispondente nel file system locale. Il file puntato non verrà scaricato, a meno che il download ricorsivo l'abbia incontrato separatamente e scaricato comunque.

Attualmente, quest'opzione non forza Wget a interpretare link simbolici a directory e ricorrere attraverso di esse, ma in futuro dovrebbe venire potenziato a questo scopo. Si noti che nel recupero di un file non di una directory che era stato specificato nella linea di comando piuttosto che a causa di un download ricorsivo quest'opzione non ha effetto. I link simbolici sono sempre attraversati in questo caso.

Si consulti Recursive Retrieval per dettagli. La massima profondità predefinita è 5. Questo non influenza solo gli hyperlink visibili, ma ogni parte del documento che si colleghi a contenuti esterni, come immagini, collegamenti a fogli di stile, hyperlink a contenuti non HTML ecc.

Scaricare le immagini dei CD/DVD Debian via HTTP/FTP

Ogni link verrà cambiato in una di queste due vie: I collegamenti a file non ancora scaricati da Wget verranno cambiati per riferire il file a cui puntano come link relativo. Questo tipo di trasformazione funziona bene per combinazioni arbitrarie di directory. I collegamenti a file che non sono stati scaricati da Wget verranno cambiati per includere il nome dello host e il percorso assoluto della locazione a cui puntano.

Grazie a questo comportamento il browsing in locale funziona in modo affidabile: se un file collegato è stato scaricato, il link si riferirà al suo nome locale; se non è stato scaricato, il collegamento si riferirà all'indirizzo Internet completo piuttosto che presentare un collegamento danneggiato. Il fatto che i link precedenti vengano convertiti in link relativi assicura che si possa spostare la gerarchia scaricata in un'altra directory. Quest'opzione attiva la ricorsione e il time-stamping, imposta una profondità infinita per la ricorsione e mantiene gli elenchi di directory FTP.

Questo include cose come le immagini inline, i suoni e i fogli di stile riferiti. Normalmente, nello scaricamento di una singola pagina HTML, i documenti che potrebbero essere necessari alla sua visualizzazione non vengono scaricati.

I collegamenti da quella pagina a documenti esterni non verranno seguiti. Si consulti la sezione Scorrere host.

Senza quest'opzione, Wget ignorerà tutti i collegamenti FTP. Se un utente vuole considerare solo un sottoinsieme di questi tag, dovrebbe specificarli in una lista di elementi separati da virgole con quest'opzione. Per tralasciare certi tag HTML nella ricerca ricorsiva di documenti da scaricare, li si specifichi qui in una lista di elementi separati da virgole. Utile nel recuperare una specifica home page senza distrazioni, nemmeno quelle provenienti dall'host medesimo si consulti la sezione Collegamenti relativi.

Gli elementi della lista list possono contenere i caratteri jolly. Si consulti la sezione Limiti di directory , per ulteiori dettagli. Recupero ricorsivo. Viene chiamato recupero ricorsivo , o ricorsione.

The default maximum depth is five layers. Nel recuperare ricorsivamente un URL FTP, Wget recupererà tutti i dati dalla data directory incluse le subdirectory fino alla profondità specificata sul server remoto, creandone un'immagine mirror locale. Anche il recupero FTP è limitato dal parametro depth. Pre default, Wget creerà un albero locale di directory corrispondente a quello trovato sul server remoto.

Bisogna tenere in mente che i recuperi ricorsivi possono sovraccaricare il server remoto. Per questo motivo, molti amministratori di sistema li disapprovano e potrebbero bandirvi dal sito se rilevano rapidi download di grandi quantità di dati.

Il download impiegherà più tempo, ma l'amministratore del server non sarà allarmato dalla rudezza. Ovviamente, il download ricorsivo potrebbe causare problemi anche alla macchina locale.

Se lasciato a sé potrebbe facilmente riempire tutto il disco. Si cerchi di specificare i criteri che corrispondono al tipo di download si sta cercando di effettuare.

Si consulti la sezione Seguire collegamenti , per dettagli.

Scaricare un intero sito internet (o delle cartelle) con wget

Durante un recupero ricorsivo, si desidera non scaricare dati non necessari. Per la maggior parte dei casi l'utente ha chiaro in mente quel che vuole scaricare, e vuole che Wget segua solo collegamenti specifici.

Wget dispone di molti meccanismi che permettono di calibrare finemente quali collegamenti dovrà seguire. La funzione di download ricorsivo di Wget normalmente si rifiuta di visitare host diversi da quello specificato sulla linea di comando. Questo è un comportamento ragionevole; senza di esso, qualsiasi recupero potrebbe trasformare Wget in una versione ridotta di google.

Peraltro la visita di host differenti host spanning è alle volte utile. Scaricando materiale dal web, spesso si vuole restringere il recupero solo a certi tipi di file. Per esempio, se si è interessati a scaricare immagini GIF, non sarà gradevole scaricare una massa di documenti PostScript ecc.

Wget offre due opzioni per trattare il problema. Per cui, se si vuole scaricare un'intera pagina escludendo gravosi file MPEG e. Le virgolette servono per prevenire l'espansione dei caratteri jolly da parte della shell. Si noti che queste due opzioni non riguardano il recupero di file HTML; Wget deve scaricare tutti i file HTML per sapere dove andare -- in caso contrario il recupero ricorsivo non avrebbe senso.

A parte le altre funzioni di inseguimento dei collegamenti, è spesso utile porre restrizioni a quali file recuperare, basandosi sulle directory in cui questi file sono posti. Wget offre tre diverse opzioni per trattare queste richieste. Ogni altra directory verrà semplicemente ignorata. Le directory sono specificate con i loro percorsi assoluti. Usare quest'opzione garantisce che la gerarchia esistente non verrà mai lasciata. Solo l'archivio a cui si è interessati verrà scaricato.

Collegamenti relativi. I collegamenti relativi sono qui definiti come quelli che non si riferiscono alla radice del server web. Per esempio, i seguenti sono collegamenti relativi:.

usando wget per scaricare tutti i dati da una pagina web - wget

In casi semplici, permette allo scaricamento di funzionare senza dover convertire collegamenti. Quest'opzione probabilmente non è particolarmente utile, e potrebbe venire rimossa in una versione futura.

Le regole riguardanti l'FTP sono in qualche modo specifiche, dato che è necessario che lo siano. Si noti inoltre che i collegamenti a directory FTP seguiti non verranno recuperati in modo ricorsivo. Uno degli aspetti più importanti nel mirroring di informazioni dalla rete è l'aggiornamento dei propri archivi. Scaricare un intero archivio ripetutamente solo per rimpiazzare pochi file modificati è costoso, in termini di banda e di denaro, e di tempo necessario all'aggiornamento.

Ecco perché tutti i tool di mirroring forniscono una funzione di aggiornamento incrementale. Un meccanismo come questo implica che il server remoto viene analizzato in cerca di nuovi file. Solo questi nuovi file verranno scaricati al posto dei precedenti.

Per implementare questo controllo, il programma deve conoscere la data dell'ultima modifica dei file locale e remoto. Quest'informazione viene chiamata impronta temporale o time-stamp del file.

Con questa opzione, per ogni file da scaricare, Wget controlla che esista un file locale con lo stesso nome. Se esiste, e il file remoto è più vecchio del file locale, Wget non eseguirà lo scaricamento. Se il file locale non esiste, o le dimensioni dei file non corrispondono, Wget scaricherà il file remoto senza interessarsi delle impronte temporali. L'uso del time-stamping è semplice. A complicare le cose c'è anche il fatto che tali link sono rappresentati da oggetti ben definiti, chiamati url uniform resource locator , che consentono di definire collegamenti ad altri documenti in siti ospitati da altri server.

A questo punto capirete perché si parli di web, ovvero di "ragnatela" quando ci si riferisce al web e di quanto debba essere flessibile e complesso un programma come wget, che proprio con il web ha a che fare. Esempi elementari Per capire meglio come funziona questo programma, facciamo qualche esempio pratico. Supponiamo che vogliate scaricare un documento consigliatovi da un vostro amico e che sapete conterrà delle immagini. Immaginiamo quindi che l'url sia in " www.

Alla fine download vi ritroverete con il documento "doc È quindi necessario rendere ancora più complessa la nostra linea di comando, imponendo delle limitazioni al numero di file da scaricare.

Limitiamoci Prima di proseguire, affrontando l'argomento limitazioni, conviene chiarire bene il significato dei termini "livello" e "profondità". Facendo riferimento alla prima figura, potete immaginare l'url come un indicatore che si riferisce ad un nodo specifico dell'albero. Adesso guardiamo l'immagine in questra pagina, dove al centro è stato messo tale nodo: da quest'ultimo dipartono alcuni rami che rappresentano collegamenti ad altrettanti nodi dell'albero, e che rappresentano il "vicinato".

I nodi del vicinato sono caratterizzati dal fatto che sono tutti raggiungibili da quello centrale attraversando un solo ramo e per questo si dice che si trovano nel "primo livello". La "profondità" di attraversamento è il numero massimo di livelli che si possono attraversare per raggiungere un nodo periferico a partire da un nodo centrale.

Il concetto di profondità di livello è centrale in wget, perché rappresenta il fattore primario in grado di limitare l'attraversamento di un sito.

Facciamo un esempio: se aggiungiamo alla precedente stringa il valore -l 1 wget -Sr -l 1 www.