Aspirer un site avec wget

25 septembre 2010

Ce n’est pas un sujet nouveau. Mais trouver de l’info sur le sujet n’est pas toujours aisé.

Je demanderais aux gens qui voudraient aspirer les sites de faire attention, ceci peut mettre à genoux un serveur, donc il faut faire attention. Le but de l’aspiration est d’obtenir Off-Line des infos du web. Il est parfois plus sympathique de contacter le gestionnaire du site pour lui demander s’il peut donner les infos via un autre moyen (comme une extraction du contenu de ses pages).
Cependant, il y a des moyens de ne pas monopoliser la bande passante du serveur et de ne pas gêner les autres utilisateurs.

Cette manip ne marchera pas sur tous les serveurs web, car il existe des moyens de se protéger de l’aspiration (entre autre pour des raisons de BP).

Voici une commande utile :
wget -r -k -E -np http://tar.get/wanted/directory/

Donc la cible est http://tar.get/wanted/directory/. Les options :

-r pour parcourir tous les liens du sites.
-k conversion des liens en liens locaux.
-E conversion php vers HTML, pour relire aisément avec Firefox.
-np pour ne pas remonter dans l’arborescence du site

D’autre options utiles :

-lX, où X est un entier, pour ne parcourir que X niveaux de l’arborescence du site.
-c pour continuer un téléchargement interrompu.
–load-cookies si nécessaire.

Les options pour ne pas pourir le serveur :

–limit-rate X, pour limiter la Bande Passante à X B/s
-w X pour attendre X secondes entre chaque téléchargement de fichiers.
-T X au bout de X secondes wget abandonne le téléchargement d’un fichier.

20 commentaires leave one →

korbe permalink

25 septembre 2010 12 h 57 mi

Hello. Merci pour l’info, mais comment faire pour récupérer aussi le CSS?

J’avais déjà tenté sur un site Web de Cisco, mais sans le CSS…

Réponse
- boutor permalink*
  
  26 septembre 2010 16 h 50 mi
  
  Effectivement ça ne chope pas les CSS.
  Je n’ai rien trouvé pour ça.
  
  Réponse
Éric Noël permalink

25 septembre 2010 15 h 55 mi

Pour un site sécurisé, ajouté l’option –no-check-certificat

wget -r -k -E -np –no-check-certificate https://tar.get/wanted/directory/

Réponse
ApolloNet permalink

27 septembre 2010 8 h 06 mi

Pour ceux qui préfère avec interface graphique, il y a HTTRACK : http://doc.ubuntu-fr.org/httrack

Réponse
zobi8225 permalink

27 septembre 2010 11 h 24 mi

et pour choper un site qui demande un acces login / passe ?
Une idée ?

Réponse
- boutor permalink*
  
  27 septembre 2010 15 h 15 mi
  
  Non pas d’idée. Et ça doit dépendre du type de session créée sur le serveur.
  
  Réponse
- jeans permalink
  
  1 décembre 2011 20 h 41 mi
  
  –http-user et –http-password
  
  Réponse
Bedoskil permalink

8 juillet 2012 10 h 27 mi

Bonjour merci pour cette petite commande bien utile, est il possible de modifier la commande pour n’aspirer que les email present sur les pages web du site et les stoker dans un fichier?

Réponse
- boutor permalink*
  
  8 juillet 2012 19 h 16 mi
  
  La combiner avec un grep ou un script awk devrait le faire.
  
  Réponse
saida permalink

16 juillet 2013 14 h 10 mi

comment je peux avoir seulement le théme d’un site??

Réponse
- boutor permalink*
  
  27 juillet 2013 8 h 38 mi
  
  Je ne comprends pas bien la question.
  Peut-être parles-tu des feuillets de style?
  
  Réponse
Walid Amri permalink

22 février 2015 12 h 31 mi

bonjour , comment aspiter uniquement les adresses email?

Réponse
- Papa Ben permalink*
  
  22 février 2015 14 h 30 mi
  
  Je te conseille de le faire en post-traitement, avec un script en python par exemple.
  
  Réponse
  - Walid Amri permalink
    
    22 février 2015 15 h 25 mi
    
    merci, mais je suis pas expert, il semble que ‘grep’ est puissant mais j’arrive pas a extraire les resultats,t’as pas une solution pour un nul ?
xmetal permalink

7 mars 2018 20 h 18 mi

Bonjour sinon vous riptool un script bien pratique
voici le lien pour ce que ça intéresse : https://www.opendesktop.org/p/1218850/

Réponse
Tyte permalink

25 juillet 2018 15 h 55 mi

Merci !!!!

Réponse
okok permalink

27 février 2019 11 h 00 mi

svp dans quel repertoire s’enregistre le site aspiré

Réponse
- Papa Ben permalink*
  
  3 mars 2019 10 h 56 mi
  
  C’est là où tu fais la commande.
  
  Réponse