Aspirer un site avec wget
Ce n’est pas un sujet nouveau. Mais trouver de l’info sur le sujet n’est pas toujours aisé.
Je demanderais aux gens qui voudraient aspirer les sites de faire attention, ceci peut mettre à genoux un serveur, donc il faut faire attention. Le but de l’aspiration est d’obtenir Off-Line des infos du web. Il est parfois plus sympathique de contacter le gestionnaire du site pour lui demander s’il peut donner les infos via un autre moyen (comme une extraction du contenu de ses pages).
Cependant, il y a des moyens de ne pas monopoliser la bande passante du serveur et de ne pas gêner les autres utilisateurs.
Cette manip ne marchera pas sur tous les serveurs web, car il existe des moyens de se protéger de l’aspiration (entre autre pour des raisons de BP).
Voici une commande utile :
wget -r -k -E -np http://tar.get/wanted/directory/
Donc la cible est http://tar.get/wanted/directory/. Les options :
- -r pour parcourir tous les liens du sites.
- -k conversion des liens en liens locaux.
- -E conversion php vers HTML, pour relire aisément avec Firefox.
- -np pour ne pas remonter dans l’arborescence du site
D’autre options utiles :
- -lX, où X est un entier, pour ne parcourir que X niveaux de l’arborescence du site.
- -c pour continuer un téléchargement interrompu.
- –load-cookies si nécessaire.
Les options pour ne pas pourir le serveur :
- –limit-rate X, pour limiter la Bande Passante à X B/s
- -w X pour attendre X secondes entre chaque téléchargement de fichiers.
- -T X au bout de X secondes wget abandonne le téléchargement d’un fichier.
Hello. Merci pour l’info, mais comment faire pour récupérer aussi le CSS?
J’avais déjà tenté sur un site Web de Cisco, mais sans le CSS…
Effectivement ça ne chope pas les CSS.
Je n’ai rien trouvé pour ça.
Pour un site sécurisé, ajouté l’option –no-check-certificat
wget -r -k -E -np –no-check-certificate https://tar.get/wanted/directory/
Pour ceux qui préfère avec interface graphique, il y a HTTRACK : http://doc.ubuntu-fr.org/httrack
et pour choper un site qui demande un acces login / passe ?
Une idée ?
Non pas d’idée. Et ça doit dépendre du type de session créée sur le serveur.
–http-user et –http-password
Bonjour merci pour cette petite commande bien utile, est il possible de modifier la commande pour n’aspirer que les email present sur les pages web du site et les stoker dans un fichier?
La combiner avec un grep ou un script awk devrait le faire.
comment je peux avoir seulement le théme d’un site??
Je ne comprends pas bien la question.
Peut-être parles-tu des feuillets de style?
bonjour , comment aspiter uniquement les adresses email?
Je te conseille de le faire en post-traitement, avec un script en python par exemple.
merci, mais je suis pas expert, il semble que ‘grep’ est puissant mais j’arrive pas a extraire les resultats,t’as pas une solution pour un nul ?
Bonjour sinon vous riptool un script bien pratique
voici le lien pour ce que ça intéresse : https://www.opendesktop.org/p/1218850/
Merci !!!!
svp dans quel repertoire s’enregistre le site aspiré
C’est là où tu fais la commande.