Aller au contenu principal

Aspirer un site avec wget

25 septembre 2010

Ce n’est pas un sujet nouveau. Mais trouver de l’info sur le sujet n’est pas toujours aisé.

Je demanderais aux gens qui voudraient aspirer les sites de faire attention, ceci peut mettre à genoux un serveur, donc il faut faire attention. Le but de l’aspiration est d’obtenir Off-Line des infos du web. Il est parfois plus sympathique de contacter le gestionnaire du site pour lui demander s’il peut donner les infos via un autre moyen (comme une extraction du contenu de ses pages).
Cependant, il y a des moyens de ne pas monopoliser la bande passante du serveur et de ne pas gêner les autres utilisateurs.

Cette manip ne marchera pas sur tous les serveurs web, car il existe des moyens de se protéger de l’aspiration (entre autre pour des raisons de BP).

Voici une commande utile :

wget -r -k -E -np http://tar.get/wanted/directory/

Donc la cible est http://tar.get/wanted/directory/. Les options :

  • -r pour parcourir tous les liens du sites.
  • -k conversion des liens en liens locaux.
  • -E conversion php vers HTML, pour relire aisément avec Firefox.
  • -np pour ne pas remonter dans l’arborescence du site

D’autre options utiles :

  • -lX, où X est un entier, pour ne parcourir que X niveaux de l’arborescence du site.
  • -c pour continuer un téléchargement interrompu.
  • –load-cookies  si nécessaire.

Les options pour ne pas pourir le serveur :

  • –limit-rate X, pour limiter la Bande Passante à X B/s
  • -w X pour attendre X secondes entre chaque téléchargement de fichiers.
  • -T X au bout de X secondes wget abandonne le téléchargement d’un fichier.
20 commentaires leave one →
  1. 25 septembre 2010 12 h 57 mi

    Hello. Merci pour l’info, mais comment faire pour récupérer aussi le CSS?

    J’avais déjà tenté sur un site Web de Cisco, mais sans le CSS…

    • 26 septembre 2010 16 h 50 mi

      Effectivement ça ne chope pas les CSS.
      Je n’ai rien trouvé pour ça.

  2. 25 septembre 2010 15 h 55 mi

    Pour un site sécurisé, ajouté l’option –no-check-certificat

    wget -r -k -E -np –no-check-certificate https://tar.get/wanted/directory/

  3. 27 septembre 2010 8 h 06 mi

    Pour ceux qui préfère avec interface graphique, il y a HTTRACK : http://doc.ubuntu-fr.org/httrack

  4. 27 septembre 2010 11 h 24 mi

    et pour choper un site qui demande un acces login / passe ?
    Une idée ?

    • 27 septembre 2010 15 h 15 mi

      Non pas d’idée. Et ça doit dépendre du type de session créée sur le serveur.

    • jeans permalink
      1 décembre 2011 20 h 41 mi

      –http-user et –http-password

  5. Bedoskil permalink
    8 juillet 2012 10 h 27 mi

    Bonjour merci pour cette petite commande bien utile, est il possible de modifier la commande pour n’aspirer que les email present sur les pages web du site et les stoker dans un fichier?

  6. saida permalink
    16 juillet 2013 14 h 10 mi

    comment je peux avoir seulement le théme d’un site??

    • 27 juillet 2013 8 h 38 mi

      Je ne comprends pas bien la question.
      Peut-être parles-tu des feuillets de style?

  7. 22 février 2015 12 h 31 mi

    bonjour , comment aspiter uniquement les adresses email?

    • 22 février 2015 14 h 30 mi

      Je te conseille de le faire en post-traitement, avec un script en python par exemple.

      • 22 février 2015 15 h 25 mi

        merci, mais je suis pas expert, il semble que ‘grep’ est puissant mais j’arrive pas a extraire les resultats,t’as pas une solution pour un nul ?

  8. xmetal permalink
    7 mars 2018 20 h 18 mi

    Bonjour sinon vous riptool un script bien pratique
    voici le lien pour ce que ça intéresse : https://www.opendesktop.org/p/1218850/

  9. 25 juillet 2018 15 h 55 mi

    Merci !!!!

  10. okok permalink
    27 février 2019 11 h 00 mi

    svp dans quel repertoire s’enregistre le site aspiré

Trackbacks

  1. Twitted by lephmetre
  2. Tweets that mention Aspirer un site avec wget « Rappels utiles Linux -- Topsy.com

Laisser un commentaire