Jun
15
2011

Clonar Webs con WGET

Escrito por moncada Comments

Comentarios desactivados

Parece que está de moda hacerle la vida imposible a los clientes, o la ética profesional cada vez está peor, recientemente me ha llegado una nueva historia tras la cual la empresa cesora se niega a dar acceso a los ficheros de una determinada página web. Gracias a una varita mágica que como buen mago siempre tenemos que tener dispuesta, sacamos de la chistera a WGET un comando sencillo a la par que útil para este menester, el de fusilar la web actual a nuestros servidores locales. La orden en cuestión es …

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains foobar.org \
     --no-parent \
     www.foobar.org

Si nos gusta la siesta tras la misma podremos acceder a nuestro disco con toda la web guardada para nuestro uso y disfrute. Y ahora pongámonos un poco más serios y expliquemos que significan todas esas líneas.

–recursive nos va a descargar todo el web completo.

–no-clobber no sobreescribirá ningún fichero que se haya descargado del web anteriormente, por si queremos pausar la descarga y seguir más adelante.

–page-requisites descarga todos los elementos que existan en una página, css, js, imágenes…

–html-extension nos va a guardar los ficheros con la extensión html.

–convert-links convertirá los enlaces para que nos funcione el web de forma local.

–restrict-file-names convertirá los ficheros para que funcionen en windows también.

–domains dominio.com no incluirá ningún fichero fuera de este nombre de dominio.

–no-parent si en vez de una web entera seleccionamos una carpeta de la misma, no descargara nada que esté fuera de esta carpeta.

Para finalizar pondremos la dirección web del sitio a clonar.

Etiquetas: Linux