jueves, noviembre 22, 2007

Bloquear Robots "indexeados" (64.27.19.59)

La revisión detallada de las estadísticas de visitas de nuestro sitio web suelen "cazar" visitantes indeseados e inútiles.Bloquear Robots "indexeados" (64.27.19.59)El último robot de este tipo que hemos bloqueado llegó con la IP 64.27.19.59 , y tras algunas simples comprobaciones, hemos decidio bloquear su acceso a nuestra web desde el fichero Htaccess. Es cierto que la forma tradicional de bloquear robots es mediante el fichero robots.txt, pero es que eso no siempre funciona (los robots "malos", los peores, son precisamente los que menos caso hacen al fichero Robots.txt), por lo que hay que tomar otras medidas mucho más efectivas.

En este caso, simplemente se trata de añadir una línea de texto más al fichero Htaccess de esta forma:

deny from 64.27.19.59

Esta mañana, 4 hemos vuelto a revisar las estadísticas (webstats es una aplicación muy simple pero efectiva para este detalle), y el famoso robot indexeado (perteneciente a Hollywood Interactive, Inc. ), no ha podido volver a molestar. Para que os hagáis una idea de lo que pueden llegar a cargar un servidor, el procedente de la IP mencionada estaba generando más peticiones que todos los robots "buenos", positivos, interesantes e importantes:
- Inktomi Slurp, de Yahoo
- MSNBot, de MSN - LIVE
- Googlebot, de Google
- Jeeves, de ASK

RELACIONADO:
10 Errores SEO: Peor Imposible
El pesado del Bot IRL-crawler (tamu.edu)
¿Necesita tu Web un fichero Robots.TXT?
Desayuno con Robots
MJ12bot : Majestic-12
Sitemap para Google y Robots.txt

3 comentarios:

Anónimo dijo...

Pues yo no paro de recibir uno con IP 72.14.199.9 Tengo en robots.txt capadas las páginas a las que pide continuamente, pero nada, sigue mirando esas páginas.
¿Sabéis de dónde procede esa IP para saber quién es?

Anónimo dijo...

Astjim, esa IP 72.14.199.9 es de GOOGLE !!

Es posible que esas páginas tengan enlaces externos hacia ellas (no sólo de tu website) y por eso vuelve una y otra vez.

Unknown dijo...

Pues será eso pero ¿cómo encuentro la página que tiene un link hacia ellas?
Son páginas de feeds. Creo que las redirigí a feedburner pero ya las borré (en feedburner).
He mirado en herramientas para buscar sus backlinks, en el buscador de google... nada.