jueves, junio 21, 2007

El pesado del Bot IRL-crawler (tamu.edu)

Lleva quedádose a comer y dormir en mi servidor un Robot desde la IP 128.194.135.94 , que corresponde a: crawler4.irl.cs.tamu.edu

Realmente no creo que sea positiva su insistencia, o mejor dicho, rentable su pesadez. Según indican sus responsables, de TEXAS A&M UNIVERSITY, dice que se dedica a investigar los algoritmos para mapear la topología de Internet, aunque parece que responde perfectamente a las instrucciones de bloqueo desde el fichero Robots.txt, así que voy a probarlo, añadiendo la instrucción:

User-agent: IRLbot
Disallow: /

A ver si es cierto, sino tendremos que bloquear la IP, dado el interés exagerado que tiene por una de nuestras Webs. Con este, son 3 los robots que hemos bloqueado por su insistencia y escaso valor final:

User-agent: GigaBot
Disallow: /
User-Agent: MJ12bot
Disallow: /
User-agent: IRLbot
Disallow: /

ACTUALIZACION 2 DIAS DESPUES: El amigo crawler4.irl.cs.tamu.edu se pasa por ese sitio que todos sabemos la instrucción del fichero robots.txt y vuelve a visitar de forma exagerada la web; sólo queda la opción de bloquear la IP, cosa que hago y funciona. Poco serio para algo que pertenece a una universidad...

Relacionado: ¿Necesitas un Fichero Robots.txt?

No hay comentarios: