Esta mañana he detectado por primera vez visitas del Robot ScoutJet, el crawler del buscador blekko, al que seguiremos para ver su comportamiento, especialmente, la cantidad de visitas y sus descargas de información, antes de decidir si bloquearlo o no.

Sin embargo, aunque nuestra intención general sea esa, hay ocasiones en que la presencia del robot es exagerada, como nos ha pasado en las últimas semanas con el Bot de Yandex.ru (el principal buscador en Rusia) en uno de nuestros dominios; y es que spider33.yandex.ru estaba solicitando más información que GoogleBot y el Crawl de Yahoo juntos... sin aportar ni una sola visita en los últimos 60 días. Afortunadamente, el Bot de Yandex.ru obedeció al bloqueo mediante el fichero Robots.txt a la primera, y se acabó su carga para el servidor:
User-agent: Yandex
Disallow: /
User-agent: ScoutJet
Disallow: /
ScoutJet es el rastreador web para el blekko, un nuevo buscador con sede en Silicon Valley, creado por los fundadores de DMOZ y Topix.
Más información interesante sobre el Fichero Robots.txt >>
3 comentarios:
Ese yandex me tiene harto.
espero que obedezca :D
Hola, buen articulo! Voy a ver si bloqueo yandex. En el servidor me dicen que tengo demasiados hits y quieren que aumente mi plan...
Que otros robots deberia bloquear? gracias!
Lista de robots:
spider25.yandex.ru (77.88.26.25)11,610 24.4%
crawl-66-249-66-181.googlebot.com (66.249.66.181)8,792 18.5%
crawl-66-249-66-53.googlebot.com (66.249.66.53)3,136 6.6%
nano2.dc.ukrtelecom.ua (212.113.35.162)2,751 5.8%
b3091324.crawl.yahoo.net (67.195.111.184)1,851
Bueno, voy a probar de bloquear a Yandex tambien
Publicar un comentario