viernes, enero 22, 2010

ScoutJet: el crawler blekko, primeras visitas

Esta mañana he detectado por primera vez visitas del Robot ScoutJet, el crawler del buscador blekko, al que seguiremos para ver su comportamiento, especialmente, la cantidad de visitas y sus descargas de información, antes de decidir si bloquearlo o no.

En prinpio vamos a permitir a ScoutJet, el crawler blekko, que indexe nuestra Web, dado que de momento su actividad no es intensiva, y mientras no existan problemas, nuestra política es permitir a los robots de los buscadores que hagan su trabajo.

Sin embargo, aunque nuestra intención general sea esa, hay ocasiones en que la presencia del robot es exagerada, como nos ha pasado en las últimas semanas con el Bot de Yandex.ru (el principal buscador en Rusia) en uno de nuestros dominios; y es que spider33.yandex.ru estaba solicitando más información que GoogleBot y el Crawl de Yahoo juntos... sin aportar ni una sola visita en los últimos 60 días. Afortunadamente, el Bot de Yandex.ru obedeció al bloqueo mediante el fichero Robots.txt a la primera, y se acabó su carga para el servidor:
User-agent: Yandex
Disallow: /
Si alguno de vosotros quiere bloquear al Bot ScoutJet: el crawler del buscador blekko, la instrucción a añadir al Fichero Robots.txt es la siguiente (repito, no lo hemos probado aún):

User-agent: ScoutJet
Disallow: /

ScoutJet es el rastreador web para el blekko, un nuevo buscador con sede en Silicon Valley, creado por los fundadores de DMOZ y Topix.

Más información interesante sobre el Fichero Robots.txt >>

3 comentarios:

Angelverde dijo...

Ese yandex me tiene harto.

espero que obedezca :D

Unknown dijo...

Hola, buen articulo! Voy a ver si bloqueo yandex. En el servidor me dicen que tengo demasiados hits y quieren que aumente mi plan...
Que otros robots deberia bloquear? gracias!
Lista de robots:
spider25.yandex.ru (77.88.26.25)11,610 24.4%
crawl-66-249-66-181.googlebot.com (66.249.66.181)8,792 18.5%
crawl-66-249-66-53.googlebot.com (66.249.66.53)3,136 6.6%
nano2.dc.ukrtelecom.ua (212.113.35.162)2,751 5.8%
b3091324.crawl.yahoo.net (67.195.111.184)1,851

Ernesto Fuentes dijo...

Bueno, voy a probar de bloquear a Yandex tambien