a52566fabian

Navegación

ri‎ > ‎webcrawler‎ > ‎

politica_cortesia

Política de Cortesía

Un crawler es finalmente otro cliente de un servidor web y como tal, consume sus recursos. Algunos costos asociados a un crawler desde el punto de vista de un servidor web son:
  • Recursos de red, porque el crawler consume un considerable ancho de banda y actúa con alto grado de paralelismo durante un largo período de tiempo.
  • Sobrecarga de servidor, especialmente si la frecuencia de acceso es muy alta.
  • Problemas por crawlers mal programados, que pueden estropear servidores o routers o que descargan páginas con las que no pueden tratar.
  • Una solución parcial es el uso del protocolo de exclusión para robots, conocido por el archivo robots.txt.[1] Este estándar sin embargo, no incluye una sugerencia para el intervalo entre visitas, pese a que esta es la forma más efectiva para evitar la sobrecarga de servidor. Cabe destacar que algunos motores de búsqueda como Ask Jeeves admiten un parámetro "Crawl-delay" en el archivo robots.txt. Esta propuesta inicialmente estipulaba 60 segundos. Pero, si las páginas se descargaran a esta frecuencia de un sitio web con más de 100,000 páginas con una conección perfecta (cero latencia y ancho de banda infinito), tomaría 2 meses descargar solo ese sitio, y solo se usaría una fracción de los recursos de ese servidor. Por supuesto, se pueden usar intervalos mejores como 10 ó 15 segundos. El crawler de MercatorWeb usa una política de cortesía adaptable: sea t el tiempo en segundos que le tomó descargar un documento de un servidor dado. Entonces espera 10t segundos antes de la siguiente descarga

    En cuanto a los crawlers para fines didácticos o académicos, hay que ser más considerados, ya que el servidor no gana nada con ser indexado por ese crawler. Empíricamente, se sabe que es conveniente usar intervalos de entre 20 segundos a 3 minutos. Mas, siendo muy educado, siempre habrán quejas de los administradores web. Sergey Brin y Larry Page[2] indican: "... correr un crawler que se conecta a más de medio millón de servidores (...) genera una buena cantidad de e-mail y llamadas telefónicas. Debido al gran número de personas que están en línea, siempre hay de los que no saben lo que es un crawler, por ser el primero que ven."


    1. Koster, M. (1995). Robots in the web: threat or treat?

    2. "Web crawling ethics revisited: Cost, privacy and denial of service