a52566fabian

Navegación

ri‎ > ‎webcrawler‎ > ‎

politica_seleccion

Política de Selección

La red es muy grande, tal que solo una pequeña parte de ella puede ser indexada. Un estudio del Dr. Steve Lawrence y el Dr. Lee Giles mostró que ningún motor de búsqueda indexaba más del 16% de la red, en 1999. [1]

Esto hace que se desee maximizar la importancia de la fracción de la red que se logra indexar (es decir, no tomar una muestra aleatoria de la gran población que es la red). Ante esto, es necesario desarrollar una medida de la importancia (que es función de la calidad intrínseca, popularidad e incluso el URL).

    En general se ha preferido la búsqueda por ancho primero ya que este recorrido obtiene las páginas con alto ranking primero. Como lo explican Najork y Wiener [2], las páginas más importantes tienen muchos links que las apuntan desde diferentes hosts, y esos links serán encontrados rápidamente, dependiendo del host o la página donde empieza el arañado.

Abiteboul[3] diseñó una estrategia de arañado basada en un algoritmo llamado OPIC (On-line Page Importance Computation, cálculo de la importancia de página en tiempo real). En OPIC, a cada página se le da una suma inicial de puntos (nominalmente, dinero) que se distribuye equitativamente entre las páginas a las que apunta. Un crawler controlado por OPIC descarga primero páginas en la frontera de arañado con mayor dinero.

Baeza-Yates[4] (auntor del libro del curso)simuló en dos subconjuntos de la red de 3 millones de los dominios .gr y .cl, provando diversas estrategias. Demostró que ambas la estrategia OPIC y una estrategia que use la longitud de cola por sitio son mejores que el arañado en ancho primero, y que es sumamente efectivo usar un arañado previo (si se dispone de tal) para guiar al actual.

Restricción en los links

Un crawler puede desear recolectar solo cierto tipo de objetos en la red (usualmente, solo html). Para ello puede hacer una solicitud HTTP HEAD al host (y así determinar el tipo MIME de los datos) antes de proceder con la solicitud GET. Alternativamente (para ahorrarse la solicitud HEAD), el crawler puede examinar la URL y proceder a analizar solo si ésta termina con patrón determinado (ej. html, htm, php, /, etc).

    Es también relativamente común que algunos crawlers eviten proceder con las URLs que contengan un '?' ya que el contenido mostrado es generado dinámicamente (probablemente por un cgi) y podría terminar en una trampa para araña (ver spider trap).


1. Lawrence, Steve; C. Lee Giles (1999-07-08). "Accessibility of information on the web". Nature

2. Marc Najork and Janet L. Wiener. Breadth-first crawling yields high-quality pages. In Proceedings of the Tenth Conference on World Wide Web, pages 114–118, Hong Kong, May 2001. Elsevier Science.

3. Abiteboul, Serge; Mihai Preda, Gregory Cobena (2003). "Adaptive on-line page importance computation". Proceedings of the 12th international conference on World Wide Web. Budapest, Hungary: ACM. pp. 280-290

4. Baeza-Yates, R., Castillo, C., Marin, M. and Rodriguez, A. (2005). Crawling a Country: Better Strategies than Breadth-First for Web Page Ordering. In Proceedings of the Industrial and Practical Experience track of the 14th conference on World Wide Web, pages 864–872, Chiba, Japan. ACM Press.