a52566fabian

Navegación

ri‎ > ‎webcrawler‎ > ‎

politica_paralelizacion

Política de Paralelización

Un crawler paralelo es uno que corre varios procesos simultáneos. La meta es maximizar la tasa de descarga mientras maximiza la sobrecarga (overhead) por paralelización y evitar descargas repetidas. Para esto último, el sistema requiere una política de asignación de nuevas URLs descubiertas en el camino.

Normalmente se usan dos políticas de asignación:

  • Asignación dinámica: un servidor central (con mucho control) asigna las URLs a cada proceso, manteniendo el balance y pudiendo detener a cualquiera de ser necesario. Nótese que el servidor se puede convertir en un cuello de botella, como en toda arquitectura distribuida con un servidor.
  • Asignación estática: antes de empezar el arañado, se define una regla de asignación de URLs. Normalmente se usa una función hash con las URLs y los crawlers hacen las veces de las entradas en una tabla hash. La conversión de URLs se puede hacer por lotes (batch)para aminorar la sobrecarga (overhead).