a52566fabian

Navegación

ri‎ > ‎webcrawler‎ > ‎

spider_trap

Trampa para arañas

Una trampa para arañas consiste en un conjunto de páginas web que pueden (intencionalmente o no) ser usadas para causar que un web crawler haga un número indefinito de solicitudes o causar que un crawler mal escrito se estropee. Pueden ser creadas para destruir ("atrapar") spambots u otros crawlers que desperdicien el ancho de banda de un servidor. También se pueden crear sin intención por calendarios que usen páginas dinámicas con links que continuamente apuntan al siguiente día o año. Algunas técnicas comunes son:

  • creación de una estructura infinitamente profunda como
    http://pivote.com/gato/perro/gato/perro/gato/perro/gato/.....
  • páginas dinámicas como calendarios que producen un número infinito de páginas para que el crawler las siga.
  • páginas llenas con un gran número de caracteres, estropeando el análisis léxico de la página.

No hay algoritmo para detectar a todas las trampas. Algunas se pueden detectar de manera automática pero (al igual que con los virus y antivirus) aparecen nuevas constantemente.

Cortesía

Una trampa de araña provoca que un crawler entre en un ciclo infinito, que desperdicia los recursos del crawler, baja su productividad e incluso podría hacerlo caer. Un crawler cortés alterna solicitudes entre diferentes hosts, y no solicita documentos del mismo servidor más de una vez cada cierta cantidad de segundos. Esto implica que un crawler cortés está menos expuesto al peligro que uno descortés (ver Política de cortesía).
Adicionalmente, los sitios con trampas para arañas suelen tener un archivo robots.txt indicando donde no ir (ver Robots.txt)