a52566fabian

Navegación

ri‎ > ‎webcrawler‎ > ‎

robotstxt

Archivo robots.txt

En el 93 y 94 hubo ocasiones en que robots visitaron servidores donde no debían por diversas razones. Algunas veces hicieron solicitudes muy continuamente o descargaron contenido repetido varias veces. Otras, entraron a partes del sitio donde no deberían (arboles virtuales muy profundos, información duplicada, archivos temporales o scripts cgi con efectos secundarios (como votaciones))
Estos incidentes indicaban la necesidad de un mecanismo para los servidores, indicando qué se puede accesar y por quién.

El método

El método usado para excluir robots de un servidor era crear un archivo en el servidor que especifica la política de acceso para robots. Este archivo debe ser accesible por HTTP en la URL local "/robots.txt". Una desventaja de este enfoque es que solo el administrador del servidor puede mantener este archivo, no los mantenedores individuales del servidor. Esto se puede resolver construyendo el archivo final con varios otros pero esto se sale del estándar. Después de analizarlo, se concluyó que el mejor nombre para ese archivo era robots.txt.

El formato

El archivo consiste de uno o más registros separados una o más líneas en blanco (terminadas por CR,CR/NL o NL). Cada registro contiene líneas de la forma "<campo>:<espacioopcional><valor><espacioopcional>". El nombre del campo es sencible a mayúsculas. Se pueden usar comentarios siguiendo las convenciones del bourne shell de UNIX (i.e. con '#').
El registro empieza con una o más líneas User-agen, cada una seguida por una o más líneas Disallow. Encabezados no reconocidos son ignorados.
User-agent
El valor de este campo es el nombre del robot al que se refiere el registro. Si hay más de un campo user-agent, el registro describe una política de acceso idéntica para más de un robot. Al menos un campo debe estar presente por registro.

El robot debe ser liberal interpretando este campo. Se recomienda que reconozca una subcadena sensible a mayúsculas del nombre sin versión.
El valor '*' se refiere a cualquier robot al que no se refiera ninguno de los otros registros. No se permite tener varios de esos registros en el /robots.txt.
Disallow
El valor de este campo especifica una URL parcial que no debe ser visitada. Puede ser una ruta completa o parcial; cualquier URL que empiece con este valor no será recuperada. Por ejemplo
Disallow: /help
se refiere tanto a /help.tml como a /help/index.html, mientras que
Disallow: /help/
se refiere a /help/index.html pero no a /help.html.
Un valor valor vacío indica que todas las URLs pueden ser recuperadas. Por lo menos un campo Disallow debe estar presente en el registro. Un archivo /robots.txt vacío no significa nada. Será tratado como si no existierap; luego, todos los robots son bienvenidos.

Ejemplos


# robots.txt para http://www.ejemplo.com/

User-agent: * Disallow: /cyberworld/map/ # Es un espacio virtual infinito

# Cybermapper sabe a donde ir.

User-agent: cybermapper Disallow:


Un robots.txt como el siguiente prohibe todo:

# déjenme en paz
User-agent: *
Disallow: /