Archivado en: General
Cualquier administrador de sistemas que haya visitado los archivos de registro de sus servidores web habrá podido comprobar que se repite en muchas ocasiones un mensaje de error.
File does not exists /robots.txt
Ésto sucede porque aplicaciones de indexación de contenido web, también llamados robots intentan acceder a este archivo para seguir las instrucciones de indexación que propone el administrador. Nos podría interesar como administradores que la zona privada de nuestra intranet accesible vía web desde una url que no se indexe en Google o en cualquier otro buscador. Tenemos un medio para conseguirlo para robots que cumplan con esta práctica.
Definiremos un archivo en la raiz que tenga el nombre de robots.txt y en él incluiremos las diferentes directivas.
Si queremos por ejemplo que ningún robot indexe nuestra carpeta cgi-bin incluiremos lo siguiente:
User-agent: *
Disallow: /cgi-bin/
Si no queremos que lo indexe Google, pero otros robots sí:
User-agent: googlebot
Disallow: /cgi-bin/
Podemos incluir más directivas Disallow, una por cada que nos interese. Nos puede interesar no indexar un archivo o bien un directorio completo.