Laburo España: 250.000 ofertas de empleo

Miércoles, 11 de enero de 2006


Canalizando Robots Búsqueda

Archivado en: General


Cualquier administrador de sistemas que haya visitado los archivos de registro de sus servidores web habrá podido comprobar que se repite en muchas ocasiones un mensaje de error.

File does not exists /robots.txt

Ésto sucede porque aplicaciones de indexación de contenido web, también llamados robots intentan acceder a este archivo para seguir las instrucciones de indexación que propone el administrador. Nos podría interesar como administradores que la zona privada de nuestra intranet accesible vía web desde una url que no se indexe en Google o en cualquier otro buscador. Tenemos un medio para conseguirlo para robots que cumplan con esta práctica.

Definiremos un archivo en la raiz que tenga el nombre de robots.txt y en él incluiremos las diferentes directivas.

Si queremos por ejemplo que ningún robot indexe nuestra carpeta cgi-bin incluiremos lo siguiente:

User-agent: *
Disallow: /cgi-bin/


Si no queremos que lo indexe Google, pero otros robots sí:

User-agent: googlebot
Disallow: /cgi-bin/


Podemos incluir más directivas Disallow, una por cada que nos interese. Nos puede interesar no indexar un archivo o bien un directorio completo.




Escrito por Brian Jiménez El 01/11 a las 11:31
(0) Comentarios • (0) ReferenciasPermalink


Referencias


URL para referencias

Comentarios


Comentar



Recordar datos






Nakashima's Blog - Neo Web Site.