Un archivo robots.txt
es un archivo de texto simple, que sirve para
indicar a los robots (en especial a los robots de los buscadores) qué
partes del sitio no debería indexar. Se considera que se puede indexar
cualquier carpeta o archivo que no esté explícitamente prohibido por
este archivo.
Los buscadores más importantes lo respetan (de otra forma su utilidad sería bastante escasa).
Hay varios motivos para usar un archivo robots.txt
:
El archivo robots.txt
es un archivo de texto simple, que se ubica en
la raíz del sitio. El formato del archivo es extremadamente simple,
consta de 1 o más conjuntos, separados por una línea en blanco, de:
Una línea User-agent
, indicando el nombre de un robot o “*”;
(todos los robots).
Si bien la especificación de robotstxt.org no impone que se respeten
mayúsculas y minúsculas, para máxima compatibilidad es mejor
respetarlas. Esto es: escribir User-agent
con la U mayúscula, y
escribir el nombre del robot tal cual se identifica.
Otro detalle a considerar es que no se aceptan expresiones regulares, solamente el nombre de un robot (y solo uno) o el asterisco “*” para que coincida con todos.
Una o más líneas Disallow
(no permitir), cada una indicando una
carpeta o archivo del sitio que no se quiere que el robot (indicado
por la línea User-agent) indexe. En esta línea tampoco se admiten
comodines, debe darse la ruta completa. Cada línea Disallow
debe contener solamente una ruta.
He aquí un ejemplo, en el que se niega a todos los robots el acceso a la carpeta /admin y al Googlebot el acceso a la carpeta /imagenes y al archivo /javascript/ultrasecreto.js
User-agent: *
Disallow: /admin/
User-agent: Googlebot
Disallow: /imagenes/
Disallow: /javascript/ultrasecreto.js
Los robots que respetan sus directivas lo buscan cada vez que se conectan a un servidor, así que si el archivo no existe se generarán muchos errores 404 causados por robots buscándolo.
La mayoría de los robots “serios” acompañan su cabecera User Agent con
una URL en la que se puede encontrar información sobre ellos, que suele
incluir los datos necesarios para guiar al robot usando el
robots.txt
.
Es importante destacar que aunque sirva para indicar a los robots por
qué partes del sitio no deben entrar, el archivo robots.txt
no debe
ser usado como mecanismo de seguridad. Los robots reciben la indicación
de no entrar, pero nada les impide hacerlo.
Además, todas las rutas que se indiquen quedan visibles para cualquiera
que quiera verlas, nada impide a cualquier usuario ver el archivo,
sobretodo considerando que siempre se encuentra en la misma ubicación
(la raíz del sitio).
Si se necesita seguridad, se necesita un sistema basado en programación del lado del servidor, como siempre (ya sea un paquete PHP o autenticación HTTP)
Activa Javascript para para cargar los comentarios, basados en DISQUS
El Blog de ElCodiguero funciona sobre Pelican