Blog ElCodiguero
18 Jan 2010 Varios

¿Cómo escribir un archivo robots.txt?

Un archivo robots.txt es un archivo de texto simple, que sirve para indicar a los robots (en especial a los robots de los buscadores) qué partes del sitio no debería indexar. Se considera que se puede indexar cualquier carpeta o archivo que no esté explícitamente prohibido por este archivo.

Los buscadores más importantes lo respetan (de otra forma su utilidad sería bastante escasa).

Hay varios motivos para usar un archivo robots.txt:

¿Cómo crearlo?

El archivo robots.txt es un archivo de texto simple, que se ubica en la raíz del sitio. El formato del archivo es extremadamente simple, consta de 1 o más conjuntos, separados por una línea en blanco, de:

He aquí un ejemplo, en el que se niega a todos los robots el acceso a la carpeta /admin y al Googlebot el acceso a la carpeta /imagenes y al archivo /javascript/ultrasecreto.js

User-agent: *
Disallow: /admin/

User-agent: Googlebot
Disallow: /imagenes/
Disallow: /javascript/ultrasecreto.js

Los robots que respetan sus directivas lo buscan cada vez que se conectan a un servidor, así que si el archivo no existe se generarán muchos errores 404 causados por robots buscándolo.

¿Cómo saber el nombre que hay que usar para un robot?

La mayoría de los robots "serios" acompañan su cabecera User Agent con una URL en la que se puede encontrar información sobre ellos, que suele incluir los datos necesarios para guiar al robot usando el robots.txt.

Seguridad

Es importante destacar que aunque sirva para indicar a los robots por qué partes del sitio no deben entrar, el archivo robots.txt no debe ser usado como mecanismo de seguridad. Los robots reciben la indicación de no entrar, pero nada les impide hacerlo. Además, todas las rutas que se indiquen quedan visibles para cualquiera que quiera verlas, nada impide a cualquier usuario ver el archivo, sobretodo considerando que siempre se encuentra en la misma ubicación (la raíz del sitio).

Si se necesita seguridad, se necesita un sistema basado en programación del lado del servidor, como siempre (ya sea un paquete PHP o autenticación HTTP)

Enlaces relacionados

Activa Javascript para para cargar los comentarios, basados en DISQUS

El Blog de ElCodiguero funciona sobre Pelican

Inicio | Blog | Acerca de