Robots.txt

Dificultad: Fácil

Robots.

Los archivos robots.txt son archivos que nos permiten bloquear o acceder a los programas automatizados que revisan cada página de tu sitio.

Escribiendo un archivo robots.txt en la raíz de tu sitio, en tu caso:  http://tusitio/robots.txt o si estás en el FTP será: /robots.txt partiendo desde el directorio httpdocs que es tu directorio raíz.

Los archivos robots.txt son archivos de texto que pueden contener lo siguiente:


User-agent: *
Disallow: /

El asterísco es el comodín usado.

Utilizaremos la palabra 'Disallow' para negar el acceso a los archivos o carpetas que no queremos que sean visitados por los robots.


Ejemplo:


"User-agent: *" Esto significa que esta sección aplica a todos los robots.
"Disallow: /" Esto le dice al robot que no siga ninguna página del sitio.

 

Hay dos consideraciones importantes cuando usas el archivo /robots.txt:

Los robots pueden ignorar tu archivo /robots.txt. Especialmente cuando se trata de robots malware que escanean la red y son una amenaza para la seguridad.

Tu archivo /robots.txt es un archivo disponible al público. Todo el mundo puede ver su contenido y lo que tratas de ocultar. (Te recomendamos que si tienes información privada o sensible,  utilices protección de carpetas mediante usuario y contraseña para tu tranquilidad).

No trates de poner en tu archivo robots.txt, archivos o texto que sean privados o que no quieras que los vean. ¡Ellos pueden verlos!


Detalles:

El archivo mencionado es un estándar y no pertenece a ninguna corporación.
Existen estándares de 1994 en los que se detalla el procedimiento para los archivos tipo robot.
En 1997 se creo una especificación para los métodos que se usan en el control de éste tipo de archivos.

Se puede consultar:

¿Cómo crear un archivo robots.txt?

¿Dónde ponerlo?
 

En el nivel raíz de tu servicio web.

Generalmente lo pones en el directorio: /httpdocs/robots.txt

 

Cuando un robot busca el archivo para una URL (sitio) lo hace iniciando desde el directorio raíz.


Ejemplo:, para "http://www.ejemplo.com/productos/index.html, el robot quitar : "/tienda/index.html", y loremplazar con: "/robots.txt", y terminar con:  "http://www.example.com/robots.txt".


Los archivos robots.txt son archivos que nos permiten bloquear o acceder a los programas automatizados que revisan cada página de tu sitio.

Escribiendo un archivo robots.txt en la raíz de tu sitio, en tu caso:  http://tusitio/robots.txt o si estás en el FTP será: /robots.txt partiendo desde el directorio httpdocs que es tu directorio raíz.

Los archivos robots.txt son archivos de texto que pueden contener lo siguiente:User-agent: *
Disallow: /


"User-agent: *" Significa que esta seccin aplica a todos los robots.
"Disallow: /" Esto le dice al robot que no siga ninguna pgina del sitio.

 

¿Qué se puede poner en el archivo de texto robots.txt?

El archivo "/robots.txt" es un simple archivo de texto con uno o más registros, Generalmente contiene uno o más renglones como se muestra a continuación:

User-agent: *  Disallow: /cgi-bin/  Disallow: /tmp/ Disallow: /~joe/ 

En el ejemplo, 3 directorios han sido excluido de la búsqueda de los robots.

cgi/bin
/tmp
/
~joe/

Es mejor que cada uno quede en su propia línea en el archivo.


Toma nota que tienes que separar la linea "Disallow" para cada prefijo que quieras excluir.
-- No se puede usar:  "Disallow: /cgi-bin/ /tmp/" En una sola línea.
No se permiten líneas en blanco, por que pueden interpretarse como diferentes comandos.


Toma nota que las expresiones regulares no están soportadas por el 'user agent' o las líneas de 'disallow'.
El caracter '*' en el 'user agent' es un campo especial que significa: cualquier robot. Específicamente no puedes tener líneas como 'user-agent 'bot', 'disallow: /tmp/*' o 'Disallow:*.gif'.

Lo que quieres excluir depende de tu servidor. Todo lo que no menciones será otorgado a los programas robot.
Ejemplos:

Para excluir todos los robots del servidor:
User-agent: *  Disallow: / 
Permitir el libre acceso a los robots:
User-agent: *  Disallow: 

(O sólo crea un archivo vacío llamado: "/robots.txt" , o no pongas ninguno!)

Para excluir robots en algunas partes:
User-agent: * 
Disallow: /cgi-bin/  Disallow: /tmp/  Disallow: /junk/ 
Para excluir algún robot en específico:
User-agent: BadBot  Disallow: /
Para permitir el acceso a un robot:
User-agent: Google  Disallow:   User-agent: *  Disallow: / 
Para excluir todos los archivos con exepción de uno:

Esto es raro, por que no existe un campo "Allow" (permitir). La manera ms fácil es porner todos los archivos que se quieran excluir en un folder por separado, como podría ser "archivos_varios", y dejar el archivo que queremos que visiten en un directorio arriba del folder creado.

User-agent: *  Disallow: /~joe/archivos_varios/ 

Alternativamente puedes deshabilitar todas las páginas deshabilitadas:

User-agent: * 
Disallow: /~joe/junk.html  Disallow: /~joe/foo.html  Disallow: /~joe/bar.html 

 

Estamos para servirte