Archivo robots.txt - I like development

Un poco de historia

Seguramente que ya sabes lo que es un archivo robots.txt en el ámbito de la web. Si tienes una web debes de saber de qué va y si no es así, perdona que te diga, pero no vamos bien.

El archivo robots.txt nació por necesidad… y por un pequeño accidente. Bueno espera, antes de hablar de su historia, debemos de saber qué es el archivo robots.txt (por si no lo sabes ya ¬¬)

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto ubicado en la raíz de un sitio web (por ejemplo, https://tufantasticaweb.com/robots.txt) y sirve para comunicar a los bots de los motores de búsqueda (como Googlebot, Bingbot y otros más) qué partes del sitio web pueden rastrear y cuáles no. Muy importante para el tema del SEO y, por tanto, para darnos a conocer más, bueno, nosotros no, nuestra web. O si, nosotros también 😀

Bromas aparte, este archivo forma parte del llamado Robots Exclusion Protocol (REP), y como he dicho, da instrucciones a los bots o rastreadores (web crawlers) sobre qué partes del sitio web pueden o no pueden explorar.

No es obligatorio tenerlo, de hecho, sino lo tienes, “no pasa nada”, los motores de búsqueda indexarán igualmente tu sitio, pero sí que se recomienda tenerlo porque si no:

Muchos bots lo buscan por defecto. Si no existe, podrían rastrear todo sin restricciones.
Tenerlo presente y bien configurado demuestra una gestión responsable de tu sitio frente a los rastreadores 😉

Origen

Seguro que te ha venido a la cabeza la película Origen, ¿a que sí? 😄 Bueno a mí sí.

Venga va, ahora en serio, dejando las bromas a un lado…

Un día, un bot llamado «Wandex», desarrollado en Perl por Martijn Koster para la empresa Nexor, empezó a rastrear sitios web de manera intensiva. Como muchos bots de esa época, no tenía restricciones. No existía aún una forma formal de indicar a los bots qué partes del sitio debían ser rastreadas y cuáles no.

Durante una de sus sesiones de rastreo, Wandex accedió a un sitio web que contenía una serie de scripts digamos… “sensibles”, ya que se encargaban de ejecutar consultas a una base de datos en tiempo real. Es decir, al entrar a ciertas URLs, se ejecutaban automáticamente consultas sobre una base de datos. El bot, al actuar de forma automática, rápida y porque no decirlo, inconsciente (😂) realizó cientos de esas consultas en cuestión de segundos.

¿Qué pasó?

Supongo que ya te lo imaginas: sobrecarga del servidor y colapso de la web.

Los recursos del servidor se agotaron porque el bot hacía peticiones sin pausa y sin control.

Esto hizo que saltarán las alarmas y los webmasters de la época (grandes aquellos) se pusieron las manos a la cabeza y con razón.

No había forma de evitar que un bot accediera a sus páginas, y como no, los bots tampoco tenían una manera estandarizada de saber qué podían o no podían visitar. Como se suele decir en catalán: “anaven a l’ample”.

Los bots solo seguían enlaces e indexaban lo que encontraban. Los administradores web no tenían manera de impedir ese comportamiento salvo bloqueando IPs manualmente o implementando algunas soluciones algo rudimentarias, lo cual no era sostenible.

Era evidente que la web necesitaba algún mecanismo de control, una forma de comunicación entre sitios web y bots. Y así es como al final, nació una solución propuesta por el mismo autor del bot culpable.

Martijn Koster propuso públicamente una solución: un estándar llamado “Robots Exclusion Protocol” (REP), que consistía en un archivo simple llamado robots.txt colocado en el directorio raíz del sitio web donde los bots buscaran de forma voluntaria al llegar a un sitio, y que contuviera reglas sobre qué se podía rastrear y qué no.

Esta idea fue ampliamente aceptada ya que ofrecía una solución sencilla al problema.

Y así continuamos hasta el día de hoy. Evidentemente la aceptación por parte de Google y de Yahoo! ayudo bastante.

Vale, muy bien, ahora ya sabes de que trata este archivo, pero… y si quieres añadirlo a tu web; ¿qué debes de hacer? ¿Cómo trabaja?

Traaaaaaanqui, por si no lo sabes te lo explico a continuación.

¿Cómo se usa robots.txt?

Primero recordemos que uno de los objetivos de este archivo es:

Evitar que se indexen secciones internas de nuestro sitio que no queremos, como /admin, /logs, etc.
Evitar prevenir contenido duplicado en los resultados de búsqueda.
Optimizar el rendimiento del servidor al reducir la carga de bots innecesarios.

Y, muy importante, tener en cuenta que el archivo no es para nada obligatorio, pero sí recomendable.

Su uso es muy sencillo.

Para empezar, crearemos el archivo, lo llamamos robots.txt e incluimos las siguientes reglas, por ejemplo:

User-agent: especifica a qué bot se aplica la regla.
Disallow: indica qué URL o rutas no deben rastrearse.
Allow: (opcional) indica excepciones dentro de una ruta bloqueada.

También puedes usar comodines * o símbolos como $ para mayor precisión.

Un ejemplo real puede ser el siguiente:

User-agent: *
Disallow: /admin/
Allow: /admin/contacto.html

Con el anterior código estamos indicando que nos pueden rastrear todos los bots (*), que no deben acceder al directorio /admin/, salvo la página específica /admin/contacto.html.

¿Ahora bien, y si queremos que solo nos rastree el bot de Google?

Pues fácil:

User-agent: Googlebot
Disallow: /documentos/privado.pdf

El ejemplo anterior solo aplicaría para el bot de Google, no para otros.

También, es común usar la directiva “Sitemap” para indicar el sitemap (que redundante) de nuestra página web.

Ejemplo:

User-agent: *
Disallow: /admin/
Allow: /admin/contacto.html
Sitemap: https://www.tufantasticaweb.com/sitemap.xml

Luego lo subiríamos a la raíz de nuestra web y listo. Bueno, no esta de más verificar que funciona correctamente usando Google Search Console 😉

¡Y ya está, eso sería todo!

Por favor, ten en cuenta que este archivo no proporciona seguridad, es decir, puedes indicarle que no rastree una determinada parte de tu sitio, por ejemplo /admin, sin embargo, el archivo robots.txt puede ser visto por cualquiera y, por ende, se puede ver aquello que intentas ocultar.

Por otra parte, también debes de considerar que, aunque impidas la indexación de una URL, ésta URL puede acabar indexándose si otros sitios enlazan a ella.

Y, por último, ten en cuenta que este archivo es recomendable, es algo así como una sugerencia de cara a los bots. Para nada es una imposición técnica.

Aquí te dejo más información.

Saludos 🤖👍

Sobre el autor

Oscar

See author's posts

Comparte:

Este artículo está publicado bajo una licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional . Puedes compartirlo y adaptarlo, incluso con fines comerciales, siempre que cites al autor y mantengas esta misma licencia.

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Comentario

Acepto la política de privacidad.

Información básica sobre protección de datos
Responsable	Óscar Martínez +info...
Finalidad	Gestionar y moderar los comentarios +info...
Legitimación	Consentimiento del interesado. +info...
Destinatarios	No se cederán datos a terceros, salvo obligación legal +info...
Derechos	Acceder, rectificar y cancelar los datos, así como otros derechos. +info...
Información adicional	Puedes consultar la información adicional y detallada sobre protección de datos en nuestra página de política de privacidad.

Nombre *

Email *

Sitio Web

Este sitio esta protegido por reCAPTCHA y laPolítica de privacidady losTérminos del servicio de Googlese aplican.

El periodo de verificación de reCAPTCHA ha caducado. Por favor, recarga la página.

Un poco de historia

¿Qué es el archivo robots.txt?

Origen

¿Cómo se usa robots.txt?

Sobre el autor

Oscar

Publicaciones relacionadas:

También podría interesarte

Deja una respuesta Cancelar la respuesta