Robots.txt
Siempre que se crea un sitio web se necesita que Google pueda acceder y rastrear la información. Por ello se requiere la creación de un archivo de texto con extensión .txt en el dominio, de esta forma se le provee al buscador toda la información de interés sobre la web.
Por su parte, este archivo robots.txt se usa para impedir que los bots agreguen datos e información que no se quiere compartir. Lo que se traduce como un archivo de bloqueo que puede usar una web en cualquier momento que lo desee.

Según el mismo Google, la definición de este archivo es:
«Un archivo robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede usar para indicar el acceso al sitio web por sección y por tipos específicos de rastreadores web, como los rastreadores móviles o los rastreadores para ordenador».
¿Para qué sirve un archivo Robots.txt?
Los archivos robots.txt sirven para gestionar principalmente el tráfico de los rastreadores a los sitios web, aunque también para que Google no rastree determinados archivos según el tipo de estos, que pueden ser:
- Efecto de robots.txt en pagina web: Se puede hacer uso de este tipo de archivo en aquellas páginas web y formatos no multimedia que Google tenga la capacidad de leer, para de esta manera gestionar el tráfico de las arañas y evitar que estas rastreen páginas sin relevancia en tu sitio. Es importante mencionar que este tipo de archivos no debe de usarse para impedir que una página aparezca en las SERPs, puesto que pueden acabar indexándose así no se visiten. Cuando se quiere bloquear una página para que no se muestre debe de usarse otro método, como una directiva no index o ponerle protección con contraseña.
- Efecto en archivos multimedia: Si una página se encuentra bloqueada por este archivo, la URL va a seguir apareciendo en los SERPs sin ninguna descripción. Excluyendo a todas las imágenes, videos, archivos PDF y todos aquellos que no sean HTML. En caso de querer corregir esto lo que se debe de hacer es quitar del archivo robots.txt la entrega que está causando el bloqueo de la página.
- Efecto en archivos de recursos: Con un archivo de este tipo puedes bloquear archivos de recursos, como los de imagen, estilo o secuencia de comandos que no sean importantes, prescindiendo de ellos sin que perjudiquen a la web.
¿Cómo se crea el archivo robots.txt?
Para su creación es necesario dar acceso a la raíz del dominio y subir al archivo de formato texto con nombre de robots.txt al directorio raíz del primer nivel del servidor donde se encuentra la página que se quiere indexar.
No se debe olvidar usar para la creación de este archivo un archivo de texto, incluso en Windows o Mac existen archivos de texto plano que pueden servir para esto.
Se debe de comprobar siempre el funcionamiento de este archivo robots.txt, por lo que Google brinda una herramienta de prueba en Google Search Console, donde se puede comprobar como la araña de Google lee este archivo y a su vez informa si existen errores en este.
Teniendo claras estas reglas, podemos describir los comandos más comunes de la siguiente forma:
- Allow. Como su nombre lo indica, permite que los crawlers realicen ciertas acciones y tengan acceso a las secciones establecidas de nuestro website.
- Disallow. Contrario al anterior, se utiliza para crear las excepciones o exclusiones para las arañas exploradoras. Esta directriz sirve para negar el acceso a directorios y páginas del sitio web.
- User-agent. Utiliza este comando para seleccionar el robot que debe cumplir con el protocolo de restricciones o permisos. Aunque existe malware o programas maliciosos que no acatan el código, los bots de Google, Yahoo, Bing, etc., sí lo hacen.
- Crawl-delay. Esta instrucción le indica al crawler específico o a todos el tiempo establecido para ir de una página a otra. No obstante, esta indicación no sirve para Google sino para los demás rastreadores.
- Sitemap. La inclusión del mapa del sitio resulta esencial para que la mayoría de bots puedan rastrear nuestro sitio web. Si bien no hace falta cuando manejamos el Google Search Console, ayuda a los demás.
La creación del archivo robots txt requiere una ubicación en el nivel más alto de la página web, como por ejemplo: https://www.midominio/robots.txt. Como el protocolo afecta a un host específico, la inclusión de subdominios también debe contar con sus respectivas directrices. Contrario a lo que se cree, el REP no afecta a carpetas concretas de tu web.
Limitaciones
Antes de la creación de este archivo se deben de conocer cuáles son las limitaciones de este método de bloqueo de URLs.
La primera de ellas es que puede ser posible que algunos buscadores no sigan las directivas del archivo robots.txt, ya que estos no pueden obligar a los rastreadores a seguir sus instrucciones al momento de rastrear una web, porque estos son los que deciden si seguirlas o no.
Otra limitación es que cada rastreador interpreta de forma diferente la sintaxis, así que debes de asegurarte de usar la sintaxis adecuada para que todos los bots puedan entender las determinadas instrucciones.
Por último, es posible que las páginas que se bloqueen mediante un archivo robots.tx se indexen a otros sitios que incluyen enlaces hacia esta.