El archivo robots.txt es una pieza fundamental para controlar el acceso de los motores de búsqueda a tu sitio web. Si está bien configurado, puede mejorar significativamente el rendimiento SEO y evitar problemas de indexación o sobrecarga en tu servidor. En este artículo, te explicaremos cómo optimizarlo, exploraremos todas las funciones que puedes utilizar y lo complementaremos con ejemplos prácticos; por eso hoy te presento: La Guía Definitiva para Configurar un Archivo robots.txt Óptimo

¿Qué es el archivo robots.txt?

El archivo robots.txt es un fichero de texto que se ubica en el directorio raíz de tu sitio web y establece reglas que indican a los motores de búsqueda qué pueden y qué no pueden rastrear.

Es una herramienta poderosa, pero también puede ser peligrosa si se usa incorrectamente, ya que podría bloquear contenido importante o exponer datos sensibles.

Entonces, si querés saber cómo configurar un archivo robots.txt, primero deberás conocer las variables:

Funciones principales del archivo robots.txt

Vamos con las variables que podés configurar en un archivo robots.txt:

1. User-agent

El comando User-agent especifica a qué bot de rastreo se aplica la regla. Puedes dirigir reglas específicas para bots individuales o usar el comodín * para que la regla aplique a todos los bots.

Ejemplo:

User-agent: Googlebot
Disallow: /private

Esto bloqueará el acceso de Googlebot a la carpeta /private.

2. Disallow

La directiva Disallow indica las rutas o directorios que no deben ser rastreados por los bots. Es el comando más utilizado.

Ejemplo:

User-agent: *
Disallow: /admin

Esto bloquea el acceso a la carpeta /admin para todos los bots.

3. Allow

El comando Allow se utiliza para permitir el acceso a rutas específicas, incluso si el directorio padre está bloqueado por un Disallow.

Ejemplo:

User-agent: *
Disallow: /files
Allow: /files/public

Esto bloquea todo el directorio /files, excepto la subcarpeta /files/public.

4. Crawl-delay

La directiva Crawl-delay especifica un tiempo de espera (en segundos) entre solicitudes realizadas por un bot. No todos los motores de búsqueda soportan esta directiva, pero es útil para controlar el tráfico en sitios con recursos limitados.

Ejemplo:

User-agent: Bingbot
Crawl-delay: 5

Esto le indica a Bingbot que espere 5 segundos entre solicitudes.

5. Sitemap

Incluye la ubicación de tu sitemap XML para facilitar el rastreo e indexación de tus páginas.

Ejemplo:

Sitemap: https://tu-sitio.com/sitemap.xml

6. Host

Esta directiva se utiliza para indicar el dominio preferido si tienes múltiples versiones (por ejemplo, con y sin «www»). Es soportada principalmente por Yandex.

Ejemplo:

Host: www.tu-sitio.com

7. Noindex

Aunque no es parte oficial del protocolo robots.txt, algunos motores de búsqueda lo reconocen como una señal para no indexar ciertas URLs.

Ejemplo:

User-agent: *
Noindex: /temporales

Ten en cuenta que esta directiva está en desuso y es preferible usar etiquetas meta en el código HTML.

8. Wildcard y $ (comodín)

Puedes usar el asterisco * como comodín para representar cualquier número de caracteres y el signo de dólar $ para especificar el final de una URL.

Ejemplo:

User-agent: *
Disallow: /*.pdf$

Esto bloqueará todas las URLs que terminen en «.pdf».

Ejemplo de configuración óptima

Aquí tienes un ejemplo de un archivo robots.txt bien estructurado, adaptable a muchos sitios web:

# General rules for all bots
User-agent: *
Disallow: /login.xhtml
Disallow: /choose-agency.xhtml
Disallow: /admin
Disallow: /brochurePDF
Disallow: /voucher/pdf
Disallow: /itemvoucher/pdf
Disallow: /resources
Disallow: /resources-internal

# Specific crawl-delay for known bots
User-agent: SemrushBot
Crawl-delay: 2
User-agent: AhrefsBot
Crawl-delay: 2
User-agent: MJ12bot
Crawl-delay: 2
User-agent: PetalBot
Crawl-delay: 2
User-agent: Bingbot
Crawl-delay: 1

# Block problematic or unnecessary bots
User-agent: asterias
Disallow: /
User-agent: bytespider
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: BLEXBot
Disallow: /

# Sitemap for search engines
Sitemap: https://tu-sitio.com/sitemap.xml

Errores comunes al configurar robots.txt

Bloquear todo el sitio sin querer: Usar Disallow: / en User-agent: * impedirá que cualquier motor de búsqueda indexe tu sitio.
Olvidar incluir el sitemap: Esto dificulta el rastreo de las URLs relevantes.
Sobreuso del crawl-delay: Algunos motores, como Googlebot, no soportan esta directiva.
Incluir información sensible: No uses Disallow para esconder datos confidenciales; estos aún podrían ser accesibles si están públicamente disponibles.

Aprende más sobre robots.txt

Si quieres profundizar en este tema, te recomendamos leer:

Ejemplo de robots.txt recomendado para WordPress: Este artículo explica cómo adaptar tu archivo robots.txt para sitios WordPress, maximizando su eficiencia SEO.
La importancia del fichero robots.txt para Google: Aquí aprenderás por qué este archivo es clave para una indexación adecuada y cómo afecta a tu estrategia SEO.

Conclusión

Un archivo robots.txt bien configurado es esencial para optimizar el rendimiento SEO de tu sitio web y proteger recursos sensibles. Aprovecha todas las funciones disponibles para adaptarlo a tus necesidades. Asegúrate de mantenerlo actualizado y adaptarlo a las necesidades de tu proyecto. Si tienes dudas o necesitas ayuda para optimizarlo, ¡te leo en comentarios!

También es una idea inteligente recurrir al sitemap para indexar nuestro sitio, pues, es mucho más veloz. Además, debemos evitar el uso del robots.txt para hacer malas prácticas como el cloaking, pues seremos penalizados por Google.

Si encontraste útil toda la información que hemos compartido, te agradecemos sinceramente tu apoyo. Si deseas colaborar con nosotros, puedes hacerlo mediante una donación a través de PayPal o Cafecito. Tu generosidad nos ayuda a mantener nuestro contenido libre de publicidad y a seguir ofreciendo información valiosa para ti y para nuestra comunidad de lectores.

Si estás considerando crear tu propio sitio web, te recomendamos medir todas tus acciones con Semrush. Es una plataforma fácil de usar y muy popular que te permitirá llevar tus ideas al mundo digital. Haz clic en el banner de abajo para obtener un descuento al crear tu sitio con WordPress.

¡Sin más que agregar, me despido hasta el próximo post!

La Guía Definitiva para Configurar un Archivo robots.txt Óptimo

¿Qué es el archivo robots.txt?

Funciones principales del archivo robots.txt

1. User-agent

2. Disallow

3. Allow

4. Crawl-delay

5. Sitemap

6. Host

7. Noindex

8. Wildcard y $ (comodín)

Ejemplo de configuración óptima

Errores comunes al configurar robots.txt

Aprende más sobre robots.txt

Conclusión

Leave a Comment (Cancel reply)