La Guía Definitiva para Configurar un Archivo robots.txt Óptimo

El archivo robots.txt
es una pieza fundamental para controlar el acceso de los motores de búsqueda a tu sitio web. Si está bien configurado, puede mejorar significativamente el rendimiento SEO y evitar problemas de indexación o sobrecarga en tu servidor. En este artículo, te explicaremos cómo optimizarlo, exploraremos todas las funciones que puedes utilizar y lo complementaremos con ejemplos prácticos; por eso hoy te presento: La Guía Definitiva para Configurar un Archivo robots.txt Óptimo
¿Qué es el archivo robots.txt?
El archivo robots.txt
es un fichero de texto que se ubica en el directorio raíz de tu sitio web y establece reglas que indican a los motores de búsqueda qué pueden y qué no pueden rastrear.
Es una herramienta poderosa, pero también puede ser peligrosa si se usa incorrectamente, ya que podría bloquear contenido importante o exponer datos sensibles.
Entonces, si querés saber cómo configurar un archivo robots.txt, primero deberás conocer las variables:
Funciones principales del archivo robots.txt
Vamos con las variables que podés configurar en un archivo robots.txt:
1. User-agent
El comando User-agent
especifica a qué bot de rastreo se aplica la regla. Puedes dirigir reglas específicas para bots individuales o usar el comodín *
para que la regla aplique a todos los bots.
Ejemplo:
User-agent: Googlebot
Disallow: /private
Esto bloqueará el acceso de Googlebot a la carpeta /private
.
2. Disallow
La directiva Disallow
indica las rutas o directorios que no deben ser rastreados por los bots. Es el comando más utilizado.
Ejemplo:
User-agent: *
Disallow: /admin
Esto bloquea el acceso a la carpeta /admin
para todos los bots.
3. Allow
El comando Allow
se utiliza para permitir el acceso a rutas específicas, incluso si el directorio padre está bloqueado por un Disallow
.
Ejemplo:
User-agent: *
Disallow: /files
Allow: /files/public
Esto bloquea todo el directorio /files
, excepto la subcarpeta /files/public
.
4. Crawl-delay
La directiva Crawl-delay
especifica un tiempo de espera (en segundos) entre solicitudes realizadas por un bot. No todos los motores de búsqueda soportan esta directiva, pero es útil para controlar el tráfico en sitios con recursos limitados.
Ejemplo:
User-agent: Bingbot
Crawl-delay: 5
Esto le indica a Bingbot que espere 5 segundos entre solicitudes.
5. Sitemap
Incluye la ubicación de tu sitemap XML para facilitar el rastreo e indexación de tus páginas.
Ejemplo:
Sitemap: https://tu-sitio.com/sitemap.xml
6. Host
Esta directiva se utiliza para indicar el dominio preferido si tienes múltiples versiones (por ejemplo, con y sin «www»). Es soportada principalmente por Yandex.
Ejemplo:
Host: www.tu-sitio.com
7. Noindex
Aunque no es parte oficial del protocolo robots.txt
, algunos motores de búsqueda lo reconocen como una señal para no indexar ciertas URLs.
Ejemplo:
User-agent: *
Noindex: /temporales
Ten en cuenta que esta directiva está en desuso y es preferible usar etiquetas meta en el código HTML.
8. Wildcard y $ (comodín)
Puedes usar el asterisco *
como comodín para representar cualquier número de caracteres y el signo de dólar $
para especificar el final de una URL.
Ejemplo:
User-agent: *
Disallow: /*.pdf$
Esto bloqueará todas las URLs que terminen en «.pdf».
Ejemplo de configuración óptima
Aquí tienes un ejemplo de un archivo robots.txt
bien estructurado, adaptable a muchos sitios web:
# General rules for all bots
User-agent: *
Disallow: /login.xhtml
Disallow: /choose-agency.xhtml
Disallow: /admin
Disallow: /brochurePDF
Disallow: /voucher/pdf
Disallow: /itemvoucher/pdf
Disallow: /resources
Disallow: /resources-internal
# Specific crawl-delay for known bots
User-agent: SemrushBot
Crawl-delay: 2
User-agent: AhrefsBot
Crawl-delay: 2
User-agent: MJ12bot
Crawl-delay: 2
User-agent: PetalBot
Crawl-delay: 2
User-agent: Bingbot
Crawl-delay: 1
# Block problematic or unnecessary bots
User-agent: asterias
Disallow: /
User-agent: bytespider
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
# Sitemap for search engines
Sitemap: https://tu-sitio.com/sitemap.xml
Errores comunes al configurar robots.txt
- Bloquear todo el sitio sin querer: Usar
Disallow: /
enUser-agent: *
impedirá que cualquier motor de búsqueda indexe tu sitio. - Olvidar incluir el sitemap: Esto dificulta el rastreo de las URLs relevantes.
- Sobreuso del
crawl-delay
: Algunos motores, como Googlebot, no soportan esta directiva. - Incluir información sensible: No uses
Disallow
para esconder datos confidenciales; estos aún podrían ser accesibles si están públicamente disponibles.
Aprende más sobre robots.txt
Si quieres profundizar en este tema, te recomendamos leer:
- Ejemplo de robots.txt recomendado para WordPress: Este artículo explica cómo adaptar tu archivo
robots.txt
para sitios WordPress, maximizando su eficiencia SEO. - La importancia del fichero robots.txt para Google: Aquí aprenderás por qué este archivo es clave para una indexación adecuada y cómo afecta a tu estrategia SEO.
Conclusión
Un archivo robots.txt
bien configurado es esencial para optimizar el rendimiento SEO de tu sitio web y proteger recursos sensibles. Aprovecha todas las funciones disponibles para adaptarlo a tus necesidades. Asegúrate de mantenerlo actualizado y adaptarlo a las necesidades de tu proyecto. Si tienes dudas o necesitas ayuda para optimizarlo, ¡te leo en comentarios!
También es una idea inteligente recurrir al sitemap para indexar nuestro sitio, pues, es mucho más veloz. Además, debemos evitar el uso del robots.txt para hacer malas prácticas como el cloaking, pues seremos penalizados por Google.
Para finalizar te dejo este banner con 25 dólares para tu próximo sitio en WordPress, y así, aplicar lo aprendido.
¡Sin más que agregar, me despido hasta el próximo post!