Cómo evitar que Google rastree lo que no querés: Bloqueo de APIs y recursos innecesarios

El rastreo de Google es fundamental para el SEO, pero no siempre queremos que Googlebot acceda a todas las partes de nuestro sitio. APIs, archivos JSON, recursos de JavaScript y otros elementos técnicos pueden consumir el presupuesto de rastreo sin aportar valor al posicionamiento. En este artículo, te voy a explicar cómo identificar estos recursos y cómo bloquearlos correctamente para optimizar tu crawl budget. ¿Listo? Bueno, vamos a ver cómo bloquear el rastreo de APIs y recursos innecesarios
¿Por qué bloquear ciertos recursos del rastreo de Google?
El presupuesto de rastreo es la cantidad de páginas que Googlebot está dispuesto a rastrear en tu sitio durante un periodo determinado. Si Google está gastando ese presupuesto en recursos innecesarios, podría no llegar a las páginas que realmente importan para el SEO.
Recursos que podrías querer bloquear:
- APIs REST y GraphQL: Generalmente sirven para cargar datos en el frontend, pero no aportan valor directo al SEO.
- Archivos JSON y XML: Utilizados para configuraciones o datos estructurados que no necesitan ser indexados.
- JavaScript, CSS e Imágenes Dinámicas: Aunque algunos recursos son importantes para la experiencia del usuario, otros pueden ser redundantes para Googlebot.
- Parámetros de URL: URLs con parámetros que generan contenido duplicado o innecesario.
Beneficios de bloquear estos recursos:
- Optimización del presupuesto de rastreo.
- Mejora en la velocidad de rastreo e indexación de páginas importantes.
- Evitar problemas de contenido duplicado.
Cómo identificar recursos que están desperdiciando el presupuesto de rastreo
Antes de bloquear cualquier recurso, es esencial saber qué está rastreando Googlebot actualmente. Aquí te dejo algunas herramientas y métodos para identificar estos recursos.
> Click acá para ver más sobre presupuesto de rastreo
1. Google Search Console
- Estadísticas de Rastreo: Esta sección te muestra qué tipo de archivos está rastreando Google (HTML, JSON, JavaScript, etc.).
- Cobertura: Revisá qué URLs están siendo indexadas y si hay errores o páginas excluidas.


2. Análisis de Logs del Servidor
- Los archivos log muestran las solicitudes exactas que Googlebot hace a tu servidor. Herramientas como Screaming Frog Log File Analyzer pueden ayudarte a interpretar estos datos.
3. Herramientas de Auditoría SEO
- Screaming Frog o Sitebulb permiten simular el comportamiento de Googlebot y detectar recursos innecesarios que podrían estar siendo rastreados.
Señales de que deberías bloquear algo:
- Alta cantidad de solicitudes a APIs.
- Rastreo excesivo de archivos JSON o JavaScript.
- Páginas con parámetros que no aportan valor.
Métodos para bloquear recursos innecesarios del rastreo
Una vez que identificaste qué está gastando tu presupuesto de rastreo, podés implementar diferentes técnicas para bloquear esos recursos.
1. Bloqueo mediante robots.txt
El archivo robots.txt
es la primera línea de defensa para evitar que los motores de búsqueda rastreen recursos innecesarios. Acá te dejo algunos ejemplos prácticos.
A. Bloquear APIs REST y GraphQL:
User-agent: *
Disallow: /api/
Disallow: /graphql/
B. Bloquear archivos JSON y configuraciones:
User-agent: *
Disallow: /*.json$
Disallow: /*.xml$
C. Bloquear parámetros de URL específicos:
User-agent: *
Disallow: /*?sessionid=
Disallow: /*?utm_source=
2. Uso de Encabezados X-Robots-Tag
Si querés un control más granular sobre qué se rastrea y qué no, podés usar el encabezado HTTP X-Robots-Tag
para bloquear la indexación de ciertos recursos.
Ejemplo para bloquear archivos JSON:
X-Robots-Tag: noindex, nofollow
Podés configurar esto en el servidor para que se aplique a tipos de archivos específicos.
3. Noindex en Metaetiquetas
Si tenés páginas específicas que no querés que Google indexe, podés usar la metaetiqueta noindex
.
<meta name="robots" content="noindex, nofollow">
Ideal para páginas con parámetros o contenido duplicado que no podés bloquear desde el robots.txt
.
4. Configuración en Google Search Console
Google Search Console permite configurar el manejo de parámetros de URL.
- Configuración de parámetros: Podés decirle a Google cómo debe tratar ciertos parámetros, como ignorarlos o rastrearlos.
Buenas prácticas al bloquear recursos
1. No bloquear recursos críticos para la experiencia del usuario Asegurate de no bloquear archivos CSS o JavaScript necesarios para que Google pueda entender la estructura de tu página.
2. Revisar regularmente el archivo robots.txt Cada vez que hagas cambios en el sitio, revisá que las reglas del robots.txt
sigan siendo relevantes.
3. Monitorizar con Google Search Console Después de hacer cambios, verificá que las páginas importantes sigan indexándose correctamente.
4. Pruebas de Rastreo Usá la herramienta de inspección de URLs de Google Search Console para asegurarte de que Googlebot ve tu contenido correctamente.
Conclusión
Bloquear recursos innecesarios del rastreo de Google es una estrategia fundamental para optimizar el presupuesto de rastreo y mejorar el SEO de tu sitio. Al identificar qué está consumiendo recursos y aplicar las técnicas correctas de bloqueo, podés asegurarte de que Google está invirtiendo su tiempo en las páginas que realmente importan.
Con una combinación de robots.txt
, encabezados X-Robots-Tag
, y configuraciones adecuadas en Google Search Console, podés tener un control total sobre cómo Google interactúa con tu sitio. Recordá revisar y ajustar estas configuraciones regularmente para adaptarte a los cambios en tu sitio y en las prácticas de los motores de búsqueda.
Si encontraste útil toda la información que hemos compartido, te agradecemos sinceramente tu apoyo. Si deseas colaborar con nosotros, puedes hacerlo mediante una donación a través de PayPal?? o Cafecito??. Tu generosidad nos ayuda a mantener nuestro contenido libre de publicidad y a seguir ofreciendo información valiosa para ti y para nuestra comunidad de lectores.
Si estás considerando crear tu propio sitio web, te recomendamos WordPress??. Es una plataforma fácil de usar y muy popular que te permitirá llevar tus ideas al mundo digital. Haz clic en el banner de abajo para obtener un descuento de $25 al crear tu sitio con WordPress??