Robots.txt y su importancia para Google

Si viniste a este post para entender que es el Robots.txt y su importancia, te cuento, que llegaste al lugar indicado. Pues, voy a intentar definirte el concepto de manera simple y con alguna cuota de humor para que el contenido sea menos pesado.

Los motores de búsqueda son mecanismos que organizan y distribuyen la información producida en la red a los usuarios que expresan sus dudas a partir de keywords en los estos motores.

¿Qué tienen que ver los motores de búsqueda con el robot.txt?

Primero, tenemos que entender que los motores de búsqueda como Google usan pequeños fragmentos de código para analizar el contenido de los sitios web. Así es como obtienen los datos para las consultas que se hacen en el buscador.

Por consiguiente, podemos decir que existen robots de búsquedas, que analizan el contenido de tu sitio y guardan cualquier información que encuentran, incluso aquella que no quieres, y luego va a aparecerá en los resultados de búsqueda de Google.

Es más, algunos son muy agresivos, y hacen muchas peticiones al servidor que pueden llegar a bloquear ciertas URLs haciendo que el sitio deje de funcionar. Como propietario de una web puedes indicar que robots quieres que entren y que páginas van a poder descargar.

Esto lo conseguirás con el fichero robots.txt que funciona del siguiente modo, cuando un robot quiere visitar un sitio web, antes descarga un fichero llamado robots.txt que es un fichero de texto que tiene instrucciones para los robots.

¿Realmente es necesario?

No es imprescindible, ya que los robots podrán acceder a tu sitio aunque no lo tengas, sin embargo es recomendable crear el fichero robots.txt por estos dos motivos:

  • Podrás indicar que robot puede entrar y que páginas puede visitar.
  • Es el lugar dónde los robots buscan el fichero sitemap.xml.

Ahora que sabemos lo que es, vamos a ver como se puede crear uno para tu sitio.

Paso 1 – ¿Dónde colocar el fichero robots.txt?

Hay que colocarlo en el raíz del alojamiento. Sí tienes un alojamiento tipo cPanel lo colocarás dentro de la carpeta public_html a la que puedes llegar desde el administrador de archivos de cPanel.

  • Entra al Panel de Control cPanel
  • Pulsa en el icono Administrador de Archivos
  • A la izquierda, en el árbol de ficheros, pulsa en la carpeta public_html para marcarla.
  • Pulsa en + Archivo para crear un nuevo fichero. Llámalo robots.txt y pulsa en el botón Crear nuevo archivo.

Paso 2 – Contenido de robots.txt

  • Seguimos en el administrador de archivos, pulsa sobre el fichero robots.txt y pulsa en el menú Editar.
  • Añade este contenido que te explico más adelante:

User-agent: *
Allow: /

La primera línea indica que todos los robos tienen acceso ya que se usa el carácter comodín (*) y en la segunda línea da permiso para entrar a todos los recursos.

  • Guarda los cambios.
¿Ya tenes el robots?, ¿Lo vas a hacer?.

Ahora te enseño algunos ejemplos de configuracion habituales:

Para bloquear un directorio o una página

Si quieres bloquear el acceso del robot de Google a unas páginas concretas utiliza este ejemplo:

User-agent: Googlebot
Disallow: /category/
Disallow: /wp-admin/

Para bloquear ficheros por extensión

User-agent: *
Disallow: /*.zip$

Para bloquear un robot

En este ejemplo encontrarás como bloquear un robot y permitir el acceso al resto:

User-agent: *
Allow: /

User-agent: MSIECrawler
Disallow: /

Y si usas WordPress te recomiendo usar este fichero robots.txt que mejora la seguridad.

50 elementos a comprobar en un checklist seo

Paso 3 – Comprobar que funciona

Primero tienes que probar que el fichero se ve en Internet. Utiliza un navegador, navega a la dirección de tu dominio y añade al final /robots.txt, tiene que aparecer el contenido del fichero como aquí:

http://www.example.com/robots.txt, como lo hacen aquí.

Ahora sólo falta esperar unos días a que Google actualice los resultados de búsqueda.

Super interesante, ¿verdad?

error: Content is protected !!