Tf*idf: La frecuencia de términos vs Frecuencia inversa del documento es una práctica funcional a tu SEO dentro del marketing de contenidos

Puede que te parezca extraño el título del artículo de hoy, pero, posiblemente el Tf*idf sea una métrica que seguro utilizaste sin saberlo. En especial sí tu sitio web o blog aplica marketing de contenidos para posicionarse conforme a los motores de búsqueda.

Si una de las patas centrales de tu negocio o actividad profesional está relacionada con la creación de contenido y su optimización; estoy seguro que te resultará de lo más interesante comprender el tema de este artículo; el Tf*idf.¿La qué?. ¡Pues si!, el Tf*idf, ese parámetro de posicionamiento web, que funciona de manera tácita siendo que es funcional tanto al SEO de tu sitio web; como a tu plan de marketing de contenidos.

Sí esta es la primera vez que escuchás esta terminología, tranquí pa’, no muchos la conocen. Así que te recomiendo seguir leyendo para que te informes sobre ésta práctica híbrida y funcional al SEO y al marketing de contenidos.

— Bueno, el Tf*idf es y no es un factor de posicionamiento; ¿usted me entiende?. Pues, cómo lo iré desarrollando en el post, no es un factor de posicionamiento propiamente dicho, pero, es útil para posicionarse dentro de un sector.


¿Qué es el TF-IDF o Tf*idf?

TF-IDF o Tf*idf son las siglas en inglés para «Term frequency vs Inverse document frequency» que traducido al español sería algo así cómo: «Frecuencia de términos vs Frecuencia inversa del documento«. Parece complicado, pero ahora desarrollaré un poco más sobre esto y quedará claro el concepto.

Esta comparativa relativa entre la frecuencia de términos «palabras clave relacionadas con la intención de búsqueda que se encuentran en una URL» vs la frecuencia inversa de éstas en el documento se utiliza mucho para pulir el SEO de un documento. Pues, ésta es una práctica avanzada de SEO, y busca, darle un punto de calidad a tu documento.

Por eso se dice que es ideal tanto para el posicionamiento cómo para los sistemas de recuperación de información y la minería de texto. Entonces, es por esto, que la mayoría de las bibliotecas digitales buscan optimizarlo «ahora tenemos que pensar en este objetivo». Pues, esto se encuentra directamente relacionado con los motores de búsqueda, ya que usan un sistema similar a éste algoritmo para procesar; indexar; posicionar; y, eventualmente, mostrar el propio contenido a un determinado usuario.

En resumidas cuentas, podríamos decir que el Tf*idf, pondera el uso de una determinada palabra «clave», dentro de un conjunto de documentos. Esto aumenta la relevancia de elegir y optimizar correctamente tus palabras clave a posicionar, no solo en un documento, sino que, en el total de tu sitio web.

Pero, ¿cómo se calcula esto?. Bueno, acá llega a escena los dos conceptos: el Tf y el idf.

1. Tf: Frecuencia de términos

Bueno, cómo lo comentaba en el apartado anterior; la frecuencia de términos, es básicamente la cantidad de veces que se repite una Keyword dentro de un documento.

Para comprender ésta idea un poco mejor, tenés que pensar que el Tf*idf es una relación. Veamos un ejemplo de esto, pensá que estás en un documento URL, cómo lo puede ser un post del blog de mi página. Pero, hay tantos posteos, y no sabés cual o qué es lo más relevante conforme a una determinada consulta.

Yendo al ejemplo práctico, queremos ver que consulta es más relevante para «hacer SEO on-page». Entonces, para hacer, lo primero que se debe hacer, es sacar todos esos documentos que no contienen nada relacionado con el tema. Sin embargo, solo estamos sacando los que no están relacionados con el tema; aunque, aún tendríamos muchos documentos «URLs» relevantes para seguir explorando.

Entonces, una idea relevante sería ver qué documento repite más veces la palabra clave, ¿no?. Bueno, la respuesta es sí y no, pues podríamos tener un documento que, efectivamente, repite muchas veces la palabra clave. Pero, éste documento es tan extenso, y dicha keyword podría encontrarse muy «diluida«. — ¿Se entiende?.

Por eso, es que se mide en una relación porcentual; pues, de ésta manera es mucho más relevante ver que tan importante es una determinada intención de búsqueda dentro de un documento.

Así mismo, el Tf se puede calcular de manera manual con la siguiente fórmula:

TF = Nº Total de la Keyword en el documento / Nº Total de palabras en el documento

2. Idf: Frecuencia inversa de documento

Bueno, una vez definimos el Tf, resta hace lo propio con el idf. — Entonces, para ello, debemos volver a pensar en nuestra keyword de búsqueda: «hacer SEO on-page». Sin embargo, nos estamos encontrando con un termino muy genérico y que es poco relevante: «hacer». Seguramente, éste término se encuentre con mucha más frecuencia tanto dentro cómo fuera del documento, en comparación con «SEO» u «on-page».

Entonces, en este caso, podemos decir que «hacer» no es una buena keyword para determinar la relevancia de un determinado documento respecto de las consultas «SEO» y «on-page». Por eso, toca añadirle un factor más al Tf, y es el propio idf o Frecuencia inversa de documento.

Ahora si, al incorporar el idf, se alcanza un efecto diferente. Pues, el idf busca disminuir el peso de aquellos términos de búsqueda con respecto a las palabras clave. En este caso, el idf es un filtro para «hacer», dejándonos solo los Tf «SEO» y «on-page». Por eso, se le resta importancia a unos términos, y se les pondera valor de manera positiva a otros.

El idf, al igual que cómo ocurre con el Tf, también puede ser medido de manera algebraica:

IDF = log (Nº Total de documentos / Nº de documentos con la Keyword)


Calculando el Tf*idf

Bueno, cómo vimos recién, sí ambos documentos pueden ser calculados matemáticamente, se pueden combinar y crear el propio Tf*idf.

1. El Tf se calcularía así:

Veamos un ejemplo de esto, donde tenemos un documento de 100 palabras, donde la palabra «SEO» aparece 3 veces:

TF = 4/100 = 0,04

2. El idf se calcularía así:

Se encuentran 500 documentos y la palabra «SEO» supongamos aparece en 100 veces en todos los documentos.

idf = log (500/100) = 0,7

3. Fórmula para calcular el Tf*idf

Finalmente, aplicamos la expresión completa del Tf*idf y tenemos que:

TF x IDF = 0,04 x 07 = 0,028

4. Fórmula y ejemplo para calcular el Tf*idf porcentual

Pero, cómo nos interesa también saber en qué porcentaje de nuestros post están relevantes con el término «SEO». Entonces, lo multiplicamos por 100.

SEO = 0,028 * 100 = 2,28%

Por supuesto, que este valor porcentual no lo vas a ver así en las herramientas, pero es un parámetro que yo utilizo de vez en cuando, para ver que tal está el contenido.


¿Cómo se afecta el Tf*idf en el SEO y los algoritmos?

Bueno, toca hablar un poco más del uso comprobable del Tf*idf, para no quedar como un chanta fraude. Por eso, cómo me dedico al SEO, puedo hablar largo y tendido sobre varios temas, y uno recurrente, es la correcta aplicación de las palabras clave. — ¡El SEO es mi pasión!.

Entonces, esto toma más relevancia para los SEO nicheros, pues, en este sentido, hay que ser conciente de la relevancia de utilizar una terminología específica durante tdo el sitio.

Además, hay que ser consciente de que el propio Google está cambiando su algoritmo constantemente. Ya que, dichas modificaciones (menores y grandes) pueden afectar nuestro posicionamiento. En especial, porque no nos enteramos de inmediato sobre los propios cambios Google hace. — De ahí que los SEOs sean muy barderos, quilomberos, complicados.

Pues, dichos cambios van dirigidos en gran parte, o así se cree, a mostrar los resultados más relevantes ante la consulta del usuario en el motor de búsqueda.

Por esta razón, más adelante me gustaría comentar un par de cambios que potenciaron el Tf*idf; y por qué es relevante utilizar esta técnica en tu estrategia SEO. En especial cuando se habla de marketing de contenidos en nichos específicos.

1. Google Hummingbirg

— Bueno, lo cierto es que hablar de un único algoritmo no sería correcto; pues, Google opera con varios de éstos en simultáneo. Uno de éstos es el propio Hummingbird, el cual se encarga de descifrar búsquedas complejas. Ya qué, para el propio código, intenta siempre «interpretar» lo que realmente quiere el usuario.

De éste tema hablamos en el propio post del Hummingbird; lo que si quiero comentar, es que este algoritmo se centra en brindar una buena experiencia en búsquedas de lenguaje informal. Siendo el protagonista, el propio usuario junto con su intención.

Pues, con este algoritmo podemos preguntar cosas al estilo: «cuando murió rodrigo», en lugar de «muerte rodrigo»; o, también, «cual es el mejor hotel en buenos aires», en lugar de preguntar «hoteles en buenos aires».

Cómo podemos apreciar en ambas búsquedas, el algoritmo ya es capaz de entender y comprender lo que el algoritmo está intentando buscar. Sí bien existen más de 200 factores que influyen en mayor o menos medida, lo cierto es que lo principal es siempre la propia intención del usuario.

Entonces, con este algoritmo, Hummingbird busca comprender el significado de las propias palabras; en lugar de tan sólo quedarse con un determinado término de búsqueda que tiene mucha interacción de usuario dentro de un determinado nicho.

Además, el propio algoritmo, también es el encargado de entender la búsqueda, y sí corresponder, mostrar un determinado resultado enriquecido, veamos algunos de ellos:

1.1 Fechas

Las fechas son sólo uno de los tantos snippets que hay incorporados desde la llegada desde Hummingbird. Para más información sobre los Snippets, te recomiendo visitar éste post dedicado, o incluso, ir a Schema.org.

1.2 Biografías

Las biografías son otro tipo de metainformación que se incorpora en el head de una determinada URL. Allí, lo que se busca es dar la información necesaria para que el propio buscador genere la tarjeta enriquecida.

1.3 Album musical

Los álbumes musicales son otro tipo de Snippet que busca brindar información extra a los interesados en la materia. Es muy similar a lo que sucede con las propias películas.

1.4 Restaurantes

Desde el punto del usuario, este Snippet es especialmente útil para cuando se intenta buscar algún lugar específico; con horarios; y demás información. Pero, sin embargo, el dueño del propio negocio puede sacarle mucho partido, porque este tipo de Snippet combinado con una estrategia en Google My Business, puede ayudarte a potenciar tu plan de marketing local. Sin necesidad de recurrir a un Geositemap u otro plan de SEO localizado.

1.5 Recetas

Las recetas tienen un potencial enorme en cuanto a los rich snippets. Pues, a día de hoy, se volvieron un obligado al momento de querer potenciar y posicionar un blog en el rubro de las comidas. Son ideales tanto para ganar visibilidad, cómo para potenciar la propia marca personal.

Dicho todo esto, podemos empezar a vislumbrar que la máxima de contenido de valor para el usuario va si a seguir aumentando en importancia con lo que podemos considerar que si bien es cierto que el concepto de keyword a atacar seguirá teniendo un papel central.

Pues, no es menos cierto que debido a lo expuesto anteriormente, que contenidos que puedan no tener una prominencia de determinadas keywords pero que aporten al usuario lo que anda buscando estén bien posicionados ante determinadas búsquedas en base a esas otras señales que el buscador se está esforzando en identificar.

2. RankBrain

El algoritmo RankBrain es un punto de calidad extra en el propio Google. Pues, en el afán de brindar una gran experiencia de usuario, el gigante de los buscadores, intentó innovar con algo diferente. Así es como nació RankBrain, del cuál se habló mucho en un post dedicado.

Pero, sin embargo, me gustaría mencionar un poco sobre éste tema, pues, la característica principal de RankBrain es la interpretación semántica. Entonces, gracias a ésto, las técnicas de palabras clave, han tenido un antes y un después conforme a los resultados de búsqueda.

Por esta razón, te recomiendo que sí estás pensando una estrategia de contenidos, leas también sobre el funcionamiento del algoritmo RankBrain; y además, en entender la lógica y el funcionamiento del enlazado interno con anchor text, junto a las propias palabras clave.


Herramientas para calcular el Tf*idf

Lo cierto es que casi nadie calcula el Tf*idf, y mucho menos calcularlo con la fórmula tradicional. Sin embargo, existen herramientas que pueden ayudarte con este proceso, por sí te interesa conocer como está este valor en tu sitio web.

A continuación comparto una lista de las herramientas que conozco, que son capaces de analizar éste patrón. Dichas Apps, analizan un sitio, y luego proporcionan una lista de palabras clave que se encuentran relacionadas directamente con las temáticas y diferentes Keywords relevantes del nicho.

Cómo vimos, conocer esta información quizás no sea lo más relevante para posicionar un sitio web. Pero, te brinda información relevante sobre nuevos temas, conceptos, y demás insights relevantes para explotar dentro de nuestro sitio web. — Bueno, ahora sí, vamos con la lista:

  • Website Auditor de Link Assistant
  • RYTE que antes era OnPage.org
  • Seolyze
  • Xovi
  • DinoRank


Conclusión:

— Bueno, ahora si, vamos a cerrar el post con las conclusiones habituales. En cuanto a ésto, sólo quiero mencionar que el Tf*idf no es un dato que Google está utilizando; sin embargo, el conocer esta información es relevante para pensar correctamente el SEO de nuestro sitio en función a nuestro plan de Marketing de Contenidos.

En cuanto a la realización del cálculo de manera manual o automática, siempre es mucho mejor hacerlo de manera automática. Pues, de ésta manera nos evitamos el error humano; ya que incluso, yo mismo que tenía todo el guión del post armado, tuve probleas con el cálculo.

También es cierto que las herramientas no son gratuitas; sin embargo, tampoco es necesario pagarla todo el tiempo. Pues, lo mejor es hacer la inversión un mes y extraer toda la información posible para trabajar un largo período de tiempo y listo.

Bien, ahora espero que el artículo te haya sido de utilidad y te ayude en tus estrategias de SEO y de marketing de contenidos. Sí crees que le es útil a alguien, no dudes en compartir el post; o simplemente deja un comentario en la caja de comentarios. Pero, antes de terminar, quiero dejarte aquí debajo un banner con un regalo de 25 dólares para que puedas crear tu propio sitio web e implementar una estrategia con el Tf*idf. — ¡Ahora si, adiós!.

Consigue 25 dólares para tu próximo sitio WordPress

1 comentario en “Tf*idf: La frecuencia de términos vs Frecuencia inversa del documento es una práctica funcional a tu SEO dentro del marketing de contenidos”

  1. Pingback: 💔⚡ Keyword Stuffing: ¡No abuses de las palabras clave! • Tupac Bruch

Deja un comentario Cancelar respuesta

Post relacionados

Por si te quedaste con ganas de más...

Como seguramente seguis con muchas ganas de leer post de mni blog «dijo nunca, nadie», te dejo algunos otros post que podrían ser de interés, ordenados de manera completamente random.

¿Necesitás contactarte conmigo?

Si tenés ganas de ponerte en contacto porque necesitás ayuda particular o simplemente te falta uno para el fútbol, no dudes en dejarme un mensaje por mail o en las redes sociales.

error: Content is protected !!