Análisis jerárquico de conglomerados

Datos de muestra

Un análisis cluster jerárquico es un método de clustering que crea un árbol jerárquico o dendrograma de los objetos a agrupar.

Hierarchical cluster analysis dendrogram

El árbol representa las relaciones entre los objetos y muestra cómo se agrupan los objetos en diferentes niveles.

Ejemplo de análisis cluster jerárquico

Ejemplo: Preguntamos a los encuestados cuántas horas a la semana dedican a las redes sociales y al gimnasio.

Hierarchical cluster analysis example data

Ahora queremos saber si hay conglomerados en este conjunto de datos y realizar un Análisis Jerárquico de Conglomerados.

¿Cómo se calcula un Análisis Cluster Jerárquico?

En primer lugar, trazamos los puntos en un diagrama de dispersión.

Scatter plot Hierarchical Cluster Analysis

Con esto ya podemos empezar a crear los conglomerados. En el primer paso asignamos un conglomerado a cada punto. Así tendremos tantos conglomerados como personas.

El objetivo ahora es: fusionar más y más clusters poco a poco, hasta que finalmente todos los puntos estén en un cluster.

Calculate clusters Hierarchical cluster analysis

En cada paso, siempre se fusionan los conglomerados más cercanos entre sí. ¿Qué significa "más próximos"?

Para ello necesitamos determinar dos cosas

Cómo se mide la distancia entre dos puntos.
Cómo se conectan los puntos de un cluster.

Distancia entre dos puntos

Empecemos por la pregunta: ¿cómo se calcula la distancia entre dos puntos? He aquí las distancias más conocidas

la distancia euclídea
la distancia Manhattan
y la distancia máxima.

Tomemos la distancia entre Max y Caro. La diferencia en el eje y es 1 y la diferencia en el eje x es 4.

Distancia Euclídea

La distancia euclídea es la raíz cuadrada de la suma de las diferencias al cuadrado.

Distancia Manhattan

La distancia Manhattan utiliza la suma de las diferencias absolutas. Así que simplemente calculamos 4 más 1 y nos quedamos con una distancia de 5

Distancia máxima

La distancia máxima es simplemente el valor máximo de las diferencias absolutas. En este caso es 4.

Método de enlace

Ahora que ya sabemos cómo calcular las distancias entre puntos, tenemos que determinar cómo enlazar los puntos dentro de un conglomerado.

Linking method Hierarchical cluster analysis

Supongamos que tenemos un cluster con los puntos Joe y Lisa y un cluster con Max y Caro. ¿Cómo determinamos la distancia entre estos dos clusters? He aquí los métodos más populares:

Enlace simple,
Enlace completo
y Average-linkage.

Enlace simple

El Single-linkage utiliza la distancia entre los elementos más cercanos del cluster. Ésta es la distancia entre Caro y Joe.

Enlace completo

La vinculación completa utiliza la distancia entre los elementos más alejados del clúster. Es decir, entre Max y Joe.

Enlace medio

La vinculación media utiliza la media de todas las distancias entre pares. A partir de cada combinación se calcula la distancia y a partir de ella la media.

Ejemplo de análisis jerárquico de conglomerados

Para nuestro ejemplo utilizamos la distancia euclídea y el método de enlace simple. Así que ahora necesitamos la distancia de cada cluster a los otros clusters.

Para ello, primero tenemos que calcular la matriz de distancias. En la matriz de distancias introducimos los conglomerados en ambas dimensiones y luego calculamos las distancias de cada conglomerado a cada uno de los otros conglomerados.

La distancia entre Alan y Lisa viene dada por:

Ahora podemos hacer lo mismo para todas las demás combinaciones hasta que hayamos calculado la matriz de distancias total. Ahora podemos fusionar los primeros conglomerados. Para ello miramos entre qué dos clusters tenemos la menor distancia. Este es el caso entre Joe y Lisa.

Con esto, ahora combinamos Joe y Lisa en un cluster. En nuestro diagrama de árbol o dendrograma podemos dibujar la primera conexión.

Ahora tenemos que actualizar nuestra matriz de distancias. Hemos decidido utilizar el método de enlace único. Así que la distancia entre dos clusters viene dada por los elementos que están más próximos entre sí. Para los clusters Alan, Max y Caro, del cluster Lisa y Joe respectivamente, Joe es siempre la persona más cercana.

Así que calculamos la distancia de Alan a Joe, la distancia de Max a Joe y la distancia de Caro a Joe.

Ahora volvemos a fusionar los clusters que están más cerca. Estos son Max y Alan.

En nuestro diagrama de árbol o dendrograma, podemos dibujar la segunda conexión.

Ahora volvemos a actualizar la matriz de distancias. Calculamos la distancia entre Alan y Joe, Caro y Joe y entre Caro y Alan. Obtenemos la distancia más pequeña entre el cluster de Caro y el cluster de Lisa y Joe.

Así que conectamos estos dos clusters y dibujamos la tercera conexión en el diagrama de árbol.

Ahora sólo quedan dos conglomerados, y los fusionamos en el último paso. Y obtenemos nuestro dendrograma terminado.

Calcular el análisis cluster jerárquico con DATAtab

Datos de muestra

Para calcular un análisis clúster jerárquico en línea, sólo tiene que visitar la calculadora estadística y copiar sus propios datos en la tabla o utilizar el enlace para cargar el conjunto de datos. Ahora hacemos clic en cluster y seleccionamos cluster jerárquico.

Si ahora hacemos clic en Social Media y Gym se nos calculará un análisis cluster jerárquico. Además podemos especificar la etiqueta, en nuestro caso los nombres de las personas.

Calculate hierarchical cluster analysis with DATAtab

Ahora podemos especificar qué método de conexión debe utilizarse y cómo debe calcularse la distancia. Simplemente volvemos a tomar Single linakge y la distancia euclidiana.

Calculate hierarchical cluster analysis online

Ahora tenemos la salida de resultados aquí abajo. Vemos el diagrama de árbol, un diagrama de dispersión y el diagrama de codo. En el diagrama de codos podemos leer cuántos conglomerados tenemos. Podemos ver un pliegue aquí, así que tomaremos 4 como número de conglomerados. Todavía podemos seleccionar estos aquí arriba y luego en el diagrama de árbol tenemos los 4 clusters resaltados por diferentes colores. Vemos el primer cluster, el segundo cluster, el tercer cluster y el cuarto cluster.