Métodos de aglomeración

Métodos de aglomeración
Información sobre la plantilla
Concepto:Conjunto de métodos o técnicas estadísticas

Métodos de aglomeración. En estadísticas, en una clasificación aglomerativa se parte inicialmente de los objetos, que se van progresivamente fusionando para formar particiones sucesivas que contienen todos los objetos originales. En una clasificación divisiva se parte del conjunto total Ω que se subdivide progresivamente en conglomerados pequeños.

Generalidades

En una clasificación no jerárquica se forman grupos homogéneos sin establecer relaciones entre los grupos; en una clasificación jerárquica los grupos se van fusionando progresivamente, mientras decrece la homogeneidad entre los grupos, cada vez más amplios que se van formando. Medir está homogeneidad mediante un índice (distancia fenética) es una característica de la taxonomía numérica. Una clasificación jerárquica es en general aglomerativa.
El análisis de conglomerados se aplica sobre una matriz de distancias y no sobre una de asociación. Para descriptores cualitativos, esta última debe ser transformada en una de distancia. Estas distancias, a su vez, se pueden graficar de diferentes formas, siendo los dendrogramas y la dispersión de puntos en un plano cartesiano las de más fácil interpretación.
Ante esta diversidad de métodos o algoritmos de agrupamiento, pueden seguirse diferentes estrategias. La más simple es exhaustiva que consiste en probar varios a ciegas y comparar resultados, pero el costo computacional puede ser alto y el por qué del resultado óptimo no tiene siempre una interpretación clara.

Métodos de aglomeración jerárquicos aglomerativos

El análisis de conglomerados jerárquicos comienza con el cálculo de la matriz de distancias entre los elementos de la muestra, la cual contiene las distancias existentes entre cada elemento de la muestra y todos los restantes. A continuación se buscan los dos elementos más próximos (similares en términos de distancias) y se agrupan en un conglomerado. El conglomerado resultante es indivisible a partir de ese momento. De esta manera se van agrupando los elementos en conglomerados cada vez más grandes y más heterogéneos hasta llegar al último paso, en el que todos los elementos de la muestra quedan agrupados en un único grupo. Los métodos jerárquicos crean una descomposición de los objetos en grupos jerárquicos, al estilo de “taxonomías” (superfamilias, familias, especies…).
La versatilidad del análisis de conglomerados jerárquicos radica en la posibilidad de utilizar distintos tipos de medidas para estimar la distancia existente entre los casos y la posibilidad de seleccionar uno entre una gran variedad de métodos. Pero no existe ninguna combinación de estas posibilidades que optimice la solución obtenida. En general, será conveniente valorar distintas soluciones para elegir la más consistente.
Para la representación de los individuos, una vez calculadas las distancias, se debe elegir un método de agrupamiento. Estos métodos se refieren a los procesos iterativos que aglomeran a los individuos y que definen a los vecinos en las ramas representadas. Criterios como el de la distancia más próxima, la distancia media (UPGMA) o la media ponderada (WPGMA) son algunos ejemplos.

Método de agrupación de enlace simple

El método de agrupación de enlace simple (Single linkage clustering) o del vecino más próximo (nearest neighbor clustering) (Gower, 1967), comienza al seleccionar y unir los dos elementos de la matriz de distancias que se encuentran más próximos. La distancia de este nuevo conglomerado respecto a los restantes elementos de la matriz se calcula como la menor de las distancias entre cada elemento del conglomerado y el resto de los elementos de la matriz. En los pasos sucesivos, la distancia entre dos conglomerados se calcula como la distancia entre sus dos elementos más próximos.

Método de agrupación de enlace completo

En inglés Complete linkage clustering o método del vecino más lejano (furthest neighbor clustering) (Sorensen, 1948), se comporta de manera opuesta al anterior. La distancia entre dos conglomerados se calcula como la distancia entre sus dos elementos más alejados.

Método de agrupación de vinculación promedio

En inglés Average linkage clustering o vinculación inter-grupo (unweighted Pair-group arithmetic averages (UPGMA)) (Sneath and Sokal, 1973), presenta la ventaja, sobre los dos anteriores, de aprovechar la información de todos los miembros de los dos conglomerados que se comparan. La distancia entre dos conglomerados se calcula como la distancia promedio existente entre todos los pares de elementos de ambos conglomerados.

Método de Ward

El método de agrupación de Ward (Ward, 1963) o de varianza mínima (Minimum variante clustering), para el cual su autor argumentó que los conglomerados debían constituirse de tal manera que, al fundirse dos elementos, la pérdida de información resultante de la fusión fuera mínima, cuantifica la cantidad de información como la suma de las distancias al cuadrado de cada elemento respecto al centroide del conglomerado que pertenece (SCE = Suma de Cuadrados Error). Para ello, se comienza calculando, en cada conglomerado, el vector de medias de todas las variables, es decir, el centroide multivariante. A continuación, se calculan las distancias euclidianas al cuadrado entre cada elemento y los centroides (vector de medias) de todos los conglomerados. Por último, se suman las distancias correspondientes a todos los elementos.
En cada paso se unen aquellos conglomerados que dan lugar a un menor incremento de la SCE, es decir, de la suma de cuadrados de las distancias intra conglomerado.
El método de enlace medio dentro de los grupos, o de vinculación Intra-grupos, como en el caso anterior, aprovecha la información de todos los miembros de los conglomerados que se comparan uniéndolos previamente. La distancia entre dos conglomerados se calcula como la distancia promedio existente entre todos los miembros del conglomerado unión de ambos.

Representación gráfica

Los métodos de conglomerados jerárquicos proporcionan un dendrograma que es la representación gráfica que permite visualizar las relaciones entre las distintas OTU. Obviamente, como en todo análisis multifactorial, algo de información se pierde durante el agrupamiento, pero es de suma utilidad para resumir una gran cantidad de información. Debe tenerse en cuenta que la matriz de similitud involucra a veces cientos de características que resultarían imposible de analizar en conjunto.
Al igual que el procedimiento anterior, la matriz de distancias en cada etapa para los cálculos es la matriz del paso previo.

Desventajas

Estos métodos una vez realizada una mezcla de grupos, o una vez eliminado un objeto de un grupo, el proceso no puede deshacerse. Esta rigidez es ventajosa en relación al tiempo computacional, pero a un costo de no analizar todas las combinaciones posibles de decisiones o elecciones a efectuar.

Métodos de aglomeración jerárquicos divisivos

Los algoritmos empiezan con todas las observaciones unidas en un solo conglomerado. En pasos sucesivos el conglomerado se va dividiendo, y el resultado de la división conforma dos nuevos conglomerados, que se vuelven a dividir.

Métodos de aglomeración particionales

Los algoritmos empiezan repartiendo las n observaciones en K grupos. Esta primera asignación se puede hacer aleatoriamente. En cada uno de los grupos se obtiene el vector de medias (centro del grupo) y se asigna secuencialmente cada observación al grupo cuyo centro esté más cercano. En cada etapa se re-calcula el centro del grupo al que se añade una observación y el centro del grupo del que se elimina esa observación.
El paquete stats forma parte de la librería básica de R que se instala por defecto, este contiene la función hclust() que permite obtener varios análisis conglomerados jerárquicos.
Como paquete adicional para el análisis de conglomerados se encuentra el paquete cluster que amplía la gama de análisis de conglomerados, pues incluye además métodos jerárquicos divisivos y particionales.

Fuentes

  • Ferreira, L. and Hitchcock, D. B. (2009) A comparison of hierarchical methods for clustering functional data. . Comm Stat Simulation Computation, 38, 1925–1949.
  • Franco, T. L. and Hidalgo, R. E. (2003) Análisis Estadístico de Datos de Caracterización Morfológica de Recursos Fitogenéticos. Boletín técnico No. 8, 89.
  • Gower, J. C. (1967) A comparison of some methods of cluster analysis. Biometrics, 23, 623-628.
  • Sorensen, T. A. (1948) A method of establishing groups of equal amplitude in plant sociology based on similarity of species content and its application to alalysies of vegetation on Danish commons. Biologiske Skrifter, 5, 1-34.
  • Sneath, P. H. A. and Sokal, R. R. (1973) Numerical taxonomy. The principles and practice of numerical classification. San Francisco, California, W. H. Freeman and Co.
  • Ward, J. H. (1963) Hierarchical grouping to optimize an objective function. . J. Amer. Statist. Assoc., 58, 236-244.