Combinación de agrupamientos y consenso

Combinación de Agrupamientos y Consenso
Información sobre la plantilla

Combinación de Agrupamientos y Consenso: Dada N diferentes particiones de los datos X ={x1, x2,…..,xn} de n objetos se define una combinación de agrupamiento P=(P1,P2,…,PN) donde Pi =(Ci1, Ci2, ... Ciki ) tiene ki conglomerados, el problema consiste obtener una partición P*, la cual es el resultado de combinar toda la información existente de las N particiones en P.

Introducción

En otras palabras combinación de agrupamiento (cluster ensemble) son colecciones de soluciones individuales a un problema determinado de agrupamiento. Es decir, combina la información de los elementos de un conjunto de diferentes clasificadores (cluster ensemble) en una estructuración final (consenso). .
No existe todavía un algoritmo de clasificación por excelencia, pues para un problema determinado es difícil seleccionar cual será el método de aglomeración que logre encontrar una mejor estructura para separar las accesiones.
En la búsqueda de mejores algoritmos de clasificación aparece una tendencia a combinar varios algoritmos de agrupamiento en el mismo problema. La base de estos algoritmos está en la lógica de utilizar el criterio de varios expertos y combinarlos en aras de lograr un mejor rendimiento (Vega-Pons and Ruiz-Shulcloper ,2010).
Una buena estrategia de combinación, debe permitir encontrar nuevas estructuraciones más consistentes que las existentes, entendiendo por consistente a una estructuración que comparte gran cantidad de información o es muy similar al conjunto de particiones. Esta estructuración de consenso debe ser además, lo más invariante posible a pequeñas variaciones en los datos, es decir, debe ser suficientemente robusta ante información ruidosa. Éstas, entre otras propiedades, son planteadas por los autores de algoritmos de combinación de resultados de clasificadores no supervisados, sin embargo no existe un criterio común ni una formalización rigurosa de las características que debe tener la estructuración de consenso, más bien, cada autor propone las propiedades que cree que debe cumplir un buen mecanismo de combinación.
El gran reto en la combinación de resultados de clasificadores no supervisados es la definición de una función de consenso apropiada, capaz de mejorar los resultados de los agrupamientos individuales.

Funciones implementadas en R

R (R Development Core Team, 2014) proporciona un entorno computacional para crear y analizar conjuntos de agrupamientos, con estructuras de datos básicos para la representación de las particiones y las jerarquías, incluidos los métodos para medir la proximidad y la obtención de consenso y agrupamientos "secundarios".
El paquete clue (Hornik, 2015) permite crear y analizar combinación de agrupamientos, para ambas representaciones de los datos: jerárquica y no jerárquica y obtener una estructura consenso. Para aglutinar los resultados de los diferentes algoritmos de aglomeración se usa la función cl_ensemble de este paquete, en aras de lograr una mejor calidad de los resultados alcanzados por los algoritmos individuales y compensar posibles errores cometidos en el desempeño de cada uno. El árbol consenso, resultado de combinar toda la información de los diferentes árboles en un árbol final, se obtiene con la función cl_consensus.

Representación gráfica

Un dendrograma es un diagrama que muestra las distancias de atributos entre cada par de clases fusionadas de manera secuencial. Para evitar cruzar líneas, el diagrama se expone gráficamente de tal modo que los miembros de cada par de clases que se fusionan son elementos próximos. El dendrograma consenso a partir de combinar los árboles de las diferentes fuentes se puede representar con la siguiente función de R:
as.dendrogram(object, ...)# función descrita en el paquete { stats } de R.
Ejemplo: hc <- hclust(dist(USArrests), "ave")
(dend1 <- as.dendrogram(hc)) # "print()" method
plot(dend1)

Fuentes

  • Vega-pons S and Ruiz-Shulcloper J.2010.Combinación de agrupamiento: un estado del arte. Reporte Técnico. Reconocimiento de Patrones. RNPS No. 2142. ISSN 2071-6287 Versión Digital. Centro de Aplicaciones de Tecnología de Avanzada. Ciudad de La Habana, Cuba
  • Hornik, K. (2005). A clue for cluster ensembles. J. Stat. Softw. 14(12): 1–25. http://www.jstatsoft.org/v14/i12/.
  • R Development Core Team. 2014. R: A language and environment for statistical computing. R Foundation for Statistical Computing. R Foundation for Statistical Computing. http://www.r-project.org/. 17/12/2014