Análisis multivariados

Análisis multivariado
Información sobre la plantilla
Analisismultiple.jpg
Concepto:Es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para cada individuo u objeto estudiado. Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo información que los métodos estadísticos univariantes y bivariantes son incapaces de conseguir

Análisis multivariados. Es un conjunto de métodos estadísticos y matemáticos, destinados a describir e interpretar los datos que provienen de múltiples variables, que pueden ser cuantitativas, cualitativas o mezcladas.

Historia

El origen del análisis multivariado se remonta a los comienzos del siglo XX, con Pearson y Sperman, época en la cual se empezaron a introducir los conceptos de la estadística moderna. Las bases definitivas de este tipo de análisis se establecieron en la década 1930-40 con Hotelling, Wilks, Fisher, Mahalanobis, y Bartlett (Bramardi, 2002). En términos generales, el análisis multivariado se refiere a todos aquellos métodos estadísticos que analizan simultáneamente medidas múltiples (más de dos variables) de cada individuo. Por su parte Hair (Hair et al., 1992) puntualiza que para el caso del análisis de datos resultantes de caracterización de recursos genéticos vegetales (colecciones de germoplasma), el problema es representar geométricamente, cuantificar la asociación entre individuos y clasificarlos respecto a un conjunto de variables, las cuales pueden ser cuantitativas, cualitativas o la combinación de ambas. Teniendo en cuenta los objetivos que se desean alcanzar, este investigador clasifica los métodos multivariados en dos grandes grupos. El primero se denomina de ordenación ó reducción de datos y permite arreglar y representar gráficamente el material bajo estudio en un número reducido de dimensiones. El segundo se denomina de clasificación y permite la búsqueda de grupos similares lo más homogéneos posible para clasificar los elementos. Cada base de datos está compuesta por un conjunto de objetos o casos representativos de un problema en cuestión (en este caso son las accesiones) y a su vez, cada objeto, se describe mediante un conjunto de atributos o rasgos, también conocidos como variables de entrada o características (en este caso son los descriptores), los cuales pueden ser cualitativos (categóricos) o cuantitativos (numéricos). En ocasiones algunas variables pueden crear ruido en los datos, pues aquellas que son redundantes ó irrelevantes degradan la clasificación. La eliminación de estos rasgos resulta en una igual o mejor clasificación que con el conjunto completo, no obstante, pueden obtenerse resultados no consistentes, por lo cual los investigadores no deben hacer uso indiscriminado de los métodos de selección de variables. La reducción de la dimensionalidad con la de extracción de atributos se trata de encontrar un número más reducido de nuevos atributos a partir de transformaciones de los iniciales. Entre las técnicas de extracción más conocidas tenemos el análisis por factores que se emplea frecuentemente para crear nuevas variables que resuman toda la información de la que podría disponerse en las variables originales, por tanto, es indudable su uso en la reducción de la dimensionalidad del conjunto de datos. El nuevo conjunto de variables no correlacionadas obtenidas, llamadas factores subyacentes se pueden usar en el análisis futuro de los datos (Johnson, 2000). Otra de las técnicas más usadas en la reducción de datos son las técnicas de escalamiento óptimo, dentro de las cuales el análisis de correspondencias múltiple, también conocido como análisis de homogeneidad, permite encontrar las cuantificaciones óptimas, es decir, que separen al máximo las categorías entre sí. Esto implica que los objetos de la misma categoría se representan cercanos entre sí, mientras que los objetos de categorías diferentes se representan lo más alejado posible. En ambos métodos se toma el mayor número de nuevas variables que expliquen la mayor variabilidad posible.
Como se ha dicho anteriormente, estas técnicas tienen como desventaja que no conservan la naturaleza de los datos, pues hacen una transformación de los mismos, convirtiendo las variables originales en otras. Esta reducción de dimensionalidad puede mejorar el costo de los métodos de agrupamiento que se empleen o elevar el rendimiento de los mismos. Otra ventaja es que algunas de estas técnicas, como ya se explicó, posibilitan reducir la dimensionalidad a un plano bidimensional, de forma que los datos puedan ser analizados visualmente. La elección entre técnicas de selección y extracción de variables depende de las intenciones que se tengan con esta reducción de dimensionalidad.

Análisis por Factores

El Análisis por Factores es una técnica de reducción de la dimensionalidad de datos cuantitativos, el procedimiento consiste en crear nuevas variables ficticias (factores) que son combinaciones lineales de las variables originales. Uno de los objetivos básicos de este análisis es determinar si las variables originales exhiben patrones de relación entre sí, de forma tal que se puedan dividir en subconjuntos, en el que cada uno conste de un grupo de variables que tiendan a estar más fuertemente relacionadas con las demás variables dentro del conjunto que con las de los otros subconjuntos. (Johnson, 2000)
El Análisis por Factores consta de cuatro fases características: el cálculo de una matriz capaz de expresar la variabilidad conjunta de todas las variables, le extracción del número óptimo de factores, la rotación de la solución para facilitar su interpretación y la estimación de las puntuaciones de los sujetos en las nuevas dimensiones.
Existen contrastes previos a la extracción de los factores, que tratan de analizar la pertinencia de la aplicación del análisis factorial a un conjunto de variables observables. La adecuación de los datos al Análisis por Factores se contrasta mediante la medida de adecuación muestral KMO (Keiser-Meyer-Olkin) y prueba de esfericidad de Bartlett.
La medida de adecuación muestral KMO contrasta si las correlaciones parciales entre las variables son suficientemente pequeñas. Permite comparar la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de correlación parcial. Los valores pequeños (menores que 0.5) indican que no debe utilizarse este análisis con los datos muéstrales que se están analizando.
La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlaciones es una matriz identidad, en cuyo caso no existirían correlaciones significativas entre las variables y el modelo factorial no sería pertinente.
El Análisis de Componentes Principales se puede encontrar implementado en la función prcomp() del paquete stats y en la función PCA() del paquete FactoMineR en lenguaje R.

Análisis de Correspondencias Múltiple (MCA)

El Análisis de Correspondencias Múltiple es una extensión del Análisis de Correspondencias Simple. La estructura de datos sobre los que se aplica el MCA puede ser una matriz formada por variables ficticias de ausencia – presencia de cada nivel de las variables nominales ó una matriz Burt, que no es más que el conjunto de todas las tablas de contingencia par a par del conjunto de variables que están siendo analizadas. (Greenacre, 2007). El MCA cuantifica los datos nominales (categóricos) mediante la asignación de valores numéricos a los individuos y a las categorías, de manera que los individuos de la misma categoría estén cerca los unos de los otros y los individuos de categorías diferentes estén alejados los unos de los otros. Cada individuo se encuentra lo más cerca posible de los puntos de las categorías que se aplican a cada uno de ellos. De esta manera, las categorías dividen los individuos en subgrupos homogéneos. Las variables se consideran homogéneas cuando clasifican individuos de las mismas categorías en los mismos subgrupos.
La función MCA() está implementada en el paquete MASS y FactoMineR en el lenguaje R.

Fuentes