1. El Análisis de correspondencias es una técnica de reducción de dimensiones, una técnica para visualizar una nube de puntos multidimensional en dos dimensiones. Consiste, como las demás técnicas de reducción de dimensiones, en un procedimiento de traslado de una nube de puntos definida en un espacio de muchas dimensiones a un espacio de dos dimensiones donde poder visualizar la posición relativa de unos puntos. Este traslado se hará respetando al máximo las posiciones relativas de los puntos en la nube de puntos original.
2. Se trata, pues, en definitiva, como sucede con las demás técnicas de reducción de dimensiones (Análisis de componentes principales, Análisis factorial o Análisis discriminante) de una técnica que trata de hacer una fotografía, en dos dimensiones, de una realidad multidimensional.
3. El Análisis de correspondencias es, en realidad, un análisis equivalente al Análisis de componentes principales y al Análisis factorial pero con variables cualitativas.
4. Cuando estudiamos dos o más variables cualitativas cada una de ellas tiene una serie de valores posibles, de valores que en realidad son categorías, son valores nominales (es por esto que a las variables cualitativas se les denomina también categóricas o nominales). Por ejemplo, la variable sexo: Hombre y Mujer, la variable fumar: Fuma y No fuma, etc.
5. El objetivo del Análisis de correspondencias crear un mapa de la posición relativa de las variables cualitativas estudiadas con cada uno de sus valores posibles. Una posición que refelje el grado de asociación entre ellas. Es una técnica que, aunque está basada en unos métodos algebraicos complejos, es muy intuitiva, como se verá a continuación. Básicamente el objetivo es representar cada uno de los valores posibles de cada una de las variables estudiadas en un plano donde la posición relativa de los puntos refleje el grado de asociación entre cada uno de los conceptos representados.
6. Se distingue habitualmente el Análisis de correspondencias simples del Análisis de correspondencias múltiples, según sean dos variables cualitativas estudiadas (Análisis de correspondencias simple) o más de dos (Análisis de correspondencias múltiple).
7. El procedimiento del análisis es muy similar al del Análisis de componentes principales. Se trata de buscar qué combinaciones de los valores nominales de las variables cualitativas originales permiten una representación más fiel, en dos dimensiones, de la nube de puntos original que es en más dimensiones.
8. Aparecerán, como en el Análisis de componentes principales, unos valores propios (cantidad de varianza explicada) y unos coeficientes asociados a cada valor de cada variable cuatitativa que representan el peso que cada uno de ellos tiene en esa nueva dimensión que me permitirá una representación en menos dimensiones.
9. Habrá, por lo tanto, una proporción de varianza explicada por las dos dimensiones de la nueva representación que nos dará la fiabilidad, que nos dará el grado de aproximación que hay entre lo que vemos, que es una aproximación, y la verdadera realidad que pretendemos representar. Observemos que la forma de hablar en este tema es paralelo a la forma empleada en el tema dedicado al Análisis de componentes principales.
10. Veamos un ejemplo que puede ilustrar lo que estamos diciendo: Tomamos 100 seguidores del Barça, del R. Madrid, del At. Madrid, del At. Bilbao y del Valencia. Y les pedimos que elijan de entre esos cinco equipos dos preferentes. Uno, evidentemente será el propio equipo del que es seguidor pero el segundo debe ser el que más les simpático les caiga o el que por el que menos antipatía sientan. Esto nos permitirá analizar la posición relativa de los seguidores de esos equipos respecto a esos equipos.
11. Observemos que tenemos dos variables cualitativas. El equipo del que es seguidor y la elección de los dos equipos preferidos. Al final el cuadro de resultados es el siguiente:
12. Observemos que es un ejemplo muy claro. Vemos unas proximidades y unas lejanías que todos los aficionados al fútbol conocemos. Veamos que de los 100 seguidores del Barça los 100 eligen al Barça pero como deben también elegir a otro equipo 30 eligen al At. Madrid, 60 al At. Bilbao y 10 al Valencia. De los 100 seguidores del R. Madrid los 100 eligen al propio R. Madrid pero la segunda opción se reparte distinto: 20 para el At. Bilbao y 80 para el Valencia. Y así sucesivamente.
13. El primer cuadro de resultados fundamental de este análisis es el siguiente:
14. Observemos que aquí lo que nos marca es la calidad de la representación que veremos luego. Fijémonos especialmente en la llamada Proporción de la Incercia explicada. Vemos que la primera dimensión, el primer eje (podríamos decir la primera componente principal, en términos del Análisis de componentes principales) explica el 0.663 por uno o el 66.3% de la inercia. La inercia es un sinónimo de varianza. Este análisis está muy ligado a la tradición estadística francesa donde a la varianza se le denomina inercia. La segunda dimensión explica el 22%. En total con las dos dimensiones que veremos explicamos el 88.3%. Está muy bien.
15. El siguiente paso son cuales son las coordenadas. El análisis siempre da unas coordenadas de los puntos fila y unas coordenadas de los puntos columna:
16. Esto es porque, en realidad, los que hace la técnica es hacer dos análisis de reducción de dimensiones: uno según filas y otro según columnas y luego los solapa. Solapa los puntos, solapa las dos representaciones. En realidad, se hacen dos Análisis de componentes principales a la matriz de datos mostrada anteriormente: una en la que las filas son variables y las columnas individuos y otra en la que las filas son los individuos y las columnas variables. Esta es, en sí, la esencia de la técnica.
17. Finalmente el gráfico es el siguiente:
18. Como puede observarse el punto que hace referencia a los seguidores está muy cerca, en todos los casos, del punto de las preferencias. Pero observemos más cosas: Los seguidores del Barça eligen con frecuencia al At. Bilbao, y lo mismo al revés. Son equipos próximos. Tanto Barça respecto al R. Madrid como el At. Madrid respecto al R. Madrid están muy alejados. El Valencia está más próximo al R. Madrid, pero en realidad está bastante en el centro del gráfico, lo que significa que las distancias con todos los equipos está bastante repartida. Si se observa con detenimiento este gráfico y los datos de la matriz de resultados, de la tabla de correspondencias, vemos que ese gráfico es una representación gráfica fiel de lo que se desprende de aquellos datos.
19. Cuando tenemos más de dos variables cualitativas lo que hace la técnica es construir una matriz de doble entrada donde va añadiendo en las filas todas las categorías de cada una de las variables cualitativas del estudio y en las columnas hace lo mismo. Es la llamada Matriz de Hurt. En el interior de la matriz, como en el caso de dos variables cualitativas, tenemos las frecuencias de cada uno de los cruces. A partir de ella es donde se realiza el análisis de reducción de dimensiones y la representación en un plano de todas las categorías respetando la posición relativa de unos conceptos respecto a los otros.
20. Veamos un ejemplo de Análisis de correspondencias múltiples. Supongamos que estamos analizando las variables sexo (hombre, mujer), edad (joven, adulto) y fumar (sí, no).
21. En el siguiente gráfico muestro unos datos que tal vez podrían encajar con lo que sucedía hace 40 años y el plano resultado del análisis:
22. Y veamos ahora otro gráfico con otros datos y con otro análisis que tal vez encaja más con datos de hace unos pocos años:
23. Es muy importante comparar ambas matrices de datos y, en cada caso, en cada estudio, comparar los datos con el diseño del plano con los valores de las tres variables cualitativas que nos proporciona el análisis.
24. En el primer caso el fumar o no fumar está más próximo a Hombre o Mujer, respectivamente y, también en este caso, el perfil de jóvenes y adultos es muy distinto y más o menos equidistante de fumar o no.
25. En cambio, en el segundo caso, el fumar o no fumar está más ligado a Joven o Adulto y el perfil de Hombre y mujer están alejados y equidistantes más o menos de fumar o no fumar aunque un poco más cerca Hombre de fumar y Mujer de no fumar.
26. Sin lugar a dudas que si se practica un poco interpretando las dos matrices de datos y los dos gráficos de salida del Análisis de correspondencias múltiple se captará la esencia de esta técnica: la búsqueda de una representación bidimensional que refleje la posición relativa de las asociaciones entre las diferentes opciones nominales de las variables cualitativas incluidas en el análisis.
27. Hemos comentado antes que el Análisis de correspondencias múltiples trabaja con la llamada Matriz de Hurt. Esta matriz se obtiene a partir de las frecuencias para cada caso y consiste en un recuento de las frecuencias de los cruces de todos los valores nominales posibles de las diferentes variables cualitativas analizadas.
28. A partir de los datos del segundo de los casos analizados anteriormente podemos ver, a continuación, cuál sería la Matriz de Hurt:
29. El Análsis de correspondendias, por lo tanto, lo que hace es aproximar lo próximo, los perfiles próximos, busca las asociaciones, trata de dibujarnos las relaciones entre los valores de las variables cualitativas.
30. Un último ejemplo, basado en unos datos y un análisis hecho por Bernat Llopis: son datos de un estudio de algunas características evaluadas en diferentes dragones de la literatura universal. La tabla de datos recoge cuatro variables: La naturaleza (Malvada, Salvaje o Bondadosa), el mundo al que pertenece (Fantástico o Real), si habla o no y si exhala fuego o no.
31. Una vez hecho el análisis de correspondencias tenemos las siguientes asociaciones de las variables categóricas estudiadas:
32. Hay una tendencia a asociarse, en un dragón, el hablar, la naturaleza bondadosa, el exhalar fuego y el pertenecer a un mundo fantástico. Por el contrario, el no hablar, el pertenecer a un mundo real, el ser de naturaleza malvada y el no exhalar fuego también parecen asociados, aunque no tan intensamente como el otro grupo de características.
33. Los datos en los que se basa este estudio son los siguientes:
Nombre propio | Naturaleza | Mundo | Habla | ExhalarFuego |
Smaug | Malvada | Fantástico | Si | Si |
Drogon | Salvaje | Fantástico | No | Si |
Xèron | Bondadosa | Real | Si | No |
Saphira | Bondadosa | Fantástico | Si | Si |
Yandrak | Bondadosa | Fantástico | No | Si |
Sin nombre | Bondadosa | Real | No | No |
Sin nombre | Salvaje | Fantástico | No | Si |
Fújur | Bondadosa | Fantástico | Si | No |
Sin nombre | Salvaje | Real | No | Si |
Sin nombre | Malvada | Real | No | Si |
Kalecgos | Bondadosa | Fantástico | Si | No |
Ferno | Bondadosa | Fantástico | No | Si |
Sin nombre | Malvada | Real | No | no |
Fafnir | Malvada | Real | Si | No |
Lung | Bondadosa | Real | Si | Si |
Sin nombre | Malvada | Real | No | Si |
Kai | Bondadosa | Fantástico | Si | Si |
Glaedr | Bondadosa | Fantástico | Si | Si |
Shruikan | Malvada | Fantástico | Si | Si |
(Sin nombre. Se le denomina «Dragón Dorado» o «Emperador Dragón») |
Malvada | Fantástico | Si | Si |
Norberto | Salvaje | Real | No | Si |
Buenas tardes, he estado leyendo sobre correspondencia multiple con spss (escalamiento optimo), si lo aplico con items nominales de 4 opciones, deberia ajustar las dimensiones a 4 o dejar las dos que aparecen por defecto?. No se si al poner 4 dimensiones genera 4 graficos y es mas compleja la interpretacion
Muchas gracias
Buenos días.
Me parece superinteresante este blog.
Me ha surgido una duda interpretando el gráfico del ejemplo de los dragones.
Comenta que «el no hablar, el pertenecer a un mundo real, el ser de naturaleza malvada y el no exhalar fuego también parecen asociados»
Supongo que es una interpretación visual del gráfico.
Visualmente yo veo que el trío salvaje, no hablar y echar fuego también están próximos.
La distancia entre malvada y real es más pequeña que la de cualquier par de que se formara con salvaje, no hablar y echar fuego.
¿Se puede decir que un trío está más relacionado que otro trío?
Gracias por el blog
Exacto, la proximidad gráfica indica proximidad en los valores de la variable. Tres conceptos próximos indica que están muy asociados.
excelente explicación! hay alguna bibliografía?
Muchas gracias. El libro de Cuadras: Análisis multivariante, es una buena referencia
Hola tengo una inquietud, desarrollo un análisis de correspondencia múltiple para únicamente variables cualitativas. Estadísticamente es valido?
Correcto