Una primera aproximación al ANOVA

El Análisis de la varianza (ANOVA) es una familia de técnicas estadísticas de comparación. El objetivo de esas técnicas es decidir si hay igualdad o diferencia entre poblaciones a partir del análisis de muestras de esas poblaciones.

Nos podemos encontrar con cosas como las siguientes. Veremos a continuación tres situaciones distintas donde se están comparando, en cada una de ellas, tres muestras de tres poblaciones. Si observamos un poco atentamente nos encontraremos con situaciones bien distintas que llevan a intuiciones muy distintas acerca de cómo deben ser las poblaciones que hay detrás de esas muestras:

En el primer caso parece claro que la muestra tres presenta valores superiores y la muestra segunda valores inferiores.

En el segundo caso parece que estas tres muestras se solapan mucho. Lo que hace pensar que, con la información que tenemos, no podemos decir con fiabilidad que las poblaciones que hay detrás son distintas.

En el tercer caso parece que la muestra tres tiene valores superiores y, sin embargo, la uno y la dos son muy similares.

De esto va el ANOVA, de tomar decisiones sobre situaciones de este tipo.

El problema es que a la hora de tomar esa decisión debemos analizar siempre, como veremos, tres dimensiones fundamentales. Tres dimensiones que se solapan, que se entremezclan. Son las siguientes: las distancias entre las medias de esas muestras, las dispersiones internas de cada muestra y el tamaño de muestra.

Veamos esas tres dimensiones individualmente.

Primero: La posición relativa de esas medias. Miremos estas tres distintas situaciones, donde representamos los valores de las muestras con una cruz en la posición que ocupan en la recta numérica:

Cuanto más alejados estén los valores medios (señalados con una línea perpendicular a la recta de números) de las muestras  a comparar más posibilidades tenemos de que podamos decir que hay diferencias entre las poblaciones.

En el primer caso vemos que la muestra roja y azul están muy solapadas y la verde se aleja considerablemente. En el segundo caso hay un grado de solapamiento muy grande, las medias están muy cerca. En el tercer caso hay una clara distancia entre medias.

Pero observemos que en estos tres casos, a la hora de evaluar las distancias entre las medias vemos inevitablemente cuál es el grado de solapamiento de las muestras de las poblaciones que comparamos. Esto nos lleva a la segunda dimensión:

Vemos en estos dos casos que las distancias entre las medias de estas tres muestras son las mismas en el primer estudio y en el segundo pero, sin embargo, lo que podamos decir de las poblaciones que hay detrás, es completamente distinto. En el primero no podemos decir que hay diferencias, en el segundo parece fiable que podemos decir que hay diferencias.

La dispersión de los valores es, pues, esencial a la hora de evaluar las diferencias.

Y, como tercera dimensión, en ANOVA, tenemos el tamaño de muestra:

De nuevo en estos dos casos las distancias entre medias son las mismas, el grado de solapamiento equivalente. Lo que es distinto es claramente el tamaño de muestra. Cuanto más tamaño de muestra tengamos más fiables son las distancias muestrales que estemos viendo.

En un caso concreto, cualquiera de las técnicas ANOVA debe evaluar esas tres dimensiones (distancia entre medias, dispersión interna de las muestras y tamaño de muestra) para poder tomar una decisión sobre si las poblaciones son iguales o son distintas.

Veamos un caso concreto:

Aquí tenemos cinco muestras, con un tamaño muestral determinado, unas dispersiones determinadas, unas distancias entre medias. Aquí parece que habrá diferencias y que habra como tres grupos de poblaciones: la roja y la azul por un lado, la verde y marrón por otro y la de color granate, a la derecha, como tercer grupo.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s