Archivos Mensuales: septiembre 2020

Ejemplo de ANOVA de un factor a efectos aleatorios

Supongamos un experimento en el que tenemos un único factor y muchos niveles. Decidimos coger una muestra de niveles y en cada uno de esos niveles elegidos tomamos una muestra. Por ejemplo, queremos ver si la contaminación en diferentes cincuenta ríos de España es diferente significativamente. Otro ejemplo, queremos ver, en una empresa donde trabajan cien empleador elaborando un producto, si hay diferencia entre ellos.

Supongamos que cogemos una muestra de tres niveles y los valores obtenidos son los siguientes:

Si aplicamos un modelo de ANOVA de un factor a efectos aleatorios la tabla ANOVA y las componentes de la varianza son:

Hay diferencias estadísticamente significativas. El p-valor es 0.003. Aquí no tiene sentido aplicar unas comparaciones múltiples porque no son esos tres niveles los que nos interesan, sino toda la población de niveles (los cincuenta ríos en el primer estudio y los cien trabajadores en el segundo). Por eso evaluamos la componente de la varianza de nuestro factor, que es 3,7. Este valor sale del siguiente cálculo:

El estadístico Cuadrado Medio del factor tiene un promedio, como variable que es. Es la denominada Esperanza del cuadrado medio. Esto lo veremos con más detalle en modelos más complejos. A partir de este valor promedio construimos una estimación de la componente de la varianza de nuestro factor aletorio:

Observemos que el valor de 3.7 para la componente de la varianza se obtiene de restar 20.6 y 2.1 y dividir luego por 5, que es el tamaño de cada muestra.

Todo modelo tiene siempre una componente de la varianza, que es la residual. Que se puede obtener del valor de Cuadrado medio residual, como se puede ver en la Tabla ANOVA.

 

Una primera aproximación al ANOVA

El Análisis de la varianza (ANOVA) es una familia de técnicas estadísticas de comparación. El objetivo de esas técnicas es decidir si hay igualdad o diferencia entre poblaciones a partir del análisis de muestras de esas poblaciones.

Nos podemos encontrar con cosas como las siguientes. Veremos a continuación tres situaciones distintas donde se están comparando, en cada una de ellas, tres muestras de tres poblaciones. Si observamos un poco atentamente nos encontraremos con situaciones bien distintas que llevan a intuiciones muy distintas acerca de cómo deben ser las poblaciones que hay detrás de esas muestras:

En el primer caso parece claro que la muestra tres presenta valores superiores y la muestra segunda valores inferiores.

En el segundo caso parece que estas tres muestras se solapan mucho. Lo que hace pensar que, con la información que tenemos, no podemos decir con fiabilidad que las poblaciones que hay detrás son distintas.

En el tercer caso parece que la muestra tres tiene valores superiores y, sin embargo, la uno y la dos son muy similares.

De esto va el ANOVA, de tomar decisiones sobre situaciones de este tipo.

El problema es que a la hora de tomar esa decisión debemos analizar siempre, como veremos, tres dimensiones fundamentales. Tres dimensiones que se solapan, que se entremezclan. Son las siguientes: las distancias entre las medias de esas muestras, las dispersiones internas de cada muestra y el tamaño de muestra.

Veamos esas tres dimensiones individualmente.

Primero: La posición relativa de esas medias. Miremos estas tres distintas situaciones, donde representamos los valores de las muestras con una cruz en la posición que ocupan en la recta numérica:

Cuanto más alejados estén los valores medios (señalados con una línea perpendicular a la recta de números) de las muestras  a comparar más posibilidades tenemos de que podamos decir que hay diferencias entre las poblaciones.

En el primer caso vemos que la muestra roja y azul están muy solapadas y la verde se aleja considerablemente. En el segundo caso hay un grado de solapamiento muy grande, las medias están muy cerca. En el tercer caso hay una clara distancia entre medias.

Pero observemos que en estos tres casos, a la hora de evaluar las distancias entre las medias vemos inevitablemente cuál es el grado de solapamiento de las muestras de las poblaciones que comparamos. Esto nos lleva a la segunda dimensión:

Vemos en estos dos casos que las distancias entre las medias de estas tres muestras son las mismas en el primer estudio y en el segundo pero, sin embargo, lo que podamos decir de las poblaciones que hay detrás, es completamente distinto. En el primero no podemos decir que hay diferencias, en el segundo parece fiable que podemos decir que hay diferencias.

La dispersión de los valores es, pues, esencial a la hora de evaluar las diferencias.

Y, como tercera dimensión, en ANOVA, tenemos el tamaño de muestra:

De nuevo en estos dos casos las distancias entre medias son las mismas, el grado de solapamiento equivalente. Lo que es distinto es claramente el tamaño de muestra. Cuanto más tamaño de muestra tengamos más fiables son las distancias muestrales que estemos viendo.

En un caso concreto, cualquiera de las técnicas ANOVA debe evaluar esas tres dimensiones (distancia entre medias, dispersión interna de las muestras y tamaño de muestra) para poder tomar una decisión sobre si las poblaciones son iguales o son distintas.

Veamos un caso concreto:

Aquí tenemos cinco muestras, con un tamaño muestral determinado, unas dispersiones determinadas, unas distancias entre medias. Aquí parece que habrá diferencias y que habra como tres grupos de poblaciones: la roja y la azul por un lado, la verde y marrón por otro y la de color granate, a la derecha, como tercer grupo.

La parametrización de un modelo ANOVA

El el Herbario de técnicas de este blog tenemos diferentes modelos ANOVA. Todos ellos muestran su parametrización. Vamos a ver aquí el concepto de parametrización. Veamos el ejemplo más sencillo: ANOVA de un factor a efectos fijos:

Un valor cualquiera de un experimento lo podemos descomponer en tres. En los modelos ANOVA más complejos esta descomposición se hará en muchos más elementos.

Veamos por qué se hace esto y qué representa. Se hace para ver diferentes fuentes de variación y así poder realizar los contrastes de hipótesis oportunos. Qué representa. Veamos el siguiente caso: Un experimento con un factor a tres niveles con tres valores muestrales en cada nivel:

La media global es 3 y la media de cada uno de los tres niveles es: 2, 3, y 4, respectivamente.

Vamos a ver cómo hacemos la descomposición:

Primer paso:

Hemos expresado cada uno de los nueve valores muestrales como iguales a la media global, que es la letra griega mu de la parametrización. Pero con esto no tenemos una verdadera igualdad.

Segundo paso:

Hemos añadido para cada valor un valor característica del grupo, de aquella muestra a la que pertenece. Que es la alfa de la parametrización. Pero las alfas son diferentes según el grupo. La alfa es de hecho la diferencia de la media del grupo respecto a la media global. Es, pues, un valor de alejamiento promedio de los diferentes miembros de aquel grupo, de aquella muestra, respecto del valor promedio global. En este casos son: -1, 0 y 1. Pero veamos que todavía no tenemos igualdades ciertas.

Tercer paso:

Ahora hemos añadido el elemento que falta para satisfacer la igualdad. Con ello aportamos un valor individual. Es la épsilon del modelo.

En nuestro caso estas épsilons, estos valores individuales son siempre valores repetidos, pero porque se trata de un ejemplo artificial hecho con mucha simetría de valores para que se pueda entender bien pero en general estos valores individuales serán números distintos para cada caso.

Este es el sentido de la parametrización. Descomponer cada valor muestral de nuestro estudios en distintos valores. De esta forma conseguimos crear distintas fuentes de variación que serán claves a la hora de realizar los contrastes de hipótesis; o sea, a la hora de evaluar efectos, a la hora de tomar decisiones en ANOVA.

 

 

 

El contraste de hipótesis en un ANOVA de un factor

Hemos visto cómo funciona la parametrización de un ANOVA de un factor. Los dos casos posible: factor fijo y factor aleatorio, son los siguientes:

La hipótesis nula es, en ambos, igualdad y la alternativa no igualdad. Se interpreta distinto porque como ya hemos visto en otro lugar, en el factor fijo estamos comparando unos niveles que expresamente nos interesa comparar y en el factor aleatorio tenemos una muestra de niveles, y, por lo tanto, lo que nos interesa es hablar de la igualdad o no entre muchos niveles que no tenemos. Por eso aparece, en este caso, una estimación de la varianza que hay entre esos niveles, la denominada componente de la varianza.

Vamos a ver cómo funciona el contraste de hipótesis.

Vamos a situarnos en las dos situaciones posibles más extremas. Supongamos los dos experimientos siguientes:

Si calculamos el estadístico de test F en el experimento de la izquierda toda la variabilidad está en el numerador y en el denominador tenemos un valor claramente de 0. Por lo tanto, el valor de la F es infinito. En el experimiento de la derecha toda la variabilidad está en el denominador y el numerador es 0. Por lo tanto, tenemos las dos situaciones extremas posibles: En el experimiento 1 la hiótesis nula de igualdad de poblaciones es absurdo quererla mantener y en el experimento 2 lo que es absurdo es rechazar la hipósis nula; o sea, decir que hay diferencias cuando las tres muestras de esas tres poblaciones son idénticas.

Las posibilidades son pues las extremas:

Pero lo cierto es que los estudios de ANOVA de un factor prácticamente siempre tendremos valores que no serán ninguno de estos dos valores extremos. Por ejemplo, tendremos el valor siguiente:

¿Qué decisión tenemos que tomar con un valor de F de 7.33? Si el valor está próximo al 0 mantendremos la Hipótesis nula si es próximo al infinito rechazaremos la Hipótesis nula y abrazaremos la Hipótesis alternativa. Pero, ¿dónde situamos el umbral para la toma de esta crucial decisión?

Aquí está el problema. Lo que hizo Fisher es, partiendo de unas suposiciones (valores independientes, con distribución normal y con igualdad de varianzas de cada muestra), ver cuál sería la variabilidad, la distribución de los valores posibles de este cálculo F, si fuese cierta la Hipótesis nula. Y así fue como definió, estudió y tabuló la denominada distribución F de Fisher.

Fijaos que si dibujamos la forma de cómo deberían ser las cosas si fuese cierta la Hipótesis nula este valor de 7.33, o el que tuviésemos en un estudio concreto, adquiere sentido, te permite decantarte por una hipótesis u otra con más sentido.

Mirad el dibujo:

Este 7.33, que antes no sabíamos cómo interpretar ahora sí parece tener sentido. Arriba podemos decir que estamos viendo algo muy poco probable si fuese cierta la Hipótesis nula y, en cambio, debajo podemos decir que estamos viendo algo muy probable si fuese cierta esa Hipótesis nula de igualdad de poblaciones, o de ausencia de efectos.

Observemos que si fijamos una área de poca probabilidad bajo el supuesto de ser cierta la Hipótesis nula, tendríamos los dos siguientes dibujos:

Se crea así un umbral para la toma de decisión. Si se supera se rechaza la Hipótesis nula, si no se supera se mantiene esa Hipótesis. En el primer caso hemos superado el umbra, en el segundo no. Ahora, pues, el 7.33 nos permite tomar una decisión. Suele establecerse un umbral con probabilidad baja en la zona de influencia más alejada de la Hipótesis nula, que es el extremo derecho.

Actualmente lo que hacen los softwares estadísticos es calcular el llamado p-valor, que es el área que hay a la derecha, hacia la zona más alejada de la coherencia de la Hipótesis nula, desde el punto del valor de la F calculada a las muestras del estudio:

Si este p-valor es menor que 0.05 es que el valor de la F calculada está a la derecha del umbral de tolerancia para mantener la Hipótesis nula. Si este p-valor es mayor que 0.05 es que ese valor de la F calculado a la muestra está a la izquierda del umbral, está en zona donde es coherente lo que vemos con la hipótesis de igualda o de no efectos, de no diferencias entre los niveles comparados (si es un factor fijo) o de varianza cero de los niveles poblacionales compardos (si es un factor aleatorio).

La distribución F de Fisher tiene, como se ve formas distintas, siguiendo siempre ese patrón que se ve dibujado en estos gráficos. La concreta forma que tenga va a depender del número de niveles del factor y del tamaño de muestra que estemos estudiando en global:

Tiene dos parámetros y el primero es t-1, el número de niveles del estudio menos uno, y el segundo parámetro es el número de observaciones totales (nt) menos el numero de niveles; o sea, nt-t.

Y el umbral lo obtenemos de unas tablas como esta:

En las columnas encontramos el valor del primer parámetro y en las filas el del segundo parámetro.

Por ejemplo: supongamos que estamos comparando tres niveles de un factor y tenemos tres valores por cada nivel, como en los ejemplos ficticios de antes. Entonces t-1 sería 2 porque tenemos tres niveles y nt-t sería 8, porque, como la n es 3 y la t también 3, la F sería una F(2,6), que es como también se suele escribir. El valor umbral sería, mirando la tabla, el valor de 5.14. Este valor sería el valor que nos permitiría, dados unos datos concretos, tomar una decisión según el valor de la F fuera menor o mayor que este umbral.