Archivo de la categoría: HERBARIO

ANOVA de tres factores

Al tratar con tres factores las posibilidades de combinación se multiplican. Los factores pueden estar cruzados, anidados, pueden ser fijos aleatorios, en diferentes combinaciones, como ahora veremos.

Vamos a ver algunos posibles modelos de tres factores y su resolución en los cocientes de cuadrados medios para evaluar los posibles efectos del modelo en los correspondientes contrastes de hipótesis.

El primero es un modelo de tres factores cruzados fijos:

A partir de estas esperanzas de los cuadrados medios obtenidas mediante el Algoritmo de Bennet-Franklin podemos ver que en todos los contrastes de hipótesis de los siete efectos que se pueden evaluar el cociente de cuadrados medios será el del efecto a evaluar dividido por el residuo. Este es el caso más sencillo de todos los que veremos.

Veamos ahora una caso en el que los tres factores están cruzados pero uno es aleatorio y los otros dos fijos:

Ahora los cocientes a realizar, si observamos con atención las esperanzas de los cuadrados medios, son los siguientes:

Veamos ahora que son dos los factores aleatorios que están cruzados:

A la hora de hacer los contrastes de hipótesis no encontramos con un único problema. A la hora de contrastar el efecto del factor C, del fijo, vemos que en el denominador para poder dividir dos términos cuyas esperanzas, si es cierta la hipótesis nula, sean iguales, debemos hacer una combinación de cuadrados medios:

Veamos ahora el caso en que los tres factores cruzados son aleatorios:

 

En los contrastes en los efectos individuales de los tres factores debemos buscar combinaciones en el denominador:

Veamos ahora casos donde no están los tres cruzados. Veamos primero un caso donde un primer factor está cruzado con el segundo. Ambos fijos. Y un tercer factor aleatorio está anidado en el primero:

Veamos un caso como el anterior pero en el que los dos factores que están anidados,  jerarquizados, son, ambos, aleatorios:

Los cocientes son claros: Para el efecto A dividiremos MSA por MSC(A) porque si fuese cierta la hipótesis nula de que no hay Efecto de A entonces estaríamos dividiendo dos cuadrados medios con la misma esperanza. Y aquí está la clave: Se trata siempre de dividir dos cuadrados medios que si es cierta la hipótesis nula apunten en la misma dirección y, por lo tanto, el cociente será un valor pequeño, próximo a 1 y si, por el contrario, el cociente en grande será porque la hipótesis nula de que no hay efecto no es posible mantenerla. Esta es la clave, siempre, a la hora de resolver un modelo ANOVA.

Por lo mismo para el efecto B dividiremos MSB por MSAB, para el efecto C(A) dividiremos MSC(A) por MSE, para el efecto AB dividiremos MSAB por MSBC(A) y, finalmente, para el efecto BC(A) dividiremos MSBC(A) por MSE.

Veamos una versión como esta pero en la que los tres factores son aleatorios:

Los cocientes ahora serán los siguientes:

Observemos especialmente el primer cociente en el que en el denominador debe buscarse una combinación de cuadrados medios cuya esperanza sea la misma que en el numerador si la hipótesis nula fuese cierta.

Veamos ahora un caso de dos factores cruzados fijos y un tercer factor, aleatorio, anidado en los dos primeros, cosa que suele decirse que está anidado en la interacción:

Como puede verse al valorar tanto el efecto de A, como el de B, como el de la interacción AB deberemos dividir por MSC(A,B). El efecto de C(A,B) lo evaluaremos dividiendo por el residuo.

Veamos el mismo caso que el anterior pero en el que el tercer factor anidado es fijo:

Aquí todos los contrastes los realizaremos dividiendo por el residuo MSE.

Veamos el mismo caso que los dos anteriores pero en el que los tres factores fuesen aleatorios:

Par evaluar el efecto de A dividiremos por MSAB, el de B también por MSAB, el efecto de AB por MSC(A,B) y el efecto de C(A,B) dividiremos por el residuo MSE.

 

Veamos ahora el caso de un factor fijo, uno aleatorio anidado en él y un tercero, también aleatorio, anidado en el segundo y, por lo tanto, también en el primero:

Para evaluar el efecto de A dividiremos por  MSB(A), para evaluar el efecto de B(A) dividiremos por MSC(A,B) y para evaluar el efecto de C(A,B) dividiremos por MSE.

Un modelo más de forma rápida: Si en el modelo tenemos que los tres factores son aleatorios, el único cero que hay en la matriz sería un 1, pero se puede comprobar fácilmente que eso no cambiaría para nada las esperanzas de los cuadrados medios ni, por supuesto los cocientes a realizar.

 

Estimador de Mantel-Haenszel

Cuando se calcula una Odds ratio y se pretende evitar el problema de la confusión por otra variable el Estimador de Mantel-Haenszel es el más utilizado.

La variable confusora se divide en estratos y se estudia la tabla para cada uno de esos estratos.

Veamos cuál es la fórmula:

img_3290

Y veamos su aplicación a un caso concreto con una variable confusora en dos estratos:

img_3292

Test de una proporción

 

En ocasiones se requiere contrastar la hipótesis de que la proporción en una población, de una variable dicotómica, es un cierto valor concreto.

El Test de una proporción es el clásico test para esta situación. Es un test que se basa en la aproximación de una distribución binomial a una distribución normal.

El Test es el siguiente:

20140418-185639.jpg

 Veamos el siguiente ejemplo: Supongamos que queremos comprobar si una moneda tiene un desequilibrio. Aplicaríamos este contraste con po =0.5. Por lo tanto, la Hipótesis nula afirma que p=0.5. Supongamos que en un muestreo de 100 lanzamientos de esa moneda han salido 65 caras y 35 cruces. Si calculamos el valor del estadístico T es 3 ó -3 según miremos las caras o las cruces del muestreo. Como en una normal N(0, 1) la zona de rechazo de la hipótesis nula está a la derecha de 1.96 y a la izquierda de -1.96, para un nivel de significación del 0.05, podemos rechazar tal hipótesis. El p-valor es menor que 0.05. Debemos rechazar la hipótesis de equilibrio.

Si, por el contrario, en el muestreo salen 55 caras y 45 cruces el valor del estadístico T es 1 ó -1, lo que nos llevaría a no poder rechazar la hipótesis nula.

 

Test de Hosmer y Lemeshow

El Test de Hosmer y Lemeshow es un test muy utilizado en Regresión logística. Se trata de un   test de bondad de ajuste al modelo propuesto. Un Test de bondad de ajuste lo que hace es comprobar si el modelo propuesto puede explicar lo que se observa. Es un Test donde se evalúa la distancia entre un observado y un esperado.

El Test básicamente consiste en dividir el recorrido de valores de la variable dependiente (0,1) en una serie de intervalos. Intervalos que contengan un número de observaciones suficientemente grande (5 ó más). Se trata, entonces, de contar intervalo por intervalo el esperado y el observado para cada uno de los dos resultados posibles de la variable dependiente dicotómica (tiene la enfermedad o no la tiene, es hombre o mujer, etc). El observado es lo que se tiene y el esperado es el valor esperado teórico calculado mediante el modelo construido. El estadístico es un estadístico de la ji-cuadrado, como el visto en el tema dedicado a la relación entre variables cualitativas. De hecho, buena parte de los test de bondad de ajuste a un modelo parten de esta idea de comparar lo observado con lo esperado.

Para ver cómo se aplica este importante test ver el artículo Aplicación del Test de Hosmer-Lemeshow en Medicina.

Test de la Q de Cochran

El Test de la Q de Cochran es un test para comprobar la igualdad de varias muestras relacionadas en una variable dicotómica. Es un test equivalente al test de McNemar pero para más de dos poblaciones.

El contraste de hipótesis tiene como hipótesis nula la igualdad de proporciones.

El estadístico de test usado en este contraste de hipótesis es el siguiente:

 IMG_7167

Como puede apreciarse, para que el test funcione bien se necesita un determinado valor de tratamientos y de muestra.

Veamos dos casos de aplicación de este test.

La tabla de datos consta de cinco filas porque son cinco los individuos usados y de cuatro columnas, porque vamos a suponer que hemos ensayado cuatro tratamientos distintos a esos cinco individuos. En la tabla consta un 1 ó un 0 dependiendo si hay o no respuesta a la variable dicotómica que estamos estudiando.

Veamos, en primer lugar, un caso de no diferencias:

IMG_7168

En el siguiente caso, sí que hay diferencias entre los cuatro tratamientos:

IMG_7169

Observemos que en las condiciones de aplicación se pide que k sea mayor o igual a 4 (esto se cumple), pero también se pide que nk sea mayor o igual que 24 y en este ejemplo nk=20. Aquí la distribución ji-cuadrado supuesta es dudosa. Pero lo he hecho así para que sea más fácil entender los cálculos.

Test de Friedman

El Test de Friedman es un test para comprobar la igualdad de tratamientos en medidas repetidas. Es un test que no necesita de la normalidad de los datos. Es un test, pues, no paramétrico.

Supongamos que aplicamos a un grupo de n individuos k tratamientos diferentes, en distintos momentos. Y lo que queremos es contrastar la Hipótesis nula de igualdad entre esos tratamientos. Ahora la igualdad no será de medias, como en el ANOVA paramétrico, sino que será igualdad de medianas o de distribuciones.

El estadístico usado en este test de Fridman es el siguiente:

IMG_7166

Este test se usa,en ocasiones, para casos de dos factores cruzados donde no hay ajuste a las suposiciones habituales del ANOVA.

Algoritmo de Bennet-Franklin

En los diferentes modelos de Análisis de la varianza (ANOVA), uno de los principales niveles de complejidad, cuando trabajamos con más de un factor, es saber cuáles son las F-ratio; o sea, los cocientes entre cuadrados medios que hay que hacer para realizar los contrastes de hipótesis necesarios para resolver del modelo. Elegir los cocientes adecuados es clave para que la decisión esté bien fundamentada.

El Algoritmo de Bennet-Franklin es un clásico mecanismo para encontrar las esperanzas de los cuadrados medios y así diseñar los cocientes necesarios para la realización de esos contrastes de hipótesis.

Evidentemente es muy recomendable leer el tema Tema 15: ANOVA para situar las nociones de factor, de nivel de un factor, de factor fijo o aleatorio, de factores cruzados o anidados, que irán apareciendo a continuación. También es importante ver los distintos modelos ANOVA que están descritos en el apartado HERBARIO DE TÉCNICAS de este Blog.

El objetivo de este Algoritmo de Bennet-Franklin es, como digo, la obtención de las esperanzas de los cuadrados medios calculados en cualquier tabla ANOVA y, por lo tanto, localizar los cocientes oportunos. Muchos software hacen cocientes incorrectos o bien dejan abierta la opcionalidad de los cocientes. El cálculo analítico de estas esperanzas es matemáticamente complejo. Por esto este sencillo algoritmo tuvo mucho éxito en su momento y continúa aplicándose hoy en día.

Veamos cómo es este Algoritmo.

Cuando se tiene localizado el modelo se trata de crear, en primer lugar, una matriz con tantas filas como efectos (parámetros o combinaciones de los parámetros con subíndices) tenga el modelo y tantas columnas como subíndices utilizados en el modelo.

A continuación se siguen los siguientes pasos:

1. Se escribe 1 en toda la fila correspondiente al residuo.

2. En todo cruce de fila con columna donde coincida un subíndice se escribe un 0 si el subíndice corresponde a un factor fijo que no corresponda a un subíndice que jerarquice a algún factor anidado en él. Se escribe, por el contrario, un 1 si el subíndice corresponde a un factor aleatorio o si forma parte de un subíndice que jerarquiza a algún factor anidado en él.

3. Los espacios vacíos se rellenan con el número de valores de cada uno de los subíndices de las diferentes filas de la matriz creada.

Veamos un ejemplo en un caso de dos factores cruzados y con un factor fijo y el otro aleatorio. Se trata del ANOVA de dos factores a efectos mixtos:

Primero se construye la siguiente matriz:

IMG_7020

Una fila por efecto y una columna por cada índice implicado. A continuación se ponen siempre, como he dicho en el apartado primero 1 en la última fila, la del residuo:

IMG_7021

A continuación se mira cada fila por fila y cuando coincida un subíndice del efecto considerado en la fila con el subíndice de la columna se pone un 0 ó un 1 según el criterio especificado en el anterior punto 2. Lo repito: Se escribe un 0 si el subíndice corresponde a un factor fijo que no corresponda a un subíndice que jerarquice a algún factor anidado en él. Se escribe, por el contrario, un 1 si el subíndice corresponde a un factor aleatorio o si corresponde a un subíndice que jerarquiza a algún factor anidado en él.

Veámoslo en nuestro ejemplo:

IMG_7022

Ahora, siguiente el punto 3 anterior rellenamos las casillas vacías con los valores máximos de cada unos de los subíndices de las columnas:

IMG_7023

Una vez llegados aquí debemos proceder de la siguiente forma. Fila por fila (efecto por efecto) iremos calculando la esperanza de los cuadrados medios tachando siempre las columnas donde aparezcan individualmente cada uno de los subíndices implicados en el efecto y las filas que no contengan a todos los subíndices implicados en el efecto considerado en aquel momento. Veámoslo paso a paso en nuestro ejemplo inicial:

IMG_7025

Observemos que para evaluar la esperanza del primer efecto he tachado lo especificado: la primera columna, porque tiene la i y la segunda fila porque no contiene a la i. Al mismo tiempo he añadido los efectos en una columna a la derecha. Los efectos de un factor fijo pongo simplemente Efecto A o Efecto B o lo que sea (también pongo Ef.A como abreviación).

La esperanza del cuadrado medio consiste en ir multiplicando por filas lo que hay. Primera fila: bnEf.A, etc. Luego se suman estos productos por fila y acabas obteniendo la esperanza de aquel cuadrado medio.

Veamos la segunda esperanza:

IMG_7026

Observemos que ahora nos queda más simplificado porque en una de las filas hay un 0 y esto transforma el producto de toda la fila en 0.

Siguiente esperanza de cuadrado medio:

IMG_7028

Y, finalmente, la esperanza del cuadrado medio residual: este siempre lo podemos poner directamente como la sigma al cuadrado del modelo: la varianza residual, la varianza de las condiciones experimentales que siempre suponemos que es igual en todas las condiciones, por eso no tiene subíndice.

Pues ya lo tenemos. Podemos ver que coincide con las esperanzas de los cuadrados medios expuestos en el modelo ANOVA de dos factores a efectos mixtos.

Pues vamos ahora a practicar. Vamos a calcular mediante este Algoritmo las esperanzas de los cuadrados medios del modelo ANOVA de dos factores a efectos fijos:

La matriz sería:

IMG_7029

Y el cálculo de las esperanzas medias es:

IMG_7030

Vayamos ahora con otro caso, el modelo ANOVA de dos factores a efectos aleatorios:

La matriz:

IMG_7031

Las esperanzas:

IMG_7032

Otro ejemplo, ahora con factores anidados. El modelo ANOVA de dos factores anidados a efectos fijos:

La matriz es:

IMG_7039

Y las esperanzas son:

IMG_7040

Otro modelo, el ANOVA de dos factores anidados a efectos aleatorios:

La matriz es:

IMG_7041

Y las esperanzas de los cuadrado medios es:

IMG_7042

Y ahora casos un poco más complejos. Primero el modelo ANOVA con dos factores fijos cruzados y un tercer factor fijo anidado en ellos:

IMG_7048

Los cuadrados medios se calculan así:

IMG_7043

Otro modelo: ANOVA con dos factores fijos cruzados y un tercer factor aleatorio anidado en ellos:

IMG_7048

Las esperanzas son:

IMG_7044

Otro modelo: ANOVA de tres factores fijos anidados sucesivamente:

IMG_7050

Esperanzas:

IMG_7045

Veamos un modelo que es una variante del anterior. Tres factores anidados sucesivamente pero donde el primero es fijo y los otros dos son aleatorios. El modelo sería el siguiente:

captura-de-pantalla-2016-12-16-a-las-10-14-12

Y las esperanzas:

captura-de-pantalla-2016-12-16-a-las-10-14-24

Otro modelo: ANOVA de dos factores fijos cruzados y un tercer factor aleatorio anidado en uno de esos dos factores fijos:

IMG_7050

Esperanzas:

IMG_7046

A partir de este cuadro ya podemos decidir cuáles son los cocientes que hay que hacer.

Un ejemplo más (una advertencia previa: en la segunda fila de la matriz, la del Ef. B, en su cruce con la segunda columna, debe haber un 0 y no un 1, porque se trata de un factor fijo. Sin embargo, como se puede comprobar, eso no altera el cálculo de las esperanzas de los cuadrados medios):

A partir de este cuadro ya podemos decidir cuáles son los cocientes que hay que hacer.

Con todo lo visto podemos apreciar que mediante este Algoritmo de Bennet-Franklin tenemos un poderoso instrumento para poder encontrar las esperanzas de los cuadrados medios. Esto es clave para saber cuáles son los concientes que hay que hacer para contrastar los diferentes contrastes de hipótesis en cada modelo.

Estos cocientes son claves porque de lo que se trata con ellos es que en el numerador y en el denominador del cociente se estime lo mismo en el caso de ser cierta la Hipótesis nula. Que en el numerados el único elemento diferencial con el denominador sea el efecto focalizado en el contraste implicado. De esta forma si la F-ratio calculada es un valor pequeño deberemos mantener la Hipótesis nula y si ese F-ratio es grande la rechazaremos. Y lo haremos con razón porque el único elemento diferencial, como digo, será el elemento del contraste en cuestión.

La eta cuadrada y la eta cuadrada parcial

La eta cuadrada y la eta cuadrada parcial son dos medias del tamaño del efecto (Effect size) en ANOVA. Observemos qué calculo es cada una de ellas:

IMG_5983

Suele considerarse que una eta cuadrada en torno a 0,01 es poco efecto, que una eta cuadrada en torno a 0,06 indica un efecto medio y que una eta cuadrada superior a 0,14 es ya un efecto grande.

Son cálculos hechos, todos ellos, a partir de la tabla ANOVA, pero con una particularidad: como sucede en toda medida del tamaño del efecto, no depende del tamaño de muestra, porque no es una medida de Significación formal, es una medida de Significación material. Sería recomendable leer el artículo dedicado a la Significación formal y material.

Digo que no dependen del tamaño muestral porque los cálculos están hemos con las sumas de cuadrados, no con los cuadrados medios. El cálculo del p-valor depende de concientes de cuadrados medios, como podemos ver en las técnicas ANOVA (Ver el Tema dedicado al ANOVA.

La d de Cohen

La d de Cohen es una medida del Tamaño del efecto (En inglés «Effect size»). Es una medida relativa entre la diferencia de medias de dos poblaciones comparadas respecto a la dispersión de esas dos muestras.

Veamos el cálculo:

IMG_5980

Suele considerarse que una d en torno a 0,2 es un efecto pequeño, una d en torno a 0,5 un efecto moderado y una d por encima de 0,8 un efecto grande. Evidentemente, la d, por cómo está estructurado su cálculo, puede ir creciendo y creciendo indefinidamente.

Para situar bien este concepto en la Estadística sería interesante leer el tema dedicado a la Significación formal y material.

Alfa de Cronbach

La Alfa de Cronbach es un método para comprobar la fiabilidad, la sintonía, de una serie de medidas realizadas a alguna característica. Se basa en el cálculo de un índice que va del 0 al 1 y que refleja el grado de sintonía, de paralelismo, en una serie de medidas que pretenden ser equivalentes, que pretenden ser diferentes formas de medir lo mismo.

Suelen manejarse dos formulaciones distintas, aunque equivalentes, de la Alfa de Cronbach. Son las siguientes:

IMG_5933

IMG_5934

Observemos que, en ambos casos, valores altos de la Alfa nos muestran sintonía entre las variables que potencialmente miden lo mismo.

Este Alfa también es usada con frecuencia para ver la consistencia, la adecuación, de una encuesta. El que la Alfa sea próxima a 1 indica que se trata de preguntas que están en una relación paralela, lo que indica que los diferentes encuestados las entienden. Una encuesta con baja Alfa sería una encuesta en la que existe una aleatoriedad a la hora de responder. Es evidente que en una encuesta la principal componente será siempre los que contestan alto y bajo pero de forma paralela, homogénea.