Archivo del Autor: estadisticallopis

Descomposición de la variabilidad en ANOVA

El elemento clave en ANOVA, y de aquí su nombre, es la descomposición de la variabilidad global o total, en diferentes fuentes de variabilidad. Análisis de la varianza viene de ahí, analizar es descomponer una unidad en sus diferentes elementos constitutivos.

En todo modelo ANOVA hay siempre una descomposición de la variabilidad.

En un ANOVA de un factor es:

En una ANOVA de dos factores cruzados la descomposición es:

Las diferentes medias las podemo ver en el siguiente esquema:

Veamos el papel de la interacción en los dos ejemplos siguientes:

ANOVA de dos factores cruzados (Comparativa)

Veamos en una imagen las tres situaciones en las que nos podemos encontrar en un ANOVA de dos factores cruzados:

  1. Efectos fijos.
  2. Efectos aleatorios.
  3. Efectos mixtos.

Comparemos los tres modelos con su parametrización, tabla ANOVA, esperanzas de los cuadrados medios, contrastes de hipótesis:

Es importante ver los elementos comunes y los elementos distintos en los tres modelos. El siguiente vídeo explica estos elementos:

Ejemplo de ANOVA de un factor a efectos aleatorios

Supongamos un experimento en el que tenemos un único factor y muchos niveles. Decidimos coger una muestra de niveles y en cada uno de esos niveles elegidos tomamos una muestra. Por ejemplo, queremos ver si la contaminación en diferentes cincuenta ríos de España es diferente significativamente. Otro ejemplo, queremos ver, en una empresa donde trabajan cien empleador elaborando un producto, si hay diferencia entre ellos.

Supongamos que cogemos una muestra de tres niveles y los valores obtenidos son los siguientes:

Si aplicamos un modelo de ANOVA de un factor a efectos aleatorios la tabla ANOVA y las componentes de la varianza son:

Hay diferencias estadísticamente significativas. El p-valor es 0.003. Aquí no tiene sentido aplicar unas comparaciones múltiples porque no son esos tres niveles los que nos interesan, sino toda la población de niveles (los cincuenta ríos en el primer estudio y los cien trabajadores en el segundo). Por eso evaluamos la componente de la varianza de nuestro factor, que es 3,7. Este valor sale del siguiente cálculo:

El estadístico Cuadrado Medio del factor tiene un promedio, como variable que es. Es la denominada Esperanza del cuadrado medio. Esto lo veremos con más detalle en modelos más complejos. A partir de este valor promedio construimos una estimación de la componente de la varianza de nuestro factor aletorio:

Observemos que el valor de 3.7 para la componente de la varianza se obtiene de restar 20.6 y 2.1 y dividir luego por 5, que es el tamaño de cada muestra.

Todo modelo tiene siempre una componente de la varianza, que es la residual. Que se puede obtener del valor de Cuadrado medio residual, como se puede ver en la Tabla ANOVA.

 

Una primera aproximación al ANOVA

El Análisis de la varianza (ANOVA) es una familia de técnicas estadísticas de comparación. El objetivo de esas técnicas es decidir si hay igualdad o diferencia entre poblaciones a partir del análisis de muestras de esas poblaciones.

Nos podemos encontrar con cosas como las siguientes. Veremos a continuación tres situaciones distintas donde se están comparando, en cada una de ellas, tres muestras de tres poblaciones. Si observamos un poco atentamente nos encontraremos con situaciones bien distintas que llevan a intuiciones muy distintas acerca de cómo deben ser las poblaciones que hay detrás de esas muestras:

En el primer caso parece claro que la muestra tres presenta valores superiores y la muestra segunda valores inferiores.

En el segundo caso parece que estas tres muestras se solapan mucho. Lo que hace pensar que, con la información que tenemos, no podemos decir con fiabilidad que las poblaciones que hay detrás son distintas.

En el tercer caso parece que la muestra tres tiene valores superiores y, sin embargo, la uno y la dos son muy similares.

De esto va el ANOVA, de tomar decisiones sobre situaciones de este tipo.

El problema es que a la hora de tomar esa decisión debemos analizar siempre, como veremos, tres dimensiones fundamentales. Tres dimensiones que se solapan, que se entremezclan. Son las siguientes: las distancias entre las medias de esas muestras, las dispersiones internas de cada muestra y el tamaño de muestra.

Veamos esas tres dimensiones individualmente.

Primero: La posición relativa de esas medias. Miremos estas tres distintas situaciones, donde representamos los valores de las muestras con una cruz en la posición que ocupan en la recta numérica:

Cuanto más alejados estén los valores medios (señalados con una línea perpendicular a la recta de números) de las muestras  a comparar más posibilidades tenemos de que podamos decir que hay diferencias entre las poblaciones.

En el primer caso vemos que la muestra roja y azul están muy solapadas y la verde se aleja considerablemente. En el segundo caso hay un grado de solapamiento muy grande, las medias están muy cerca. En el tercer caso hay una clara distancia entre medias.

Pero observemos que en estos tres casos, a la hora de evaluar las distancias entre las medias vemos inevitablemente cuál es el grado de solapamiento de las muestras de las poblaciones que comparamos. Esto nos lleva a la segunda dimensión:

Vemos en estos dos casos que las distancias entre las medias de estas tres muestras son las mismas en el primer estudio y en el segundo pero, sin embargo, lo que podamos decir de las poblaciones que hay detrás, es completamente distinto. En el primero no podemos decir que hay diferencias, en el segundo parece fiable que podemos decir que hay diferencias.

La dispersión de los valores es, pues, esencial a la hora de evaluar las diferencias.

Y, como tercera dimensión, en ANOVA, tenemos el tamaño de muestra:

De nuevo en estos dos casos las distancias entre medias son las mismas, el grado de solapamiento equivalente. Lo que es distinto es claramente el tamaño de muestra. Cuanto más tamaño de muestra tengamos más fiables son las distancias muestrales que estemos viendo.

En un caso concreto, cualquiera de las técnicas ANOVA debe evaluar esas tres dimensiones (distancia entre medias, dispersión interna de las muestras y tamaño de muestra) para poder tomar una decisión sobre si las poblaciones son iguales o son distintas.

Veamos un caso concreto:

Aquí tenemos cinco muestras, con un tamaño muestral determinado, unas dispersiones determinadas, unas distancias entre medias. Aquí parece que habrá diferencias y que habra como tres grupos de poblaciones: la roja y la azul por un lado, la verde y marrón por otro y la de color granate, a la derecha, como tercer grupo.

La parametrización de un modelo ANOVA

El el Herbario de técnicas de este blog tenemos diferentes modelos ANOVA. Todos ellos muestran su parametrización. Vamos a ver aquí el concepto de parametrización. Veamos el ejemplo más sencillo: ANOVA de un factor a efectos fijos:

Un valor cualquiera de un experimento lo podemos descomponer en tres. En los modelos ANOVA más complejos esta descomposición se hará en muchos más elementos.

Veamos por qué se hace esto y qué representa. Se hace para ver diferentes fuentes de variación y así poder realizar los contrastes de hipótesis oportunos. Qué representa. Veamos el siguiente caso: Un experimento con un factor a tres niveles con tres valores muestrales en cada nivel:

La media global es 3 y la media de cada uno de los tres niveles es: 2, 3, y 4, respectivamente.

Vamos a ver cómo hacemos la descomposición:

Primer paso:

Hemos expresado cada uno de los nueve valores muestrales como iguales a la media global, que es la letra griega mu de la parametrización. Pero con esto no tenemos una verdadera igualdad.

Segundo paso:

Hemos añadido para cada valor un valor característica del grupo, de aquella muestra a la que pertenece. Que es la alfa de la parametrización. Pero las alfas son diferentes según el grupo. La alfa es de hecho la diferencia de la media del grupo respecto a la media global. Es, pues, un valor de alejamiento promedio de los diferentes miembros de aquel grupo, de aquella muestra, respecto del valor promedio global. En este casos son: -1, 0 y 1. Pero veamos que todavía no tenemos igualdades ciertas.

Tercer paso:

Ahora hemos añadido el elemento que falta para satisfacer la igualdad. Con ello aportamos un valor individual. Es la épsilon del modelo.

En nuestro caso estas épsilons, estos valores individuales son siempre valores repetidos, pero porque se trata de un ejemplo artificial hecho con mucha simetría de valores para que se pueda entender bien pero en general estos valores individuales serán números distintos para cada caso.

Este es el sentido de la parametrización. Descomponer cada valor muestral de nuestro estudios en distintos valores. De esta forma conseguimos crear distintas fuentes de variación que serán claves a la hora de realizar los contrastes de hipótesis; o sea, a la hora de evaluar efectos, a la hora de tomar decisiones en ANOVA.

 

 

 

El contraste de hipótesis en un ANOVA de un factor

Hemos visto cómo funciona la parametrización de un ANOVA de un factor. Los dos casos posible: factor fijo y factor aleatorio, son los siguientes:

La hipótesis nula es, en ambos, igualdad y la alternativa no igualdad. Se interpreta distinto porque como ya hemos visto en otro lugar, en el factor fijo estamos comparando unos niveles que expresamente nos interesa comparar y en el factor aleatorio tenemos una muestra de niveles, y, por lo tanto, lo que nos interesa es hablar de la igualdad o no entre muchos niveles que no tenemos. Por eso aparece, en este caso, una estimación de la varianza que hay entre esos niveles, la denominada componente de la varianza.

Vamos a ver cómo funciona el contraste de hipótesis.

Vamos a situarnos en las dos situaciones posibles más extremas. Supongamos los dos experimientos siguientes:

Si calculamos el estadístico de test F en el experimento de la izquierda toda la variabilidad está en el numerador y en el denominador tenemos un valor claramente de 0. Por lo tanto, el valor de la F es infinito. En el experimiento de la derecha toda la variabilidad está en el denominador y el numerador es 0. Por lo tanto, tenemos las dos situaciones extremas posibles: En el experimiento 1 la hiótesis nula de igualdad de poblaciones es absurdo quererla mantener y en el experimento 2 lo que es absurdo es rechazar la hipósis nula; o sea, decir que hay diferencias cuando las tres muestras de esas tres poblaciones son idénticas.

Las posibilidades son pues las extremas:

Pero lo cierto es que los estudios de ANOVA de un factor prácticamente siempre tendremos valores que no serán ninguno de estos dos valores extremos. Por ejemplo, tendremos el valor siguiente:

¿Qué decisión tenemos que tomar con un valor de F de 7.33? Si el valor está próximo al 0 mantendremos la Hipótesis nula si es próximo al infinito rechazaremos la Hipótesis nula y abrazaremos la Hipótesis alternativa. Pero, ¿dónde situamos el umbral para la toma de esta crucial decisión?

Aquí está el problema. Lo que hizo Fisher es, partiendo de unas suposiciones (valores independientes, con distribución normal y con igualdad de varianzas de cada muestra), ver cuál sería la variabilidad, la distribución de los valores posibles de este cálculo F, si fuese cierta la Hipótesis nula. Y así fue como definió, estudió y tabuló la denominada distribución F de Fisher.

Fijaos que si dibujamos la forma de cómo deberían ser las cosas si fuese cierta la Hipótesis nula este valor de 7.33, o el que tuviésemos en un estudio concreto, adquiere sentido, te permite decantarte por una hipótesis u otra con más sentido.

Mirad el dibujo:

Este 7.33, que antes no sabíamos cómo interpretar ahora sí parece tener sentido. Arriba podemos decir que estamos viendo algo muy poco probable si fuese cierta la Hipótesis nula y, en cambio, debajo podemos decir que estamos viendo algo muy probable si fuese cierta esa Hipótesis nula de igualdad de poblaciones, o de ausencia de efectos.

Observemos que si fijamos una área de poca probabilidad bajo el supuesto de ser cierta la Hipótesis nula, tendríamos los dos siguientes dibujos:

Se crea así un umbral para la toma de decisión. Si se supera se rechaza la Hipótesis nula, si no se supera se mantiene esa Hipótesis. En el primer caso hemos superado el umbra, en el segundo no. Ahora, pues, el 7.33 nos permite tomar una decisión. Suele establecerse un umbral con probabilidad baja en la zona de influencia más alejada de la Hipótesis nula, que es el extremo derecho.

Actualmente lo que hacen los softwares estadísticos es calcular el llamado p-valor, que es el área que hay a la derecha, hacia la zona más alejada de la coherencia de la Hipótesis nula, desde el punto del valor de la F calculada a las muestras del estudio:

Si este p-valor es menor que 0.05 es que el valor de la F calculada está a la derecha del umbral de tolerancia para mantener la Hipótesis nula. Si este p-valor es mayor que 0.05 es que ese valor de la F calculado a la muestra está a la izquierda del umbral, está en zona donde es coherente lo que vemos con la hipótesis de igualda o de no efectos, de no diferencias entre los niveles comparados (si es un factor fijo) o de varianza cero de los niveles poblacionales compardos (si es un factor aleatorio).

La distribución F de Fisher tiene, como se ve formas distintas, siguiendo siempre ese patrón que se ve dibujado en estos gráficos. La concreta forma que tenga va a depender del número de niveles del factor y del tamaño de muestra que estemos estudiando en global:

Tiene dos parámetros y el primero es t-1, el número de niveles del estudio menos uno, y el segundo parámetro es el número de observaciones totales (nt) menos el numero de niveles; o sea, nt-t.

Y el umbral lo obtenemos de unas tablas como esta:

En las columnas encontramos el valor del primer parámetro y en las filas el del segundo parámetro.

Por ejemplo: supongamos que estamos comparando tres niveles de un factor y tenemos tres valores por cada nivel, como en los ejemplos ficticios de antes. Entonces t-1 sería 2 porque tenemos tres niveles y nt-t sería 8, porque, como la n es 3 y la t también 3, la F sería una F(2,6), que es como también se suele escribir. El valor umbral sería, mirando la tabla, el valor de 5.14. Este valor sería el valor que nos permitiría, dados unos datos concretos, tomar una decisión según el valor de la F fuera menor o mayor que este umbral.

 

 

 

 

Situación 158: Examen (Temas 1-17 y 19)

1.Tenemos una muestra de 1000 pacientes de una enfermedad psiquiátrica y 1000 pacientes controles sin esa enfermedad.  Queremos ver si hay diferencias entre ambos grupos en cuanto a tener o no una determinada enfermedad hematológica. Entre los controles hay 400 que tienen la patología y entre los pacientes con la enfermedad psiquiátrica son 450. ¿Cuál es la técnica de comparación a utilizar para ver si esta diferencia es estadísticamente significativa?

a.El test de Mann-Whitney

b.El test de McNemar

c.El test exacto de Fisher

d.El test de proporciones

 

2.Nos dan un intervalo de confianza del 95% de una proporción y el intervalo es (0.45, 0.55) o, en porcentajes: (45%, 55%). ¿Cuál es el tamaño de la muestra?

a.400

b.100

c.25

d.1600

 

3.Cuál de estas pendientes indica una menor capacidad predictiva?

a.Pendiente=2; IC 95% (-2, 6); r=0.65

b.Pendiente=5; IC 95% (3, 7); r=0.7

c.Pendiente=1; IC 95% (0.3, 1.7); r=0.4

d.Pendiente=16; IC 95% (1, 31); r=0.3

 

4.¿Cuál de las siguientes afirmaciones es cierta?

a.En una tabla de contingencias cualquiera si el valor de la ji-cuadrado es 5.44 podemos decir que no existe relación significativa entre las variables sin necesidad de mirar el umbral en la tabla de la ji-cuadrado.

b.Una OR=0.45 con un IC del 95% de (0.20, 1.14) es compatible con un valor de Ji-cuadrado de 1.99.

c.Una muestra como la siguiente (1, 8, 2, 4, 12) tiene una mediana de 2.

d.Una OR=0.5 con un intervalo de confianza del 95% de (0.2, 0.8) indica una relación de riesgo estadísticamente significativa.

 

5.¿Cuál de las siguientes afirmaciones es cierta?

a.Un kappa de 0 indica una total concordancia entre dos evaluadores

b.Si después de hacer un test de comparación de medias lo repetimos aumentando el tamaño de las dos muestras, sin cambiar ni desviación estándar ni el valor de las dos medias, el p-valor aumentará.

c.En un ANOVA de un factor no significativo el número de grupos homogéneos que tendremos en una comparación múltiple es de uno.

d.En una tabla de contingencias 3×3 la Odds ratio que calculemos será mayor que 1.

 

6.Estamos comparando dos técnicas psicoterapéuticas distintas, aplicadas a pacientes con trastorno de la alimentación. Hemos establecido un umbral de un test para delimitar si hemos conseguido este nivel que consideramos positivo o, por el contrario, que no lo hemos conseguido. Hemos hecho el estudio con 40 pacientes. Con 20 hemos ensayado una técnica y con los otros 20 la otra técnica. En la primera 15 han superado el umbral. En la segunda 10.

¿Cuál es la técnica estadística que hemos de aplicar?

a.El test exacto de Fisher

b.El test de proporciones

c.El test de la ji-cuadrado

d.El test de Mann-Whitney

 

7.Estamos comparando si hay diferencias estadísticamente significativas entre los que se han infectado por el coronavirus entre personas según el grupo sanguíneo A, B, AB u O. Hemos elegido 20 pacientes del A, 20 del B, 20 del AB y 60 del O. Estamos interesados en comparar el grupo O respecto al conjunto de los otros tres grupos. En el grupo O hay 5 casos de seropositivos y en el otro grupo (A, B y AB) son 10. ¿Cuál es la técnica de comparación a utilizar para ver si esta diferencia es estadísticamente significativa?

a.El test exacto de Fisher

b.Un ANOVA de un factor

c.El test de McNemar

d.El test de proporciones

 

8.Queremos determinar el tamaño de muestra para realizar la predicción de cuántas personas han padecido la covid-19 en España y tienen seroprotección. No tenemos ninguna referencia sobre el porcentaje real poblacional con el que nos podemos encontrar. Queremos tener un radio del intervalo del 1%.

a.10000

b.1000

c.5000

d.100

 

9.Si después de hacer un test de comparación de medias tenemos un p-valor de 0.35 y, después:

1)Lo repetimos aumentando el tamaño de las dos muestras y sin que cambien ni las medias ni las desviaciones estándar

2)Luego aumentamos las diferencias entre las medias muestrales, sin que cambie ni tamaños de muestra ni desviaciones estándar;

3)Finalmente, disminuyemos las desviaciones estándar de ambas muestras sin modificar la diferencia de medias ni el tamaño de muestra. ¿Cuál es el itinerario posible de p-valores sucesivos?

a.0.25/0.45/0.18

b.0.65/0.45/0.18

c.0.15/0.05/0.01

d.0.15/0.01/0.10

 

10.Tenemos dos tratamientos psicoterapéuticos a ensayar en dos grupos de 50 personas cada uno. Cada paciente toma un único fármaco. Se evalúa una variable cuantitativa. Hemos aplicado primero el test de Fisher-Snedecor y proporciona un p-valor de 0.15. Luego aplicamos el test de Shapiro-Wilk aplicado y la primera muestra nos da un p-valor de 0.04 y la segunda un p-valor de 0.34. ¿Qué test de comparación hemos de utilizar para hacer el contraste de hipótesis de comparación?

a.El test de la t de Student de varianzas iguales

b.El test de Mann-Whitney

c.El test de la t de Student de varianzas diferentes

d.El test de la t de Student de datos apareados

 

11.Tenemos la siguiente tabla de resultados en un experimento donde estudiamos cinco tratamientos psicoterapéuticos, donde evaluamos el resultado posterior de un test. Tenemos en total 20 pacientes, 4 para cada tratamiento. Los resultados obtenidos son los siguientes:

Tratamiento 1: 8; 11; 9; 8.

Tratamiento 2: 10; 10; 8; 9.

Tratamiento 3: 1; 3; 3; 2.

Tratamiento 4: 5; 4; 6; 5.

Tratamiento 5: 9; 8; 10; 9

Elige la respuesta correcta

 

a.Factor Tratamiento: p<0.05

Tres grupos homogéneos

b.Factor Tratamiento: p<0.05

Cinco grupos homogéneos

c.Factor Tratamiento: p<0.05

Dos grupos homogéneos

d.Factor Tratamiento: p>0.05

Dos grupos homogéneos

12.Estamos relacionado cuatro tres tipos de trastornos del sueño con tres tipos de trastornos de la alimentación. Hemos construido para ello una tabla de contingencias 3×3 y hemos buscado en personas que tuvieran ambos trastornos qué tipo de cada uno tenían. Hemos hecho la ji-cuadrado y no da una ji-cuadrado de 23.51. El p-valor es:

a.0.01

b.0.0001

c.0.005

d.0.001

 

13.¿Cuál de las siguientes afirmaciones es cierta?

a.En una tabla de contingencias 4×2 si el valor de la ji-cuadrado es 6.25 existe relación

significativa entre las variables.

b.Una OR=1.65 con un IC del 95% de (0.33, 2.44) es compatible con una Ji-cuadrado de 7.88

c.En una técnica de comparación de medias un p-valor de 0.35 es compatible con un intervalo de confianza de la diferencia de medias de (0.28, 1.98)

d.Una correlación r=0.45 con un p-valor de 0.23 es compatible con una pendiente de 45 con un intervalo de confianza del 95% de (-25, 115)

 

14.¿Cuál de las siguientes afirmaciones es cierta?

a.Si en un test de comparación de medias tenemos un p-valor de 0.45 y una potencia del 65% afirmaremos que hay igualdad de medias.

b.Si en un test de comparación de proporciones tenemos un p-valor de 0.04 y una potencia del 87% afirmaremos que hay igualdad de proporciones.

c.Si en un test de ANOVA  de una factor con cuatro niveles tenemos un p-valor de 0.005 y una potencia del 83% afirmaremos que no hay igualdad de medias.

d.Si en un test de ANOVA  de una factor con cinco niveles tenemos un p-valor de 0.01 y una potencia del 95% afirmaremos que la medias de los cinco grupos comparados son diferentes.

 

15.¿Cuál de las siguientes afirmaciones es cierta?

a.Una pendiente de 0.5 con un intervalo de confianza del 95% de (0.3, 0.8) es compatible con una correlación con intervalo de confianza (-0.8, -0.5)

b.Una OR=10 como factor de riesgo es equivalente a una OR=1 como factor de protección.

c.En un ANOVA de dos factores cruzados si un factor es significativo el otro no lo será.

d.Si se aplica el test de McNemar en una comparación es que estamos ante una variable dicotómica y dos muestras relacionadas.

 

16.En un Análisis de componentes principales la primera componente principal es V=0.5X+0.5Y-0.5Z y la segunda es W=0.5X-0.5Y+0.01Z ¿Cuál de los siguientes puntos es el que está muy a la derecha y arriba? (Tener en cuenta que el primer valor es la X, el segundo la Y y el tercero la Z):

a.(10, 1, 10)

b.(8, 5, 1)

c.(1, 1, 8)

d.(5, 8, 0)

 

17.Tenemos en un estudio de Alzhéimer tenemos cinco pacientes: a, b, c, d, e. De estos cinco pacientes tenemos seis variables, con los siguientes valores:

a:(10, 2, 25, 5, 15, 8)

b:(10, 5, 20, 13, 16, 1)

c:(9, 2, 21, 11, 15, 3)

d:(10, 1, 21, 10, 15, 3)

e:(9, 4, 20, 13, 16, 2)

¿Qué afirmación es cierta?

a.En un Análisis clúster el paciente que se agrupará en última posición respecto a los demás es el paciente a.

b.En un Análisis clúster el paciente que se agrupará en última posición respecto a los demás es el paciente e.

c.En un Análisis clúster los dos pacientes que se agruparán en primer lugar serán los pacientes a y b.

d.En un Análisis clúster los dos pacientes que se agruparán en primer lugar serán los pacientes b y d.

 

18.¿Cuál es el rango intercuartílico de la siguiente muestra?:(8, 2, 3, 5, 7)

a.4

b.3

c.6

d.2

 

19.Se nos proporciona un intervalo de confianza de la media del 95% de la concentración de un neurotransmisor en pacientes con trastorno bipolar. Este intervalo es (23, 27). Nos dicen que la desviación estándar de esa muestra era 5. ¿Cuál es el tamaño de la muestra?

a.25

b.100

c.400

d.125

 

20.En un artículo donde se comparan dos tratamientos, al analizar una variable dicotómica nos dan la siguiente información: el intervalo de confianza del 95% de la diferencia de proporciones es (0.25, 0.45) ¿cuál de las siguientes afirmaciones es cierta?

a.Los dos intervalos de confianza del porcentaje de cada población no se solapan.

b.Hay diferencias significativas porque el intervalo no contiene al 1.

c.No hay diferencias significativas porque no tenemos el p-valor del estudio.

d.No podemos decir nada todavía porque no tenemos el p-valor del estudio.