Archivo de la categoría: COMPLEMENTOS

Una primera aproximación al ANOVA

El Análisis de la varianza (ANOVA) es una familia de técnicas estadísticas de comparación. El objetivo de esas técnicas es decidir si hay igualdad o diferencia entre poblaciones a partir del análisis de muestras de esas poblaciones.

Nos podemos encontrar con cosas como las siguientes. Veremos a continuación tres situaciones distintas donde se están comparando, en cada una de ellas, tres muestras de tres poblaciones. Si observamos un poco atentamente nos encontraremos con situaciones bien distintas que llevan a intuiciones muy distintas acerca de cómo deben ser las poblaciones que hay detrás de esas muestras:

En el primer caso parece claro que la muestra tres presenta valores superiores y la muestra segunda valores inferiores.

En el segundo caso parece que estas tres muestras se solapan mucho. Lo que hace pensar que, con la información que tenemos, no podemos decir con fiabilidad que las poblaciones que hay detrás son distintas.

En el tercer caso parece que la muestra tres tiene valores superiores y, sin embargo, la uno y la dos son muy similares.

De esto va el ANOVA, de tomar decisiones sobre situaciones de este tipo.

El problema es que a la hora de tomar esa decisión debemos analizar siempre, como veremos, tres dimensiones fundamentales. Tres dimensiones que se solapan, que se entremezclan. Son las siguientes: las distancias entre las medias de esas muestras, las dispersiones internas de cada muestra y el tamaño de muestra.

Veamos esas tres dimensiones individualmente.

Primero: La posición relativa de esas medias. Miremos estas tres distintas situaciones, donde representamos los valores de las muestras con una cruz en la posición que ocupan en la recta numérica:

Cuanto más alejados estén los valores medios (señalados con una línea perpendicular a la recta de números) de las muestras  a comparar más posibilidades tenemos de que podamos decir que hay diferencias entre las poblaciones.

En el primer caso vemos que la muestra roja y azul están muy solapadas y la verde se aleja considerablemente. En el segundo caso hay un grado de solapamiento muy grande, las medias están muy cerca. En el tercer caso hay una clara distancia entre medias.

Pero observemos que en estos tres casos, a la hora de evaluar las distancias entre las medias vemos inevitablemente cuál es el grado de solapamiento de las muestras de las poblaciones que comparamos. Esto nos lleva a la segunda dimensión:

Vemos en estos dos casos que las distancias entre las medias de estas tres muestras son las mismas en el primer estudio y en el segundo pero, sin embargo, lo que podamos decir de las poblaciones que hay detrás, es completamente distinto. En el primero no podemos decir que hay diferencias, en el segundo parece fiable que podemos decir que hay diferencias.

La dispersión de los valores es, pues, esencial a la hora de evaluar las diferencias.

Y, como tercera dimensión, en ANOVA, tenemos el tamaño de muestra:

De nuevo en estos dos casos las distancias entre medias son las mismas, el grado de solapamiento equivalente. Lo que es distinto es claramente el tamaño de muestra. Cuanto más tamaño de muestra tengamos más fiables son las distancias muestrales que estemos viendo.

En un caso concreto, cualquiera de las técnicas ANOVA debe evaluar esas tres dimensiones (distancia entre medias, dispersión interna de las muestras y tamaño de muestra) para poder tomar una decisión sobre si las poblaciones son iguales o son distintas.

Veamos un caso concreto:

Aquí tenemos cinco muestras, con un tamaño muestral determinado, unas dispersiones determinadas, unas distancias entre medias. Aquí parece que habrá diferencias y que habra como tres grupos de poblaciones: la roja y la azul por un lado, la verde y marrón por otro y la de color granate, a la derecha, como tercer grupo.

La parametrización de un modelo ANOVA

El el Herbario de técnicas de este blog tenemos diferentes modelos ANOVA. Todos ellos muestran su parametrización. Vamos a ver aquí el concepto de parametrización. Veamos el ejemplo más sencillo: ANOVA de un factor a efectos fijos:

Un valor cualquiera de un experimento lo podemos descomponer en tres. En los modelos ANOVA más complejos esta descomposición se hará en muchos más elementos.

Veamos por qué se hace esto y qué representa. Se hace para ver diferentes fuentes de variación y así poder realizar los contrastes de hipótesis oportunos. Qué representa. Veamos el siguiente caso: Un experimento con un factor a tres niveles con tres valores muestrales en cada nivel:

La media global es 3 y la media de cada uno de los tres niveles es: 2, 3, y 4, respectivamente.

Vamos a ver cómo hacemos la descomposición:

Primer paso:

Hemos expresado cada uno de los nueve valores muestrales como iguales a la media global, que es la letra griega mu de la parametrización. Pero con esto no tenemos una verdadera igualdad.

Segundo paso:

Hemos añadido para cada valor un valor característica del grupo, de aquella muestra a la que pertenece. Que es la alfa de la parametrización. Pero las alfas son diferentes según el grupo. La alfa es de hecho la diferencia de la media del grupo respecto a la media global. Es, pues, un valor de alejamiento promedio de los diferentes miembros de aquel grupo, de aquella muestra, respecto del valor promedio global. En este casos son: -1, 0 y 1. Pero veamos que todavía no tenemos igualdades ciertas.

Tercer paso:

Ahora hemos añadido el elemento que falta para satisfacer la igualdad. Con ello aportamos un valor individual. Es la épsilon del modelo.

En nuestro caso estas épsilons, estos valores individuales son siempre valores repetidos, pero porque se trata de un ejemplo artificial hecho con mucha simetría de valores para que se pueda entender bien pero en general estos valores individuales serán números distintos para cada caso.

Este es el sentido de la parametrización. Descomponer cada valor muestral de nuestro estudios en distintos valores. De esta forma conseguimos crear distintas fuentes de variación que serán claves a la hora de realizar los contrastes de hipótesis; o sea, a la hora de evaluar efectos, a la hora de tomar decisiones en ANOVA.

 

 

 

El contraste de hipótesis en un ANOVA de un factor

Hemos visto cómo funciona la parametrización de un ANOVA de un factor. Los dos casos posible: factor fijo y factor aleatorio, son los siguientes:

La hipótesis nula es, en ambos, igualdad y la alternativa no igualdad. Se interpreta distinto porque como ya hemos visto en otro lugar, en el factor fijo estamos comparando unos niveles que expresamente nos interesa comparar y en el factor aleatorio tenemos una muestra de niveles, y, por lo tanto, lo que nos interesa es hablar de la igualdad o no entre muchos niveles que no tenemos. Por eso aparece, en este caso, una estimación de la varianza que hay entre esos niveles, la denominada componente de la varianza.

Vamos a ver cómo funciona el contraste de hipótesis.

Vamos a situarnos en las dos situaciones posibles más extremas. Supongamos los dos experimientos siguientes:

Si calculamos el estadístico de test F en el experimento de la izquierda toda la variabilidad está en el numerador y en el denominador tenemos un valor claramente de 0. Por lo tanto, el valor de la F es infinito. En el experimiento de la derecha toda la variabilidad está en el denominador y el numerador es 0. Por lo tanto, tenemos las dos situaciones extremas posibles: En el experimiento 1 la hiótesis nula de igualdad de poblaciones es absurdo quererla mantener y en el experimento 2 lo que es absurdo es rechazar la hipósis nula; o sea, decir que hay diferencias cuando las tres muestras de esas tres poblaciones son idénticas.

Las posibilidades son pues las extremas:

Pero lo cierto es que los estudios de ANOVA de un factor prácticamente siempre tendremos valores que no serán ninguno de estos dos valores extremos. Por ejemplo, tendremos el valor siguiente:

¿Qué decisión tenemos que tomar con un valor de F de 7.33? Si el valor está próximo al 0 mantendremos la Hipótesis nula si es próximo al infinito rechazaremos la Hipótesis nula y abrazaremos la Hipótesis alternativa. Pero, ¿dónde situamos el umbral para la toma de esta crucial decisión?

Aquí está el problema. Lo que hizo Fisher es, partiendo de unas suposiciones (valores independientes, con distribución normal y con igualdad de varianzas de cada muestra), ver cuál sería la variabilidad, la distribución de los valores posibles de este cálculo F, si fuese cierta la Hipótesis nula. Y así fue como definió, estudió y tabuló la denominada distribución F de Fisher.

Fijaos que si dibujamos la forma de cómo deberían ser las cosas si fuese cierta la Hipótesis nula este valor de 7.33, o el que tuviésemos en un estudio concreto, adquiere sentido, te permite decantarte por una hipótesis u otra con más sentido.

Mirad el dibujo:

Este 7.33, que antes no sabíamos cómo interpretar ahora sí parece tener sentido. Arriba podemos decir que estamos viendo algo muy poco probable si fuese cierta la Hipótesis nula y, en cambio, debajo podemos decir que estamos viendo algo muy probable si fuese cierta esa Hipótesis nula de igualdad de poblaciones, o de ausencia de efectos.

Observemos que si fijamos una área de poca probabilidad bajo el supuesto de ser cierta la Hipótesis nula, tendríamos los dos siguientes dibujos:

Se crea así un umbral para la toma de decisión. Si se supera se rechaza la Hipótesis nula, si no se supera se mantiene esa Hipótesis. En el primer caso hemos superado el umbra, en el segundo no. Ahora, pues, el 7.33 nos permite tomar una decisión. Suele establecerse un umbral con probabilidad baja en la zona de influencia más alejada de la Hipótesis nula, que es el extremo derecho.

Actualmente lo que hacen los softwares estadísticos es calcular el llamado p-valor, que es el área que hay a la derecha, hacia la zona más alejada de la coherencia de la Hipótesis nula, desde el punto del valor de la F calculada a las muestras del estudio:

Si este p-valor es menor que 0.05 es que el valor de la F calculada está a la derecha del umbral de tolerancia para mantener la Hipótesis nula. Si este p-valor es mayor que 0.05 es que ese valor de la F calculado a la muestra está a la izquierda del umbral, está en zona donde es coherente lo que vemos con la hipótesis de igualda o de no efectos, de no diferencias entre los niveles comparados (si es un factor fijo) o de varianza cero de los niveles poblacionales compardos (si es un factor aleatorio).

La distribución F de Fisher tiene, como se ve formas distintas, siguiendo siempre ese patrón que se ve dibujado en estos gráficos. La concreta forma que tenga va a depender del número de niveles del factor y del tamaño de muestra que estemos estudiando en global:

Tiene dos parámetros y el primero es t-1, el número de niveles del estudio menos uno, y el segundo parámetro es el número de observaciones totales (nt) menos el numero de niveles; o sea, nt-t.

Y el umbral lo obtenemos de unas tablas como esta:

En las columnas encontramos el valor del primer parámetro y en las filas el del segundo parámetro.

Por ejemplo: supongamos que estamos comparando tres niveles de un factor y tenemos tres valores por cada nivel, como en los ejemplos ficticios de antes. Entonces t-1 sería 2 porque tenemos tres niveles y nt-t sería 8, porque, como la n es 3 y la t también 3, la F sería una F(2,6), que es como también se suele escribir. El valor umbral sería, mirando la tabla, el valor de 5.14. Este valor sería el valor que nos permitiría, dados unos datos concretos, tomar una decisión según el valor de la F fuera menor o mayor que este umbral.

 

 

 

 

El patrón común de los contrastes de hipótesis

Uno de los objetivos fundamentales de la Ciencia es tomar decisiones. Decisiones acerca de cómo debe de ser lo que no vemos (lo poblacional) a partir de la información que extraemos de lo que vemos (la muestra). El contraste de hipótesis estadístico es el principal método mediante el cual se toman esas decisiones en la Ciencia.

En todo contraste de hipótesis el patrón de funcionamiento es siempre el mismo. Es muy importante captar esta idea si se quiere comprender la Estadística y, también, la Ciencia. Karl Pearson decía que la Estadística es la gramática de la Ciencia. Seguramente es en el contraste de hipótesis donde podemos ver mejor los elementos nucleares de esa gramática.

Hay tres elementos básicos en la toma de la decisión:

  1. La diferencia entre el valor muestral y el valor poblacional establecido en la Hipótesis nula. La distancia que hay entre lo que vemos muestralmente y lo que afirmamos sobre la población, en definitiva.
  2. La dispersión que tengamos en la muestra. La variabilidad, lo alejados que estén los valores respecto de la media. La imprevisibilidad, por lo tanto, de los valores que podemos tener.
  3. El tamaño de muestra que tengamos. La cantidad de información que tenemos de la inmensa población sobre la que queremos hablar.

El esquema general en el que relacionamos estos tres factores es siempre el siguiente:

En definitiva, en un contraste de hipótesis, se trata de ver cuán diferente es el cálculo muestral respecto al que se afirma, poblacionalmente, en la Hipótesis nula, que es lo que calculamos en el numerador. Cuanto más próxima a 0 sea esa diferencia más coherente será mantener esa Hipótesis nula. Observemos que el numerador marca la distancia absoluta entre el cálculo muestral y la hipótesis sobre cómo es la población que no tengo.

Sin embargo, este cálculo del numerador que valora la distancia entre lo que veo y lo que afirmo sobre la población quedará matizado por la dispersión y por el tamaño de muestra que tengamos. Observemos bien el cociente: En el denominador tenemos un cociente entre la dispersión y el tamaño de muestra.

Si la dispersión es grande esa diferencia se verá disminuida, si esa dispersión es pequeña esa diferencia entre el valor muestral y el poblacional se verá aumentada.

Lo contrario sucede con el tamaño de muestra: si es grande el tamaño muestral esa diferencia calculada en el numerador se verá aumentada (porque al ser grande el tamaño de muestra el cociente entre la dispersión y el tamaño de muestra se hace pequeña) y si el tamaño de muestra es pequeño esa diferencia se verá disminuida (porque al ser pequeño el tamaño de muestra el cociente entre la dispersión y el tamaño de muestra se hace grande).

Cuanto más próximo a 0 sea este cociente más razonable será mantener la Hipótesis nula y, por el contrario, cuanto más alejado esté de 0 más coherente será rechazarla y pasar a la Hipótesis alternativa.

Veamos estos tres factores cómo influyen para que el cociente sea próximo a 0 ó, por el contrario, sea un valor alejado del cero:

Valores pequeños de diferencia, grandes de dispersión y pequeños de tamaño de muestra hacen que el cociente sea pequeño. Valores grandes de diferencia, pequeños de dispersión y grandes de tamaño de muestra hacen que el cociente se haga grande.

Cada contraste tendrá un umbral para hacer este paso de la Hipótesis nula a la alternativa. El umbral será ese valor que ya hace intolerable la distancia entre lo que vemos y lo que afirmamos en la Hipótesis nula sobre la población.

El p-valor, de hecho, es una forma estandarizada de evaluar este alejamiento del cero. Cuanto menor es el p-valor más alejado estamos del 0 y cuanto más próximo a 1 sea el p-valor más cerca del 0 estamos en este cociente. De hecho, si el valor de la  muestra coincide con el valor poblacional de la Hipótesis nula el p-valor será 1. ¿Hay en esta situación algún argumento coherente para rechazar esa hipótesis?

La frontera del 0.05 en el p-valor es la expresión estandarizada de que estamos justo sobre el umbral de tolerancia del mantenimiento de la Hipótesis nula.

Veamos en los siguientes cinco ejemplos de contrastes de hipótesis: Contraste sobre la correlación de Pearson, Contraste de una proporción, Contraste de comparación de proporciones, Contraste de una media y Contraste de comparación de medias:

Obsérvese que siempre estamos haciendo un cociente como el que hemos escrito antes, conceptualmente, un cociente entre la diferencia entre lo muestral y lo que afirmamos poblacionalmente en la Hipótesis nula y el valor de otro cociente: el que hay entre la dispersión y el tamaño de muestra que tenemos.

A la derecha de cada cociente tenemos la distribución de ese cociente en el caso de que fuera cierta la Hipótesis nula, que es lo que nos permite fijar un umbral o calcular un p-valor como criterio para decidir si mantenemos la Hipótesis nula o, por el contrario, la rechazamos y nos quedamos con la Hipótesis alternativa.

Base de datos de la evolución del MM en pacientes con demencias

Tenemos la siguiente base de datos de pacientes con demencias diagnosticadas:

Variables:

P=Paciente

S=Sexo (h=hombre; m=mujer)

E=Edad

EVC=Enfermedad vascular central (s=sí; n=no)

EVP=Enfermedad vascular periférica (s=sí; n=no)

D=Diabetes (s=sí; n=no)

MM0=Mini Mental en el diagnóstico

MM3=Mini Mental a los 3 años

MM5=Mini Mental a los 5 años

P S E EVC EVP D MM0 MM3 MM5
1 h 60 s n n 21 20 18
2 h 79 n n n 20 19 16
3 h 71 n s s 23 20 17
4 h 66 n s s 22 19 16
5 m 69 n n s 21 19 16
6 m 62 n n s 24 22 19
7 m 60 s n n 21 19 16
8 m 63 s n n 24 22 19
9 m 77 n s n 23 21 18
10 h 63 n s n 20 18 15
11 h 79 n s n 24 22 19
12 h 55 n s s 23 21 18
13 m 72 n n s 21 19 16
14 m 68 n n n 21 21 20
15 h 81 n n s 23 21 18
16 h 71 n n n 20 19 19
17 m 61 n s s 24 23 20
18 m 76 s s s 23 22 19
19 m 72 s s n 22 21 18
20 m 63 n n n 24 23 20
21 m 67 n n n 21 20 17
22 h 69 n n n 23 22 19
23 h 60 n n n 21 20 17
24 m 64 n n s 22 21 18
25 m 73 n n s 21 20 17
26 m 66 s n n 23 21 18
27 m 76 s n n 22 20 17
28 h 75 n n n 23 21 18
29 m 62 n n s 21 19 16
30 m 78 n n n 24 22 19
31 h 57 n s s 23 21 18
32 h 58 n s s 21 19 16
33 m 63 s s n 23 21 18
34 m 65 n s n 24 22 19
35 m 74 s s n 20 17 14
36 m 61 n n n 24 22 19
37 h 71 n n s 23 21 18
38 m 71 n n n 22 21 18
39 m 63 n n s 24 23 20
40 h 67 n n s 21 20 17
41 h 69 n n n 21 20 17
42 m 63 n n n 21 20 17
43 m 75 n s n 22 21 18
44 m 69 n s n 21 20 17
45 m 62 s s n 24 20 17
46 m 66 s s s 24 20 16
47 h 57 n s n 23 22 19
48 h 62 n s s 21 18 16
49 h 59 n n n 21 20 17
50 m 72 n n s 28 27 24
51 m 78 n n s 24 23 20
52 m 73 s n n 24 23 20
53 m 63 n n n 23 24 21
54 h 65 s n n 23 22 19
55 m 67 n s n 23 22 21
56 m 66 n s n 24 23 20
57 h 75 n n s 22 21 18
58 h 62 n n n 21 20 17
59 m 71 n n s 23 22 19
60 m 59 s s n 22 17 16
61 m 66 n n s 24 23 20
62 m 64 n n s 23 22 19
63 m 65 n n n 22 21 18
64 h 71 n n n 24 23 20
65 h 68 n n n 21 20 17
66 h 73 n n n 21 20 17
67 m 64 n n n 21 20 17
68 m 60 s s s 22 18 15
69 m 76 n n n 21 21 18
70 m 64 n n s 23 23 20
71 h 68 n n n 22 19 16
72 m 63 n n s 23 19 16
73 m 68 n n s 21 19 16
74 h 73 n n n 21 22 16
75 h 62 n n n 23 19 16
76 m 65 n n n 24 23 20
77 m 76 n n n 20 19 16
78 m 61 n n n 24 23 20
79 m 67 n n s 22 20 17
80 m 64 n n n 22 21 18
81 h 64 n n s 23 21 18
82 m 69 n s s 20 17 15
83 m 74 n n n 22 21 20
84 m 57 n n n 24 23 20
85 h 67 n n n 23 22 19
86 h 73 n n n 22 21 18
87 m 74 n n s 21 20 17
88 m 72 s s n 23 20 17
89 m 78 n n s 24 23 20
90 m 68 s s s 22 20 18
91 h 73 n n n 21 20 17
92 m 64 n n n 21 20 17
93 h 75 n n n 23 22 19
94 h 63 n n n 23 23 21
95 m 79 n n n 20 19 16
96 m 77 s n s 24 20 16
97 m 76 n n s 23 22 19
98 m 62 n s n 22 21 19
99 h 70 n n s 24 23 21
100 m 73 n n s 20 20 16

A.Técnicas descriptivas:

  1. Calcular la media, desviación estándar, mediana, primer y tercer cuartil, rango y rango intercuartílico de la variable MM0.
  2. Hacer una estadística básica de la variable Edad (Media y desviación estándar o Mediana y rango intercuartílico).
  3. Hacer un Box-Plot de la variable MM5.
  4. Hacer una estadística de la variable Diabetes.

B.Técnicas de relación:

  1. Calcular la correlación entre la Edad y el MM en el diagnóstico (MM0).

2. Crear una función que pronostique el MM5 a partir del MM0. Valorar la capacidad predictiva.

3. Ver si hay relación entre el sexo y el que en cinco años disminuya más de cuatro (o sea, cinco o más) puntos el MM desde el diagnóstico.

4. Calcular la Odds ratio para ver si hay riesgo o protección, cuantificándolo, entre tener algún problema de riesgo vascular (Enfermedad vascular central, periférica o diabetes) y que en cinco años disminuya más de cuatro (o sea, cinco o más) puntos el MM desde el diagnóstico.

C.Técnicas de comparación:

  1. Comparar si hay diferencias estadísticamente significativas en el nivel del MM a los cinco años (MM5) entre hombre y mujeres.
  2. Comparar si hay diferencias estadísticamente significativas en el nivel de diferencia entre MMO y MM5 (o sea, la caída del MM entre el diagnóstico y los 5 años desde el diagnóstico) entre los que tienen o no algún problema vascular.

 

Situaciones de comparación de dos poblaciones en el mundo Pokémon

Todo lo preparado en este fichero lo ha hecho un alumno al que quisiera agradecer mucho el trabajo realizado. Su nombre es Manel Montblanch Berga.

1. Se ha pedido si se sabía cómo afectaba la pesca de arrastre a las poblaciones de Horsea a 50 estudiantes de Submarinismo y 50 Entrenadores Pokemon. La muestra se ha tomado en igualdad de edades y proporción de sexos. Entre los estudiantes de Submarinismo 14 de los 50 han sabido responder bien a la pregunta y, entre los entrenadores, sólo 5 de 50 lo han hecho correctamente. A partir de este estudio y de esta muestra, ¿se puede decir que hay diferencias, estadísticamente significativas, entre estas personas con diferente oficio/estudios en cuanto al efecto causado por la pesca de arrastre a las poblaciones de Horsea?

2. Se ha aplicado un tratamiento de Bayas Atania para relajar a unos Tentacruel salvajes machos y hembras adormilados en medio de la ruta 118 en Hoenn. En las Tentacruel hembras 5 de 20 respondían favorablemente al tratamiento, en los Tentacruel macho 3 de 20 eran los que respondían favorablemente. ¿Se puede decir que hay diferencias significativas entre sexos en cuanto a la respuesta a este tratamiento?

3. Un centro de investigación de energías naturales que pretende usar la electricidad de Chinchou bien cuidados en las mismas condiciones, decide hacer el siguiente estudio piloto. A un grupo de 100 Chinchou se les ha examinado mediante dos test de electricidad de distintos ataques eléctricos. En primer lugar, a 50 de ellos se les ha pedido que usen impactruenos en una diana con un voltímetro y a otros 50 que usen chispa en otras dianas con voltímetros. Una vez hecho el primer test, se les daban 4 horas de descanso a todos y, luego, cada Chinchou hacia el otro modelo de test. Cada test se evaluaba con un rango de 100 a 1000 voltios, pero, en realidad se quería ver si llegaban o no a los 500 voltios (>500 voltios= apto) con cada ataque porque lo que se quería ver era si el porcentaje de aptos sería el mismo o no usando diferentes ataques. Los resultados obtenidos fueron los siguientes: El ataque impactrueno el 60% fue apto y el ataque chispa el 48% lo fue, con este desglose por subgrupos de valores de la variable:

4. Se quiere comparar las velocidades que pueden alcanzar los Finneon y su evolución Lumineon. Para ello se han usado 9 Finneon de entrenadores y 9 Lumineon de otros entrenadores, todos ellos voluntarios. Mediante una serie de pruebas de natación se evalúan las velocidades de cada uno de estos Pokemon. Las velocidades se miden en metros/segundos y los valores obtenidos son los siguientes:

 

¿Podemos decir que hay diferencias estadísticamente significativas en cuanto a las velocidades de ambas evoluciones de Pokemon?

5. Estamos comparando la cantidad de Slowpoke atacados por la caza furtiva con el fin de comercializar sus colas como alimento que hubo en las regiones de Hoenn y Kalos. En Hoenn hubo 8 acontecimientos y en Kalos 7. Una vez completado los recuentos obtuvimos la siguiente tabla:

¿Podemos afirmar que las diferencias son estadísticamente significativas?

6.Hemos tomado 14 Spheals de entrenadores y entrenadoras al azar del club náutico de Alola (8 machos y 6 hembras) y hemos visto cuantas volteretas pueden dar seguidas. Los resultados obtenidos son los siguientes:

¿Podemos afirmar que las diferencias son estadísticamente significativas?

7. Se ha realizado un estudio sobre la producción de toxinas creadas por Mareanie en diversos puntos de las costas de la ruta 13 en Teselia, y al cabo de 4 años se ha repetido el mismo estudio en las mismas zonas. Se trataba de ver si la producción de toxinas había disminuido o serían estables. Los resultados fueron los siguientes:

¿Podemos afirmar que hay diferencias estadísticamente significativas entre los dos tiempos?

8. Estamos analizando el número de “blooms” bioluminiscentes causados por dinoflagelados que ha habido del día 1 al 9 de mayo, realizando una cuenta diferente cada día, y el número de “blooms” que ha habido los mismos días, pero en el mes de septiembre:

¿Podemos afirmar que hay diferencias significativas entre los dos meses?

Situaciones de comparación de dos poblaciones en Ciencias del Mar

Todo lo preparado en este fichero lo ha hecho un alumno al que quisiera agradecer mucho el trabajo realizado. Su nombre es Arnau Subías Baratau.

1.Se ha estudiado la presencia de microplásticos en dos poblaciones de 50 individuos de zooplancton. La primera población se encontraba en el Océano Índico y la segunda en el Océano Antártico. En la población del Índico, 14 de 50 presentaban microplásticos en su interior, en la del Antártico, sólo 5 de 50. ¿Se puede decir que hay diferencias, estadísticamente significativas, entre estos dos grupos de zooplancton, en cuanto a la presencia de microplásticos dependiendo de su localización?

2.Se ha preguntado a un grupo de mujeres y hombres si estaban de acuerdo con la aplicación de bolsas hidrosolubles para reducir la contaminación oceánica causada por los residuos plásticos. Entre las mujeres 5 de 20 personas estaban de acuerdo con la iniciativa, entre los hombres, sólo 3 de 20 estaban de acuerdo con la iniciativa. ¿Se puede decir que hay diferencias significativas entre sexos en cuanto a la opinión sobre tal iniciativa?

3.Se ha realizado un estudio para estudiar la acidificación en un grupo de 100 corales rojos. Cada coral se colocaba en dos medios con pH diferente. En primer lugar, a 50 de ellos se les colocaba en el medio A y a los otros 50 en el medio B, de pH un poco más ácido, durante un mes. Se dejaba entonces a todos ellos un mes en un medio de igual pH y, al mes siguiente, se colocaba a cada coral en el otro medio. La variable contemplada era si la tonalidad roja del coral (evaluada entre el 0 y el 10), durante el mes que vivía en el medio, era o no superior a 5. Los resultados obtenidos fueron los siguientes:

¿Se puede decir que el porcentaje de los que tienen igual o más de 5 de tonalidad de color rojo es distinto según el tratamiento A o el B?

4.Se quiere analizar la eficacia de un geolocalizador en una población de tiburón blanco. Para ello, se utilizan 18 individuos de tiburón y, a 9 de ellos se les aplica el geolocalizador A y a los 9 restantes el geolocalizador B. La eficacia de dicho localizador se valora del 0 al 10:

¿Podemos decir que hay diferencias estadísticamente significativas en cuanto a la eficacia de ambos geolocalizadores?

5.Estamos analizando la presencia de erizos de mar en las Islas Baleares y en las Islas Canarias. Para ello delimitamos 8 zonas costeras en las Baleares i 7 en las Canarias. Una vez hecho esto apuntamos la cantidad de erizos que observamos en cada zona:

¿Podemos afirmar que las diferencias entre Baleares y Canarias, en cuánto a la presencia de erizos, son estadísticamente significativas?

6.Estamos comparando la cantidad de huevos de tortuga que hay en dos playas diferentes de Costa Rica. En la primera playa se consigue observar la puesta de huevos de 8 tortugas y en la segunda, sólo de 6. En cada puesta se cuentan los huevos que hay:

¿Podemos afirmar que las diferencias son estadísticamente significativas?

7.Se ha analizado la concentración de fitoplancton (en alguna unidad característica) en una serie de zonas oceánicas alrededor del mundo. Dicho análisis se ha hecho dos veces en cada zona, uno en el mes de abril y otro en agosto:

¿Podemos decir que hay un descenso significativo de la concentración de fitoplancton dependiendo del mes en que nos encontremos?

8.Estamos analizando el número de “blooms” bioluminiscentes causados por dinoflagelados que ha habido del día 1 al 9 de mayo, realizando una cuenta diferente cada día, y el número de “blooms” que ha habido los mismos días, pero en el mes de septiembre:

¿Podemos afirmar que hay diferencias significativas entre los dos meses?

Ejemplos de ANOVA

A continuación se podrán seguir una serie de ejemplos de ANOVA. Hay de factores cruzados, anidados. Factores intersujetos (los que no se mencionan expresamente), factores intrasujetos. Pueden verse los valores y los resultados que se obtendrían en los contrastes de hipótesis de los diferentes efectos a buscar en cada análisis. Recordemos que si el p-valor es menor de 0.05 se entiende que hay efecto del factor, significativo, lo que quiere decir que hay diferencia entre los niveles estudiados (si el factor es fijo) o entre la población de niveles de los que los niveles estudiados son una muestra (si el factor es aleatorio). Si el p-valor es mayor de 0.05 no hay efecto significativo, lo que quiere decir que las posibles diferencias muestrales que podamos ver entre los diferentes niveles no son extrapolables a la población.

Base de datos de Obesidad

Tenemos la siguiente base de datos.

P=Paciente

S=Sexo

E=Edad

P=Peso

A=Altura

IMC=Índice de masa corporal

Di=Diabetes

H=Hipertensión

De=Depresión

TS=Trastorno del sueño

TA=Trastorno de la alimentación

P S E P A IMC Di H De TS TA
1 h 35 75 1,7 25,95 Si Si No No Si
2 m 57 88 1,59 34,81 No Si No No No
3 h 40 81 1,66 29,39 No No No Si No
4 h 46 73 1,66 26,49 No No No Si Si
5 m 67 97 1,68 34,37 No No Si Si No
6 m 68 99 1,58 39,66 Si No Si No Si
7 m 65 85 1,56 34,93 Si Si No No No
8 h 60 70 1,65 25,71 Si Si No No Si
9 h 56 94 1,72 31,77 No Si No No No
10 m 66 68 1,51 29,82 No No No No No
11 h 54 87 1,73 29,07 No Si No No Si
12 h 52 87 1,82 26,26 No Si No No No
13 m 65 82 1,58 32,85 No Si Si No Si
14 m 55 79 1,55 32,88 No Si Si No No
15 m 67 91 1,61 35,11 Si No Si Si Si
16 h 45 96 1,78 30,30 No No No Si No
17 h 44 92 1,8 28,40 No No No No Si
18 m 38 65 1,6 25,39 No No No No No
19 h 34 75 1,7 25,95 No Si No No No
20 h 39 84 1,67 30,12 Si Si No No Si
21 m 44 81 1,66 29,39 Si Si No No Si
22 m 44 73 1,66 26,49 Si No Si Si No
23 m 43 97 1,68 34,37 No Si Si Si No
24 h 48 95 1,58 38,05 No Si No No Si
25 h 50 89 1,56 36,57 No Si Si Si No
26 m 44 71 1,65 26,08 No No No No No
27 h 57 94 1,72 31,77 No No No No Si
28 m 59 68 1,51 29,82 Si No Si Si Si
29 h 44 91 1,73 30,41 No No No Si No
30 h 36 83 1,82 25,06 No Si No No Si
31 m 39 86 1,58 34,45 No Si Si Si No
32 m 56 75 1,55 31,22 No Si No No No
33 m 55 87 1,61 33,56 Si No No Si Si
34 h 28 96 1,78 30,30 Si Si No No Si
35 h 38 96 1,8 29,63 No Si No No No
36 m 55 69 1,6 26,95 No Si No No No
37 h 45 79 1,7 27,34 No Si No No No
38 h 35 84 1,78 26,51 No Si Si Si No
39 m 46 81 1,66 29,39 Si No Si Si Si
40 m 57 73 1,66 26,49 Si Si Si Si No
41 m 55 82 1,68 29,05 Si Si No No Si
42 h 47 90 1,81 27,47 No Si No No Si
43 h 44 85 1,74 28,08 No Si No No No
44 m 49 70 1,65 25,71 No No No No No
45 h 66 98 1,72 33,13 No No No Si No
46 h 43 84 1,79 26,22 No No No No No
47 m 67 91 1,73 30,41 No No Si Si No
48 m 77 87 1,82 26,26 No Si Si Si No
49 m 74 82 1,58 32,85 Si Si No No Si
50 h 45 79 1,55 32,88 Si Si No No Si
51 h 49 91 1,61 35,11 Si No No No Si
52 m 57 96 1,78 30,30 No Si No No No
53 h 62 92 1,8 28,40 No No No No No
54 m 49 69 1,6 26,95 No Si No Si No
55 h 34 90 1,7 31,14 No Si No No No
56 h 55 93 1,73 31,07 No Si No No No
57 m 28 87 1,63 32,74 No No Si Si No
58 m 38 75 1,7 25,95 Si Si Si Si Si
59 m 55 84 1,59 33,23 No Si No No No
60 h 45 77 1,66 27,94 No Si No No No
61 h 35 73 1,66 26,49 No Si No No No
62 m 46 70 1,6 27,34 No Si No No No
63 h 57 95 1,58 38,05 Si No No Si Si
64 m 55 85 1,78 26,83 No Si No No No
65 m 47 70 1,62 26,67 No Si Si Si No
66 m 44 98 1,6 38,28 No Si Si No No
67 h 49 88 1,7 30,45 No Si No No No
68 h 56 91 1,73 30,41 Si No Si No Si
69 m 66 87 1,7 30,10 Si Si No Si Si
70 h 54 98 1,86 28,33 Si Si No No Si
71 m 52 79 1,66 28,67 No Si Si Si No
72 h 65 87 1,83 25,98 No No No No No
73 h 55 96 1,8 29,63 No Si No No Si
74 m 67 96 1,58 38,46 No Si Si Si No
75 m 45 65 1,56 26,71 No Si No No Si
76 m 44 94 1,65 34,53 No No No No No
77 h 38 90 1,72 30,42 Si Si No No Si
78 h 34 81 1,51 35,52 No Si No No No
79 m 39 87 1,65 31,96 No Si No No Si
80 h 44 93 1,82 28,08 No Si No No No
81 h 38 77 1,58 30,84 No Si No No No
82 m 71 71 1,55 29,55 Si No Si Si No
83 m 78 67 1,61 25,85 Si Si Si Si Si
84 m 55 80 1,57 32,46 Si Si No No Si
85 h 44 70 1,56 28,76 No Si No No No
86 h 43 94 1,72 31,77 No Si No No No
87 m 48 64 1,51 28,07 No Si No No No
88 h 50 87 1,73 29,07 No No No No No
89 h 39 83 1,82 25,06 No Si No No No
90 m 44 86 1,58 34,45 Si Si Si Si Si
91 m 38 75 1,55 31,22 No Si Si Si No
92 m 34 71 1,61 27,39 No No No No No
93 h 39 85 1,78 26,83 No No No No Si
94 h 55 96 1,8 29,63 No No No No No
95 m 72 65 1,6 25,39 Si No No No No
96 h 43 90 1,7 31,14 Si Si No No Si
97 m 48 93 1,73 31,07 No Si Si No No
98 h 50 79 1,7 27,34 No Si Si Si No
99 h 45 88 1,6 34,38 No No No Si Si
100 m 58 81 1,66 29,39 No Si No No Si

1.Estadística descriptiva

a) Hacer una descriptiva completa de la variable IMC.

b)Hacer una descritiva breve de la variable edad.

c)Hacer una descriptiva de la variable depresión.

2.Técnicas de relación

a)Calcular la correlación de Pearson entre la altura y el IMC.

b)Analizar si hay relación entre sexo y depresión.

c)Analizar si tener obesidad respecto a tener sobrepeso (Sobrepeso: 25<IMC<30. Obesidad: IMC>30) es un factor de riesgo para tener depresión.

3.Técnicas de comparación

a)Comprobar si ha diferencias estadísticamente significativas entre hombres y mujeres en cuanto la variable IMC.

b)Estamos interesados en saber si hay diferencias significativas entre los que tienen o no depresión en cuanto a una variable que consistirá en evaluar unas puntuaciones individuales que asignan un punto por tener cada una de las siguientes características: más de 50 años, obesidad, diabetes, hipertensión, trastorno del sueño, trastorno de la alimentación.

Base de datos de Oceanografía

Variables del estudio:

Z=Zona

P=Profundidad

T00=Temperatura el año 2000

S00=Salinidad el año 2000

C00=Clorofila el año 2000

B00=Biomasa el año 2000

T15=Temperatura el año 2015

S15=Salinidad el año 2015

C15=Clorofila el año 2015

B15=Biomasa el año 2015

Base de datos:

Z P T00 S00 C00 B00 T15 S15 C15 B15
1 0 16,3 33,3 5,3 10,7 16,4 33,3 6,2 9,7
1 0 16,2 33,4 5,5 11,1 16,2 33,4 6,3 10,2
1 0 16,1 33,3 5,4 11,1 16,1 33,3 6,2 10,1
1 0 16,3 33,3 5,0 10,4 16,3 33,3 5,9 9,4
1 0 16,3 33,3 5,0 10,5 16,4 33,3 5,8 9,5
1 0 16,4 33,3 5,1 10,3 16,5 33,4 6,0 9,4
1 0 16,3 33,4 5,0 10,3 16,4 33,4 5,9 9,4
1 0 16,5 33,4 5,4 10,9 16,5 33,4 6,3 10,0
1 0 16,3 33,3 5,1 10,3 16,4 33,3 6,0 9,3
1 0 16,2 33,4 5,3 10,7 16,2 33,4 6,1 9,7
1 10 15,6 33,4 3,1 6,6 15,7 33,4 3,9 5,6
1 10 15,3 33,3 3,3 6,9 15,4 33,3 4,2 6,0
1 10 15,9 33,4 3,2 6,5 16,0 33,4 4,0 5,5
1 10 15,1 33,4 3,4 6,8 15,2 33,4 4,2 5,8
1 10 15,2 33,3 3,5 7,0 15,2 33,4 4,3 6,1
1 10 15,9 33,3 3,4 7,1 16,0 33,4 4,2 6,1
1 10 15,8 33,3 3,2 6,8 15,9 33,4 4,0 5,9
1 10 15,1 33,3 3,0 6,6 15,2 33,4 3,9 5,6
1 10 15,3 33,3 3,5 7,3 15,4 33,3 4,3 6,3
1 10 15,3 33,3 3,3 6,6 15,3 33,4 4,1 5,6
1 20 14,2 33,4 1,1 2,2 14,3 33,4 1,9 1,3
1 20 14,2 33,4 1,1 2,7 14,2 33,4 2,0 1,7
1 20 14,1 33,4 1,2 2,5 14,2 33,4 2,0 1,5
1 20 14,2 33,4 1,1 2,5 14,2 33,4 1,9 1,5
1 20 14,2 33,3 1,0 2,2 14,2 33,4 1,9 1,2
1 20 14,1 33,4 1,2 2,8 14,1 33,4 2,0 1,9
1 20 14,2 33,3 1,1 2,4 14,2 33,4 1,9 1,5
1 20 14,3 33,4 1,0 2,1 14,3 33,4 1,9 1,1
1 20 14,2 33,3 1,1 2,5 14,3 33,3 2,0 1,5
1 20 14,3 33,3 1,1 2,4 14,3 33,4 1,9 1,4
2 0 16,8 34,1 5,3 10,7 16,8 34,2 6,1 9,8
2 0 16,7 34,1 5,3 10,6 16,8 34,2 6,1 9,6
2 0 16,6 34,2 5,1 10,2 16,7 34,2 5,9 9,2
2 0 16,8 34,2 5,2 10,9 16,8 34,2 6,0 9,9
2 0 16,8 34,2 5,3 11,0 16,8 34,2 6,2 10,1
2 0 16,9 34,2 5,5 11,0 17,0 34,2 6,3 10,0
2 0 16,8 34,1 5,3 10,6 16,9 34,2 6,2 9,7
2 0 17,0 34,2 5,1 10,4 17,0 34,2 5,9 9,4
2 0 16,8 34,2 5,5 11,2 16,9 34,2 6,3 10,2
2 0 16,7 34,2 5,0 10,3 16,7 34,2 5,9 9,3
2 10 16,1 34,2 3,4 6,9 16,1 34,2 4,2 6,0
2 10 15,8 34,1 3,0 6,4 15,9 34,2 3,9 5,5
2 10 16,4 34,1 3,2 6,5 16,4 34,1 4,1 5,5
2 10 15,6 34,1 3,1 6,4 15,7 34,2 4,0 5,5
2 10 15,7 34,2 3,4 6,9 15,7 34,2 4,2 5,9
2 10 16,4 34,1 3,0 6,3 16,4 34,2 3,8 5,3
2 10 15,8 34,2 3,5 7,4 15,9 34,2 4,3 6,5
2 10 16,4 34,1 3,1 6,6 16,5 34,2 4,0 5,7
2 10 15,6 34,2 3,2 6,4 15,6 34,3 4,0 5,4
2 10 15,3 34,2 3,5 7,4 15,4 34,2 4,3 6,4
2 20 14,7 34,2 1,2 2,8 14,7 34,2 2,0 1,8
2 20 14,7 34,2 1,0 2,4 14,7 34,2 1,9 1,4
2 20 14,6 34,1 1,0 2,4 14,7 34,1 1,9 1,4
2 20 14,7 34,1 1,1 2,5 14,7 34,2 1,9 1,6
2 20 14,8 34,2 1,1 2,4 14,9 34,2 1,9 1,5
2 20 14,7 34,2 1,2 2,5 14,7 34,2 2,0 1,5
2 20 14,7 34,1 1,0 2,4 14,8 34,2 1,8 1,4
2 20 14,6 34,1 1,1 2,5 14,6 34,2 2,0 1,5
2 20 14,7 34,2 1,1 2,4 14,8 34,2 1,9 1,4
2 20 14,6 34,1 1,1 2,6 14,7 34,2 1,9 1,6
3 0 16,1 35,0 8,0 16,4 16,2 35,1 7,8 14,5
3 0 16,3 35,0 8,4 17,0 16,3 35,0 8,2 15,0
3 0 15,9 35,1 8,0 16,4 16,0 35,1 7,8 14,5
3 0 16,1 35,0 8,3 16,9 16,2 35,1 8,0 15,0
3 0 16,1 35,1 8,0 16,5 16,2 35,1 7,8 14,6
3 0 16,2 35,0 8,5 17,3 16,3 35,1 8,2 15,3
3 0 16,1 35,1 8,1 16,5 16,1 35,1 7,9 14,5
3 0 16,2 35,0 8,1 16,6 16,2 35,0 7,8 14,6
3 0 16,1 35,0 8,3 16,6 16,2 35,1 8,0 14,6
3 0 16,1 35,0 8,5 17,3 16,1 35,0 8,2 15,3
3 10 15,4 35,0 1,1 2,3 15,5 35,1 0,8 0,3
3 10 15,1 35,0 1,1 2,2 15,2 35,1 0,8 0,3
3 10 15,7 35,0 1,1 2,4 15,7 35,0 0,8 0,4
3 10 14,8 35,1 1,2 2,6 14,9 35,1 0,9 0,7
3 10 15,0 35,0 1,0 2,4 15,1 35,1 0,7 0,5
3 10 15,7 35,1 1,1 2,5 15,8 35,1 0,9 0,6
3 10 15,6 35,0 1,1 2,4 15,7 35,0 0,9 0,4
3 10 14,9 35,0 1,1 2,5 15,0 35,0 0,8 0,6
3 10 15,1 35,0 1,1 2,6 15,2 35,1 0,9 0,7
3 10 15,1 35,1 1,0 2,1 15,2 35,1 0,8 0,1
3 20 14,0 35,0 1,1 2,5 14,0 35,1 0,9 0,6
3 20 14,0 35,0 1,1 2,5 14,0 35,1 0,8 0,5
3 20 13,9 35,0 1,0 2,3 13,9 35,0 0,7 0,4
3 20 14,1 35,1 1,0 2,2 14,2 35,1 0,8 0,3
3 20 14,0 35,0 1,1 2,2 14,0 35,1 0,8 0,2
3 20 13,9 35,0 1,1 2,3 14,0 35,1 0,8 0,4
3 20 14,0 35,0 1,2 2,7 14,1 35,1 0,9 0,7
3 20 14,1 35,0 1,1 2,2 14,1 35,1 0,8 0,3
3 20 14,0 35,0 1,1 2,5 14,0 35,1 0,9 0,6
3 20 14,2 35,0 1,0 2,2 14,2 35,1 0,8 0,2