Archivo de la categoría: PROBLEMAS

Situación 149: Examen (Temas 1-16)

1.En la muestra (1, 1, 3, 3, 4, 5, 5, 5, 7):

a.La mediana es 3,5.

b.El primer cuartil es 3.

c. El rango intercuartílico es 3.

d.El percentil 75 es 6.

2.En un estudio oceanográfico donde relacionamos dos variables tenemos la siguiente correlación de Pearson r=-0.8 IC95%: (-1, 0.1). Podemos decir:

a.La correlación es significativa porque la R2 es superior al 50%.

b.No podemos decir nada sobre la significación porque no tenemos un p-valor.

c.La correlación no es significativa porque la correlación poblacional podría ser 0.

d.La correlación no es significativa porque el intervalo de confianza es muy amplio.

3.Estamos interesados en saber en cuántos puntos de una playa se supera un cierto nivel de un contaminante. Para ello se toman al azar 400 muestras a lo largo del río. En 20 de ellas se supera ese nivel. Un intervalo de confianza del 95% del porcentaje de puntos del río donde se supera dicho nivel es:

a.(2.82, 7.18).

b.(1.73, 8.27).

c.(3.91, 6.09).

d.(0.64, 9.36).

4.¿Cuál de las siguientes afirmaciones no es cierta?

a.La ji-cuadrado evalúa si hay relación entre dos variables cualitativas.

b.Si coeficiente de determinación es superior al 50% sólo podremos hablar de buena capacidad predictiva si el p-valor de la correlación es superior a 0.05.

c.La significación de una V de Crámer la podemos evaluar con el p-valor de la ji-cuadrado.

d.Si la tabla de contingencias observada y la tabla de contingencias esperada son iguales el p-valor será 1.

5.En cuál de las siguientes regresiones lineales simples podremos hacer peores predicciones:

a)y=0.02x+1; IC del 95% de la correlación (0.1, 0.2).

b)y=4000x+1; IC del 95% de la correlación (0.05, 0.3)

c)y=0.7x-34; IC del 95% de la correlación (0.3, 0.8)

d)y=3x+20; IC del 95% de la correlación (-0.1, 0.4).

6.Estamos tratando de asociar la presencia o la ausencia de una especie fitoplanctónica con la presencia o ausencia de una especie zooplanctónica en muestras marinas de distintas zonas del mediterráneo. Hemos codificado la ausencia con un 0 y la presencia con un 1. Hemos aplicado la ji-cuadrado de Pearson y nos da una p=0.001, podemos decir:

a.Que hay una relación significativa entre esas dos variables.

b.Que la relación no tiene suficiente capacidad predictiva.

c.Que la significación dependerá del tamaño de muestra que tengamos.

d.Que hubiéramos tenido que calcular una correlación de Pearson, no una ji-cuadrado de Pearson.

7.¿Cuál de las siguientes afirmaciones es cierta?:

a.La comprobación de la normalidad la hacemos con el test de la t de Student.

b.Si se aplica una t de Student de muestras independientes y varianzas desiguales en una de las dos muestras o en las dos no hay suficientes ajuste a la distribución normal.

c.Si dos intervalos de la media no se solapan en dos muestras independientes podemos afirmar que el p-valor en un contraste de hipótesis de igualdad de medias es inferior a 0.05.

d.Ninguna de las tres afirmaciones anteriores es cierta.

8.¿Cuál de las siguientes afirmaciones es cierta?:

a.En una regresión si la R2 es superior al 50% tenemos una relación estadísticamente significativa entre las variables de la regresión.

b. La R2 es menor del 50% no existe relación estadísticamente significativa entre las variables.

c.Una correlación estadísticamente significativa genera una R2 superior al 50%.

d.Ninguna de las afirmaciones anteriores es cierta.

9.Estamos relacionando en tres zonas distintas la presencia de cuatro especies distintas del zooplancton. Hemos aplicado una ji-cuadrado y el valor es 4.02. Entonces:

a.No podemos decir que hay relación porque 4.02 es menor que 21.02.

b.No podemos decir que hay relación porque 4.02 es menor que 12.59.

c.No podemos decir que hay relación estadísticamente significativa porque 4.02 es mayor que 3.84.

d.Podemos decir que hay relación estadísticamente significativa porque 4.02 es mayor que 3.84.

10.Un intervalo de confianza del 95% descriptivo de la variable en una muestra con media muestral 20, desviación estándar 1 y tamaño muestral de 100 es:

a.(17, 23).

b.(19.7, 20.5).

c.(19.8, 20.2).

d.(18, 22).

11.¿Cuál de las siguientes afirmaciones es cierta?

a.Si en una comparación la potencia estadística superior al 80% habrá diferencias estadísticamente significativas.

b.En el test de la t de Student de muestras relacionadas se comparan medianas.

c.En una técnica de comparación de muestras independientes con un intervalo de confianza del 95% de la resta de las medias de (-0.9, 1.12) podemos decir que el test de comparación de medias tendría un p-valor inferior a 0.05.

d.En un ANOVA de un factor con tres niveles si los intervalos de confianza de las medias son (1.2, 2.7), (1.9, 3.1) y (2.3, 3.8) el p-valor nos dará superior a 0.05.

12.En un estudio donde se quiere comparar la cantidad de un contaminante en las playas de dos poblaciones distintas tenemos 50 observaciones en cada una de las dos playas. El test de Shapiro-Wilk de ambas muestras nos proporciona un p-valor de 0.001. El test de Fisher-Snedecor nos proporciona una p=0.1. Es cierto lo siguiente:

a.Debemos aplicar el test de la t de Student para varianzas desiguales.

b.Debemos aplicar el test de la t de Student para varianzas iguales.

c.Debemos aplicar el test exacto de Fisher.

d.Debemos aplicar el test de Mann-Whitney.

13.En un estudio de comparación de dos poblaciones partimos de unos datos iniciales concretos y calculamos el p-valor con la técnica adecuada. Seguidamente aumentamos el tamaño de muestra de ambas poblaciones obteniendo la misma media y desviación estándar en ambas muestras y volvemos a calcular el p-valor. Después detectamos que la desviación estándar era más alta de la que habíamos calculado y volvemos a calcular el p-valor. Finalmente, detectamos que la diferencia de medias es más grande de la que habíamos calculado previamente y volvemos a calcular el p-valor. ¿Cuál de las siguientes es la secuencia de p-valores que podríamos tener?

a.0.54/0.23/0.25/0.12.

b.0.66/0.76/0.44/0.22.

c.0.23/0.45/0.34/0.23.

d.0.23/0.21/0.29/0.51.

14.Se analiza el porcentaje de una especie en el fitoplancton en 20 puntos del océano pacífico y 20 puntos del océano atlántico. ¿En cuál de los casos podemos decir que no hay diferencias estadísticamente significativas?

a.Pacífico: IC 95%: (23.4, 28.5); Atlántico: IC 95%: (22.4, 27.4).

b.Pacífico: IC 95%: (10.4, 12.3); Atlántico: IC 95%: (12.9, 17.2).

c.Pacífico: IC 95%: (33.5, 36.5); Atlántico: IC 95%: (37.2, 39.9).

d.Pacífico: IC 95%: (21.1, 21.1); Atlántico: IC 95%: (21.3, 21.8)

15.Hemos analizado la cantidad de biomasa en una zona en dos tiempos distintos (T1 y T2). El análisis lo han realizado tres operadores, tres analistas distintos que se quieren comparar. Cada muestra cada operario la analiza por duplicado. Los resultados son los siguientes:

¿Cuál es la afirmación no es cierta?:

a.Factor T: p>0.05.

b.Interacción: p<0.05.

c.Factor Op: p<0.05.

d.Operario con un grupo homogéneo.

16.Supongamos que hemos tomado tres embalses españoles al azar con la voluntad de conocer la variabilidad que hay en ellos de un determinado contaminante. Tomamos tres subzonas también al azar, en cada embalse, para conocer la variabilidad interna dentro de los embalses. Queremos también conocer si las diferentes técnicas definidas para evaluar este contaminante presentan variación (hay unas quince que se han definido en la bibliografía). Para ello elegimos dos de ellas al azar y las evaluamos por triplicado en cada muestra que tenemos. Los resultados son los siguientes:

¿Qué modelo tenemos?

a.Los tres factores son significativos.

b.Sólo es significativo el factor subzona.

c.Sólo es significativo el factor Emblases.

d.Ningún factor es significativo.

17.¿Qué error podríamos estar cometiendo si al comparar dos tratamientos tenemos una potencia del 90% y el p-valor que obtenemos es de 0.2?

a.No podemos cometer error porque la potencia estadística es superior al 80%.

b.El error de tipo I.

c.El error de tipo II.

d.Ambos errores: El error de tipo I y el error de tipo II.

18.Tenemos el siguiente análisis de potencia en una comparación de dos poblaciones:

¿Qué afirmación es cierta?

a.La potencia es suficiente porque es inferior al 80%.

b.Si la desviación estándar común la cambiamos de 3 a 4 la potencia disminuirá.

c.Si las medias muestras en lugar de ser 6 y 8 fueran 6 y 5 la potencia subiría.

d.Si el tamaño de muestra por grupo pasa a ser de 50 la potencia disminuirá.

19.¿Cuál de las siguientes afirmaciones es cierta?:

a. En un ANOVA de dos factores cruzados la interacción será significativa si alguno de los dos factores lo es.

b. Un intervalo de confianza del 95% de la correlación de (-0.05, 0.05) va asociado a un p-valor de 0.05.

c. Una R2 de 50% va asociado a una correlación de 0.5.

d. Con una ji-cuadrado con un valor de 3.12 podemos decir que no tenemos una relación estadísticamente significativa, independientemente del números de filas y columnas de la tabla de contingencias.

20.Se quiere hacer un pronóstico del porcentaje de peces de una especie determinada que hay en una zona. Tenemos la sospecha,  por estudios similares, que nos vamos a encontrar un valor bastante próximo al 25%. ¿Qué tamaño muestral de peces necesitamos tomar para tener un intervalo del 95% con un radio de 5%?:

a.200.

b.300.

c.675.

d.475.

 

Situación 145: Trabajo de análisis de datos en oceanografía

Etiquetas de la siguiente base de datos:

Zona.

BF=Biomasa.

D=Diversidad de Shannon-Weaver. Es un índice que evalúa la diversidad biológica.

A=Ejemplares de la especie A en un litro de muestra.

B=Ejemplares de la especie B en un litro de muestra.

Zona B D A B
1 8,86 1,33 15 36
1 8,24 1,50 18 33
1 9,82 1,25 15 35
1 9,95 1,21 14 37
1 9,19 1,21 14 36
1 8,87 1,53 18 32
1 10,16 1,13 13 38
1 7,89 1,56 18 32
1 9,55 1,23 14 38
1 9,17 1,33 15 35
1 9,45 1,34 16 34
1 7,60 1,67 20 31
1 6,66 1,98 23 29
1 6,49 2,01 24 26
1 9,29 1,23 14 38
1 6,18 2,03 24 27
1 6,73 1,94 23 27
1 9,92 1,21 14 36
1 8,71 1,53 18 33
1 10,44 1,13 13 39
1 8,15 1,56 18 32
1 9,47 1,23 14 38
1 8,99 1,33 15 37
1 9,32 1,34 16 35
1 9,98 1,21 14 36
1 8,70 1,53 18 33
1 9,85 1,13 13 37
1 7,94 1,56 18 34
1 4,93 2,51 30 20
1 9,23 1,43 17 34
1 8,75 1,34 16 35
1 8,98 1,33 15 35
1 8,78 1,34 16 36
1 8,24 1,67 20 31
1 6,01 2,23 26 24
2 6,20 2,10 25 26
2 7,07 1,88 22 30
2 6,32 2,14 25 26
2 9,28 1,33 15 37
2 9,79 1,24 14 37
2 6,18 2,11 25 25
2 7,22 1,74 20 31
2 4,77 2,45 29 23
2 6,22 2,15 25 25
2 6,64 1,90 22 28
2 7,36 1,82 21 30
2 7,54 1,72 20 30
2 2,42 2,96 35 15
2 2,57 2,90 34 16
2 5,76 2,16 25 27
2 2,78 2,83 33 19
2 3,89 2,55 30 21
2 7,23 1,70 20 32
2 4,71 2,43 29 22
2 7,18 1,94 23 29
2 6,67 1,96 23 29
2 7,78 1,69 20 32
2 9,08 1,41 16 34
2 8,69 1,52 18 32
2 7,69 1,60 19 32
2 7,07 1,89 22 29
2 6,33 1,92 23 27
2 8,49 1,57 18 32
2 1,91 3,09 37 13
2 8,58 1,60 19 33
2 7,82 1,59 19 32
2 7,89 1,62 19 31
2 8,75 1,50 17 34
2 5,14 2,34 28 22
2 4,88 2,49 29 23

Calcular:

1.Una estadística descriptiva de la variable Biomasa (Media, Mediana, Primer y tercer cuartil, Rango, Rango intercuartílico, Desviación estándar y Box-Plot). Hacerla por cada zona estudiada (Zona 1 y Zona 2).

2.Ver si hay relación entre la Biomasa y la Diversidad biológica. Intentar interpretar el resultado obtenido. Si hay relación discutir la capacidad predictiva que tendríamos para pronosticar la Diversidad conociendo la Biomasa de un lugar determinado.

3.Ver si hay relación entre la cantidad de ejemplares de A y la de ejemplares de B. ¿Existe relación entre la abundancia de cada una de estas dos especies con la Diversidad biológica?

4.Comparar la biomasa entre las dos zonas. ¿Se trata de una diferencia estadísticamente significativa?

 

 

 

Solución Situación 144

1c. Si aplicamos la fórmula del tema 3 tenemos este resultado.

2b. Tenemos un valor de ji-cuadrado por debajo del umbral más pequeño posible, que es 3.84, por lo tanto es imposible tener un p-valor menor que 0.05.

3b. Estamos ante una distribución ji-cuadrado con 21 de valor del parámetro (7×3). El umbral en esta distribución es 32.67. Como 24.89 es inferior a 32.67 estamos ante una situación donde no podemos rechazar la hipótesis nula.

4c. Estamos ante una distribución ji-cuadrado con 2 de valor del parámetro (1×2). Si observamos esa tabla de la ji-cuadrados podemos ver que si el valor de la ji-cuadrado es de 15.2 el valor crítico es 0.0005, lo que indica que esta es el área que hay a la derecha del valor de 15.2 en esta distribución.

5b. La R2 aquí no juega ningún papel porque estamos hablando de una relación entre variables cualitativas.

 

Situación 144: Examen (Temas 1-9)

Contestar y explicar brevemente la elección.

1.Estamos interesados en predecir en cuántas playas del mediterráneo tienen un nivel de un determinado contaminante por encima de un valor determinado. Para ello se toma al azar una muestra de 1000 playas. Observamos que 150 playas superan ese umbral. Un intervalo de confianza del 95% del porcentaje poblacional de playas que superan ese umbral en el mediterráneo es:

a.(11.61, 18.39).

b.(12.50, 17.50).

c.(12.74, 17.26).

d.(13.25, 16.75).

 

2.¿En cuál de estas afirmaciones hay incompatibilidad?

a.En una tabla de contingencias 3×3 con 100 valores de tamaño muestral y una ji-cuadrado de 100 con una V de Crámer de 0.707.

b.Una ji-cuadrado de 2.34 con un p-valor de 0.01.

c.En una correlación de Pearson una p=0.12 y un IC del 95% de (-0.38, 0.22).

d.Una correlación de Pearson con IC del 95% de (0.45, 0.65) y una pendiente con IC del 95% (1008, 1056)

 

3.Estamos relacionando ocho playas distintas y la abundancia de cuatro especies diferentes. El valor de la ji-cuadrado es 24.89. Entonces:

a.Podemos decir que hay relación significativa.

b.No podemos decir que hay relación significativa.

c.Falta información para saber si es o no significativa la relación.

d.Ninguna de las afirmaciones anteriores es cierta.

 

4.Estamos relacionando la presencia o no de una especie de pez en muestras tomadas en tres playas distintas. Realizamos una ji-cuadrado y nos da un valor de ji-cuadrado de 15.2. El p-valor será:

a.0.05.

b.0.001.

c.0.0005.

d.0.005.

 

5. Estamos relacionando superar o no un umbral de contaminación con si la temperatura del agua es mayor o menor de un determinado valor prefijado. Entonces, ¿cuál de las siguientes afirmaciones no es cierta?:

a.Podremos aplicar una ji-cuadrado para ver si hay relación entre ambos trastornos.

b.Si la R2 es mayor del 50% tendremos buena capacidad predictiva.

c.Podremos calcular una V de Crámer para medir la relación entre ambas variables.

d.No podremos calcular una correlación de Pearson.