Archivo de la categoría: PROBLEMAS

Situación 104: Examen (Temas 13-16)

1.¿Cuál de las siguientes afirmaciones no es cierta?

a)Si en una comparación de dos poblaciones debemos aplicar un Test de Fisher es que las muestras son independientes y que ambas se ajustan a la distribución normal.

b)En un contraste de hipótesis para evaluar el ajuste a la distribución normal un p-valor inferior a 0.05 indica que hay suficiente ajuste de los datos a la distribución normal.

c)Con una potencia superior al 80% nos podemos fiar del p-valor que tengamos.

d)Podemos tener en un ANOVA de dos factores no significativos (p-valor>0.05) y una interacción significativa (p-valor<0.05).

2.En un estudio donde se quiere comparar la cantidad de un contaminante en las playas de dos poblaciones distintas tenemos 50 observaciones en cada una de las dos playas. El test de Shapiro-Wilk de ambas muestras nos proporciona un p-valor mayor que 0.05. El test de Fisher-Snedecor nos proporciona una p=0.001. Es cierto lo siguiente:

a)Debemos aplicar el test de la t de Student para varianzas desiguales y si tenemos un p-valor inferior a 0.05 debemos concluir que las medias son diferentes.

b)Debemos aplicar el test de la t de Student para varianzas desiguales y si tenemos un p-valor inferior a 0.05 debemos concluir que las medias no son diferentes.

c)Debemos aplicar el Test de Mann-Whitney.

d)Debemos aplicar el Test de la t de Student de datos apareados.

3.Si en una comparación de dos poblaciones al aplicar el test adecuado al caso el p-valor final es 0.1 es cierto lo siguiente:

a)Si aumentamos el tamaño de muestra y disminuimos la desviación estándar el p-valor subirá.

b)Si aumentamos la desviación estándar de ambas muestras sin modificar el tamaño de muestra el p-valor bajará.

c)Si aumentamos las diferencias de medias entre ambas muestras y disminuimos la desviación estándar el p-valor bajará.

d)Si aumentamos el tamaño de muestra y disminuimos la diferencia de medias el p-valor bajará.

4.Se analiza el porcentaje de una especie en el fitoplancton en 40 puntos del océano pacífico y 40 puntos del océano atlántico. Después de un año se hace lo mismo en los mismos puntos y se vuelve a calcular el porcentaje de esa misma especie. En el pacífico en el 10% de puntos ha disminuido el porcentaje de esta especie y en el atlántico en el 5%. Queremos comparar si esa diferencia es estadísticamente significativa. Debemos aplicar:

a)El Test de proporciones.

b)El Test exacto de Fisher.

c)El Test de Wilcoxon.

d)El Test de McNemar.

5.Hemos analizado la cantidad de biomasa en tres profundidades determinadas en tres zonas del mar distintas. En cada zona y profundidad hemos tomado tres muestras en tres botellas. Los resultados son los siguientes:

captura-de-pantalla-2016-12-15-a-las-10-36-46

¿Cuál es la afirmación más razonable?:

a)Factor Z: p>0.05. Factor P: p>0.05. Interacción: p>0.05.

b)Factor Z: p<0.05. Factor P: p>0.05. Interacción: p<0.05.

c)Factor Z p>0.05. Factor P: p>0.05. Interacción: p<0.05.

d)Factor Z: p>0.05. Factor P: p<0.05. Interacción: p>0.05.

6.Queremos comparar dos políticas medio-ambientales distintas que pretenden reducir el nivel de contaminación en playas. Se han escogido dos playas piloto muy similares entre sí. En cada una de ellas se eligen 30 puntos fijos detectables perfectamente por la posición de una bolla. Tenemos dos datos del contaminante: antes de la acción medio-ambiental aplicada y un mes después de la constante aplicación de la medida. La variable estudiada es una variable cuantitativa. ¿Cuáles son los pasos a seguir?:

a)Se comprueba la normalidad del antes y del después, en cada playa, y se aplica el test de datos apareados adecuado (si hay normalidad el test de la t de Student de datos apareados y si no hay normalidad el test de Wilcoxon o el test de los signos).

b)Se comprueba la normalidad de la resta del antes menos el después, en cada playa, y se aplica el test de datos apareados adecuado (si hay normalidad el test de la t de Student de datos apareados y si no hay normalidad el test de Wilcoxon o el test de los signos).

c).Se comprueba la normalidad de la resta del antes menos el después, en cada playa, y se aplica el test de muestras independientes adecuado (si hay normalidad el test de la t de Student de muestras independientes que corresponda y si no hay normalidad el test de Mann-Whitney).

d)Se comprueba la normalidad del antes y del después, en cada playa, y se aplica el test de muestras independientes adecuado (si hay normalidad el test de la t de Student de muestras independientes que corresponda y si no hay normalidad el test de Mann-Whitney).

7.¿Qué error podríamos estar cometiendo si al comparar dos tratamientos tenemos una potencia del 50% y el p-valor que obtenemos es de 0.45?

a)El error de tipo I.

b)El error de tipo II.

c)Ambos errores: El error de tipo I y el error de tipo II.

d)No podemos cometer error en este caso porque el p-valor es claramente superior a 0.05.

8.¿Cuál de las siguientes afirmaciones no es cierta?

a)Una potencia del 85% se corresponde con un error de tipo I de 0.15.

b)Si dos muestras relacionadas de una variable cuantitativa su resta no se ajusta bien a la distribución normal debemos aplicar o el test de los signos o el test de Wilcoxon.

c)En un ANOVA de dos factores anidados no puede evaluarse la interacción entre factores.

d)Un test de Mann-Whitney puede hacerse aunque haya diferencia de varianzas significativa entre los dos grupos comparados.

9.Hemos hecho un estudio en tres playas del litoral. En cada una de ellas se ha elegido, al azar, dos subzonas. Se han tomado muestras a 0, 10 y 20 metros. Se han tomado tres botellas en cada punto de muestreo. Se ha cualificado la cantidad de un contaminante. Los resultados son los siguientes:

captura-de-pantalla-2016-12-15-a-las-10-37-00

¿Cuál es la afirmación más razonable?:

a)Estamos ante un estudio con tres factores cruzados. El factor profundidad será significativo y tendrá dos grupos homogéneos.

b)El factor profundidad será significativo y tendrá tres grupos homogéneos en las comparaciones múltiples

c)El factor subzona está anidado dentro de zona y tanto el factor zona como el factor subzona están cruzados con el factor profundidad. El factor profundidad es significativo y el factor subzona también.

d)El factor subzona está anidado dentro de zona y el factor profundidad está anidado dentro de subzona. El factor profundidad es significativo y el factor zona no.

10.Se quiere hacer un pronóstico de la media poblacional de la cantidad de un contaminante en aguas marinas. ¿Qué tamaño de muestra necesitamos tomar para tener un intervalo del 95% de radio 2 si la Desviación estándar que tenemos en una muestra piloto es de 5?:

a)20.

b)25.

c)30.

d)50.

Solución Situación 104

1b: Si el p-valor es menor que 0.05 debemos rechazar la hipótesis nula. Y en un test de ajuste a la normal la hipótesis nula es normalidad.

2a: Hay normalidad, no hay igualdad de varianzas y por lo tanto hay que aplicar un test de la t de Student de varianzas diferentes. Si el p-valor es inferior a 0.05 en este último test debemos concluir que las medias poblacionales son distintas.

3c: Aumentar el tamaño de muestra y disminuir la desviación estándar van en la misma dirección de reducir el p-valor. Por lo tanto, esta es la opción correcta.

4b: El tamaño muestral es mayor que 30 pero el valor esperado por grupo, bajo la hipótesis nula es menor que 5. El valor esperado es 3, puesto que hay 4 (10% de 40) casos en una muestra y 2 (5% de 40) en la otra.

5c: Ninguno de los dos factores será significativo y claramente hay interacción puesto que las profundidades se comportan de forma muy distinta según las zonas.

6c: Se pretende comparar dos muestras independientes, aunque hay dos valores por cada punto muestral. Deberá trabajarse con la variable resta y comprobar la normalidad de cada muestra. En función de ello se aplicará uno de los dos test de la t de Student de muestras independientes o el Test de Mann-Whitney.

7b: Como el p-valor es mayor que 0.05 mantendremos la hipótesis nula por lo que podremos estar cometiendo el error de tipo II.

8a: Si la potencia es del 85% es el error de tipo II el que será de 0.15, no el de tipo I.

9c: Subzona está anidado en zona y profundidad está cruzado con zona y subzona. Profundidad y subzona son claramente significativos.

10b: Aplicando la fórmula para el cálculo del tamaño de muestra en variables cuantitativas obtenemos este resultado.

 

Solución Situación 103

1.Se trata de un diseño con tres factores. Zona es un factor fijo, Subzona es un factor aleatorio anidado en el factor Zona. Profundidad es un factor fijo cruzado con los dos factores restantes. El modelo sería el mismo que el visto en la Situación 41.

Los factores Profundidad y Subzona parecen, viendo los datos, significativos. El factor zona, no.

2.Se trata de un diseño con tres factores. Zona es un factor fijo, Política ambiental es un factor también fijo y cruzado con el factor Zona. Laboratorio sería un factor aleatorio anidado en la interacción de los otros dos factores. El modelo sería el mismo que el visto en la Situación 45.

Los factores Zona y Política ambiental parecen significativos, viendo los datos. El factor Laboratorio, no.

3. Se trata de un diseño de tres factores. Zona es un factor fijo, Subzona es un factor aleatorio anidado en el factor Zona. Operario es también un factor aleatorio anidado en el factor Subzona. El modelo es el siguiente:

captura-de-pantalla-2016-12-16-a-las-10-14-12

El algoritmo de Bennet-Franklin nos proporciona las esperanzas de los cuadrados medios y n los cocientes que hay que hacer en la tabla ANOVA para encontrar los efectos significativos del modelo:

captura-de-pantalla-2016-12-16-a-las-10-14-24

Los factores Zona y Operario parecen significativos. Pero Subzona, no.

4.Tenemos tres factores fijos y cruzados. El modelo es:

captura-de-pantalla-2016-12-19-a-las-12-34-07

La resolución de este modelo no presenta ninguna dificultad por tratarse de factores fijos y cruzados. Todos los cocientes se realizan respecto del residuo.

Viendo los datos parece que los únicos efectos significativos serán los producidos por el factor Zona y el factor Política ambiental.

5.Estamos ante un diseño con cuatro factores. El factor zona es fijo. El factor subzona es aleatorio y anidado en el factor zona. El factor operario es también aleatorio y anidado en subzona. El factor técnica es fijo y cruzado con los otros tres factores. El modelo sería:

captura-de-pantalla-2016-12-19-a-las-12-22-28

El algoritmo de Bennet-Franklin nos proporciona las esperanzas de los cuadrados medios y n los cocientes que hay que hacer en la tabla ANOVA para encontrar los efectos significativos del modelo:

captura-de-pantalla-2016-12-19-a-las-12-22-41

Viendo los datos parecen significativos los cuatro factores.

 

Situación 103: Ejemplos de ANOVA

1. Supongamos que hemos estudiado la cantidad de un contaminante en tres zonas del litoral concretos que queremos comparar. En cada uno de ellos hemos elegido al azar dos subzonas porque queremos ver la homogeneidad que hay en cada zona. Hemos estudiado el agua a tres profundidades: 0, 10 y 20 metros. En cada punto hemos efectuado tres réplicas. Los resultados son los siguientes:

captura-de-pantalla-2016-12-15-a-las-10-37-00

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

2. Supongamos que en tres zonas que expresamente queremos comparar hemos aplicado a dos subzonas de cada una de ellas, completamente equivalentes, dos políticas medio-ambientales distintas que pretendemos también comparar. Los resultados los hemos encargado a doce laboratorios elegidos al azar con la finalidad, también, de medir el grado de fiabilidad que nos pueden aportar ellos. Cada laboratorio hace cinco réplicas de la muestra recibida. Los resultados son los siguientes:

captura-de-pantalla-2016-12-16-a-las-10-21-13

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

3. Supongamos que en tres zonas que expresamente queremos comparar hemos elegido dos subzonas al azar con la finalidad de evaluar la homogeneidad que haya dentro de las zonas. Hemos evaluado la concentración de un determinado contaminante. Hemos tomado una muestra de cada subzona y hemos encargado a diferentes estudiantes para que realicen los análisis. Cada alumno, cada operario, realizaba cuatro réplicas de una única muestra. Queríamos ver, también, el grado de dispersión que hay entre los análisis hechos por estudiantes de ciencias ambientales. Los resultados son los siguientes:

captura-de-pantalla-2016-12-16-a-las-10-33-25

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

4. Supongamos que en dos zonas que expresamente queremos comparar hemos aplicado a dos subzonas de cada una de ellas, completamente equivalentes, dos políticas medio-ambientales distintas que pretendemos también comparar. Los resultados los hemos encargado a tres laboratorios que expresamente también queremos comparar. Cada laboratorio realizaba tres réplicas de cada una de las muestras recibidas. Los resultados son los siguientes:

captura-de-pantalla-2016-12-16-a-las-10-35-47

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

5. Supongamos que en dos zonas que expresamente queremos comparar hemos elegido dos subzonas al azar con la finalidad de evaluar la homogeneidad que haya dentro de las zonas. Hemos evaluado la concentración de un determinado contaminante. Hemos tomado una muestra de cada subzona y hemos encargado a diferentes estudiantes para que realicen los análisis. Hemos evaluado, con la finalidad de compararlas, dos técnicas analíticas que existen para evaluar la concentración de ese contaminante. Cada alumno, cada operario, realizaba tres réplicas de una única muestra en cada uno de las dos técnicas. Queríamos ver, pues, también, el grado de dispersión que hay entre los análisis hechos por estudiantes de ciencias ambientales. Los resultados son los siguientes:

captura-de-pantalla-2016-12-19-a-las-12-00-10

¿Cuántos factores tenemos? ¿Son fijos, aleatorios? ¿Cómo están estructurados unos respecto de otros (cruzados, anidados)? ¿Cuál es el modelo? ¿Únicamente visualizando los datos cuáles serán los resultados que obtendremos mediante el ANOVA oportuno?

Solución Situación 102

1c: El primer cuartil es 5 y el tercero es 27, por lo que el rango intercuartílico es 22.

2c: La relación es significativa porque el p-valor es inferior a 0.05, pero la capacidad predictiva es muy mala: es sólo del 4%.

3a: Si aplicamos la fórmula de los intervalos de confianza modificándola para que haya tres errores estándares sumados y restados el intervalo es el a.

4d: Si la tabla observada y la esperada coinciden el valor de la ji-cuadrado es 0 y por lo tanto la V de Crámer es también 0.

5c: Obviamente en este caso c la correlación será de mayor magnitud y, por lo tanto, el coeficiente de determinación será el mayor de los cuatro.

6c: Obviamente estamos usando una técnica inadecuada. La correlación de Pearson es para relacionar variables cuantitativas. Deberíamos usar una ji-cuadrado.

7d: Como no sabemos qué tabla de contingencias tenemos sólo podemos afirmar lo que dice la d, porque el 3.84 es el umbral más pequeño de los que podemos tener.

8c: Cualquier pendiente que no sea 0 potencialmente puede ser estadísticamente significativa. Dependerá del intervalo de confianza del 95% que construyamos o del p-valor que tengamos.

9c: El valor de ji-cuadrado 23.33 está por encima del umbral de nivel de significación del 0.05 (21.02) pero está por debajo del umbral de nivel de significación del 0.01 (26.21).

10d: El error estándar es 1, por lo tanto el intervalos de confianza del 95% de la media es el d.

 

Situación 102: Examen (Temas 1-9)

1.En la muestra (1, 3, 5, 8, 8, 21, 27, 30, 35):

a.La mediana es 14.5.

b.El primer cuartil es 4.

c.El rango intercuartílico es 22.

d.El tercer cuartil es 30.

 

2.De una correlación r=0.2 (p=0.0001), podemos decir:

a.El tamaño muestral es pequeño porque la correlación es pequeña.

b.Hay una relación significativa entre las variables comparadas porque el coeficiente de determinación es mayor del 5%.

c.No tenemos una buena capacidad predictiva a pesar de que tenemos una correlación significativa.

d.El coeficiente de determinación es del 20%.

 

3.Estamos interesado en saber en cuántos lugares a lo largo de un río se supera un cierto nivel de un contaminante. Para ello se toman al azar 100 muestras a lo largo del río. En 15 de ellas se supera ese nivel. Un intervalo de confianza del 99.5% del porcentaje de puntos del río donde se supera dicho nivel es:

a.(4.29, 25.71).

b.(7.86, 22.14).

c.(11.43, 18.57).

d.(10.25, 14.75).

 

4.¿Cuál de las siguientes afirmaciones es cierta?

a.La ji-cuadrado mide bien la cantidad de relación que hay entre dos variables cualitativas.

b.Una correlación de Pearson es significativa si el coeficiente de determinación es superior al 50%.

c.Si la V de Crámer si es negativa indica una relación de tipo inverso entre las variables.

d.Si la tabla de contingencias observada y la tabla de contingencias esperada son iguales entonces la V de Crámer es 0.

 

5.En cuál de las siguientes regresiones lineales simples podremos hacer mejores predicciones:

a)y=-6x-10; IC del 95% de la correlación (-0.3, -0.1).

b)y=3x+3; IC del 95% de la correlación (0.3, 0.5)

c)y=-x-2; IC del 95% de la correlación (-0.8, -0.7)

d)y= 8x+2; IC del 95% de la correlación (-0.1, 0.9).

 

6.Estamos tratando de asociar la presencia o la ausencia de una especie fitoplanctónica con la presencia o ausencia de una especie zooplanctónica en muestras marinas de distintas zonas del mediterráneo. Hemos codificado la ausencia con un 0 y la presencia con un 1. Hemos calculado una correlación de Pearson y tenemos una r=0.35 (p=0.035), podemos decir:

a.Que hay una relación significativa entre esas dos variables.

b.Que relación tiene buena capacidad predictiva porque la relación es significativa.

c.Que estamos usando una técnica estadística no apropiada al caso.

d.Que necesitamos saber el tamaño de muestra para saber si esta relación es estadísticamente significativa.

 

7.Si se realiza una ji-cuadrado para analizar la relación entre dos variables cualitativas es cierto:

a.Si el valor del cálculo de la ji-cuadrado es mayor que 50 se puede considerar ya una relación estadísticamente significativa.

b.Si el p-valor es menor que 0.05 el valor del cálculo de la ji-cuadrado es menor que 3.84.

c.Si el p-valor es mayor que 0.05 el valor del cálculo de la ji-cuadrado es menor que 3.84.

d.Si el valor del cálculo de la ji-cuadrado es menor que 3.84 el p-valor será mayor que 0.05.

 

8.En una Regresión lineal simple es cierto:

a.Si la R2 es superior al 50% tenemos una relación estadísticamente significativa entre las variables de la regresión.

b.Si el p-valor de la correlación y de la pendiente es inferior a 0.05 tendremos una aceptable capacidad predictiva.

c.La ecuación de la recta y=0.0001x+20 puede ser estadísticamente significativa.

d.Si la ecuación de la recta es y=2x+3, y sabemos que es significativa, la recta y=20x+3 lo será también de significativa porque la pendiente es aún mayor.

 

9.Estamos relacionando en cuatro zonas distintas la presencia de cinco especies de peces distintos. Hemos aplicado una ji-cuadrado y el valor es 23.33. Entonces:

a.No podemos decir que hay relación porque 23.33 es mayor que 21.02.

b.No podemos decir que hay relación porque 23.33 es menor que 31.41.

c.Si el nivel de significación fuese 0.05 diríamos que hay relación pero si fuese 0.01 diríamos que no hay relación.

d.Podemos decir que hay relación estadísticamente significativa porque 23.33 es mayor que 3.84.

 

10.Un intervalo de confianza del 95% de la media en una muestra con media muestral 20, desviación estándar 20 y tamaño muestral de 400 es:

a.(-20, 60).

b.(19.5, 20.5).

c.(19, 21).

d.(18, 22).

Solución Situación 101

1b:Debe aplicarse la fórmula de la construcción de un intervalo de confianza del 95%. Aquí tenemos las dos fórmulas. La primera para una variable cuantitativa y la segunda para una variable dicotómica. En nuestro caso debemos aplicar la segunda:

IMG_8047

El cálculo es:

0,08±2x(Raíz(0,08×0,92))/Raíz(10000))

en tanto por uno, que da este intervalo de (7.46, 8.54), en tanto por ciento.

2a: El error estándar es 0.25 porque el radio del intervalo es 0.5 y como es un intervalo del 95% se ha cogido dos veces ese error estándar al construir el intervalo.

Entonces: 0.25=DE/Raíz(400). Por lo tanto, la DE es 5.

Si ahora construimos un intervalo de valores individuales del 95% debemos coger dos veces esa DE y nos da el intervalo (40, 60).

3b: El primer cuartil es 5 y el tercero es 8. Por lo que el rango intercuartílico es 3.

4b: Es el único caso donde se dice lo mismo sobre la significación de la correlación y de la pendiente.

5d: Es el único caso donde la relación es significativa y, por lo tanto, el único caso donde tiene sentido hacer una predicción y, por lo tanto, será la mejore de las posibles predicciones.

6c:Este es el único caso en el que las dos afirmaciones van en la misma dirección de la respuesta generada. En este caso si disminuimos la diferencia de medias y aumentamos la desviación estándar el p-valor subirá por las dos causas.

7c:Debemos aplicar la fórmula:

img_3388

pero con una variación: con un 9 en lugar de un 4 porque es un intervalo del 99.5%, lo que implica que hay que construir un intervalo con 3 veces el error estándar. El 9 viene de hacer el cuadrado de 3. Podemos deducirlo de las fórmula del inicio del Tema 16.

Si aplicamos esta fórmula con una p=0.2 y un radio r=0.01 porque se trabaja siempre en tanto por uno, obtenemos n=14400.

8c:El valor de referencia es 12.59 en una tabla 4×3. Como el valor de la ji-cuadrado es mayor que ese valor de referencia el p-valor será menor que 0.05.

9d:Variable dicotómica, muestras relacionadas, la técnica a aplicar es el Test de McNemar.

10a: Zona es un factor significativo. Claramente hay tres grupos homogéneos. El sexo no es significativo. Se observa claramente que en promedio no hay diferencias entre ambos sexos. Y hay interacción porque claramente dependiendo de la zona los valores de los sexos cambian.

11d: En un análisis de componentes principales siempre el número de componentes es el mismo que el número de variables originales del estudio.

12a: La Odds ratio estimada siempre debe estar dentro del intervalo de confianza construido.

13c:Es la Odds ratio con mayor relación. Veamos cuál es su equivalente del otro lado: 1/0.6=1.6666, que es mayor que 1.5. Las otras OR no hace falta valorarlas porque no son significativas.

14c: Observemos que intervalo de confianza que nos dan es del 68.5% no del 95%. Además, con lo próximo que está el 0 en este intervalo es evidente que el intervalo del 95% que será bastante mayor contendrá al 0 e indicará que no hay relación.

15c: Observemos que una OR de 5 es equivalente a una de 0.2. Si tener madre anoréxica es un factor de riesgo con OR de 5, obviamente no tenerla es un factor de protección equivalente y, por lo tanto, con OR de 0.2.

16d: El 2 está a la izquierda para la primera componente y abajo para la segunda. Para estar a la izquierda por la primera componente debe tener valores pequeños de X e Y y grandes de Z. En este caso c y de serían las opciones. Para estar abajo para la segunda componente es necesario que X sea pequeño e Y más grande. Sería el caso, pues, de la opción d.

17c:Es la respuesta incorrecta. Porque claramente no hay relación. Observad que hay un total paralelismo entre las filas. La tabla esperada será exactamente igual que la observada. Por lo tanto, a y b serán ciertas y la d también es cierta: 9.4877 es el valor umbral.

18c: Tenemos dibujados los Box-Plot. Para saber si hay diferencias significativas debemos construir los intervalos de la media y ver si se solapan y, por lo tanto, necesitamos el tamaño de muestra.

19c:La ji-cuadrado no da la significación de una V de Crámer. Como en este caso el p-valor es mayor que 0.05 esta V aunque sea muy grande no es estadísticamente significativa.

20b: En un contraste de hipótesis siempre podemos comenter un error: o el de tipo 1 ó el de tipo 2. Siempre. En este caso, debido al p-valor mantendríamos la Hipótesis nula, por lo que podríamos cometer el error de tipo 2.

Situación 101: Examen (Temas 1-17 y 19)

1.Si en un estudio sobre la prevalencia de una enfermedad psiquiátrica tenemos una muestra de tamaño 10000 de los cuales 800 tienen esa patología, un intervalo de confianza del 95% del porcentaje poblacional será:

a)(7.20, 8.80)

b)(7.46, 8.54)

c)(7.16, 8.84)

d)(7.50, 8.50)

2.En un estudio vemos que nos dan el siguiente intervalo de confianza del 95% de la media: (49.5, 50.5). Leemos que el tamaño de muestra ha sido 400. ¿Cuál es el intervalo de confianza del 95% descriptivo de la variable o, también denominado, intervalo de valores individuales de esa variable?

a)(40, 60)

b)(35, 65)

c)(30, 70)

d)(45, 55)

3.¿En cuál de las siguientes muestras el rango intercuartílico es 3?

a)(1, 3, 6, 10)

b)(1, 5, 5, 8, 12)

c)(1, 3, 3, 3, 7)

d)(1, 1, 3, 6)

4.De las siguientes afirmaciones cuál es cierta:

a)En una Regresión es compatible una pendiente con p=0.45 con un IC de confianza del 95% de la correlación de (-0.7, -0.1)

b) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.1, 3.8) con una correlación con p=0.28

c) En una Regresión es compatible una pendiente con un p-valor de 0.01 con una de la correlación  con un intervalo de confianza del 95% (-0.2, 0.3)

d) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (1.7, 3.8) con uno de la correlación de (-0.35, -0.15)

5.En cuál de las siguientes regresiones lineales simples podremos hacer mejores predicciones:

a) y=5x-5; IC del 95% de la pendiente (-1, 11)

b) y=10x-3; IC del 95% de la correlación (-0.2, 0.2)

c) y=x-2; IC del 95% de la pendiente (-1, 2)

d) y= 4x+1; IC del 95% de la correlación (0.1, 0.4)

6.Si en una comparación de dos poblaciones al aplicar el test adecuado al caso el p-valor final es 0.01 es cierto lo siguiente:

a)Si aumentamos el tamaño de muestra y disminuimos la desviación estándar el p-valor subirá.

b)Si aumentamos la desviación estándar y aumentamos la diferencia de medias el p-valor bajará.

c)Si disminuimos la diferencias de medias y aumentamos la desviación estándar el p-valor subirá.

d)Si disminuimos el tamaño de muestra y aumentamos la diferencia de medias el p-valor bajará.

7.Se quiere hacer un pronóstico del porcentaje de consumidores que tendría un producto y se quiere tener una muy buena precisión: que el radio del intervalo sea del 1% en un intervalo del 99.5%. Sabemos que un producto similar en países muy parecidos al nuestro tiene un porcentaje de consumo alrededor del 20%. ¿Cuál es el tamaño de muestra recomendable en base a esta información:

a)6400.

b)11500.

c)14400.

d)8800.

8.Si en una tabla de contingencias 4×3 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 14.55 podemos afirmar:

a)Que el p-valor es superior a 0.05 porque 14.55 es menor que el umbral que es 21.02.

b)Que el p-valor es inferior a 0.05 porque 14.55 es mayor que el umbral que es 3.84.

c)Que el p-valor es inferior a 0.05 porque 14.55 es mayor que el umbral que es 12.59.

d)Que el p-valor es superior a 0.05 porque 14.55 es menor que el umbral que es 24.99.

9.Se ensayan dos medicamentos (A y B) en 50 pacientes con Alzhéimer, en dos épocas distintas. Cada paciente recibe, pues, ambos tratamientos en épocas diferentes. El objetivo es evaluar si durante medio año el valor del Mini-Mental ha bajado o no respecto al valor basal. Con el A un 5% no baja y con el B no baja sólo un 2%. Para analizar los datos deberemos aplicar:

a)El Test de proporciones.

b)El Test exacto de Fisher.

c)El Test de Mann-Whitney.

d)El Test de McNemar.

10.Se ha hecho un estudio de valoración de la atención psicológica en pediatría entre el 1 y el 10 en cinco zonas del país y en los dos sexos (padres y madres). Los resultados obtenidos son los siguientes:

IMG_3467

a)Zona: p<0.05 con tres grupos homogéneos. Sexo: p>0.05. Interacción: p<0.05.

b)Zona: p<0.05 con tres grupos homogéneos. Sexo: p<0.05. Interacción: p<0.05.

c)Zona: p>0.05. Sexo: p>0.05. Interacción: p<0.05.

d)Zona: p<0.05 con dos grupos homogéneos. Sexo: p<0.05. Interacción: p>0.05.

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a)Un intervalo de confianza de la media del 95% es siempre más amplio que un intervalo de confianza del 99.5% también de la media.

b)En una muestra con Asimetría estandarizada entre -2 y +2 la Curtosis estandarizada también cae entre -2 y +2.

c)En el Análisis clúster la hipótesis nula afirma que hay un único grupo y la hipótesis alternativa afirma, por el contrario, que hay más de un grupo.

d)En un Análisis de componentes principales hecho a diez variables originales obtenemos diez componentes.

12.¿Cuál de estas cuatro informaciones es incoherente?

a) OR=3.1; IC 95% (0.2, 0.45); p=0.001

b) OR=2.5; IC 95% (2.1, 3.2); p=0.0001

c) OR=2.8; IC 95% (1.24, 4.95); p=0.01

d) OR=0.6; IC 95% (0.12, 1.83); p=0.34

13.¿Qué Odds ratio indica una mayor relación?

a)OR=1.5; IC 95% (1.1, 2.45)

b)OR=2; IC 95% (0.91, 5.2)

c)OR=0.6; IC 95% (0.35, 0.87)

d)OR=0.3; IC 95% (0.02, 1.34)

14.En una Regresión lineal simple es cierto:

a)Si la pendiente tiene un intervalo de confianza del 95% de (0.55, 1.5) no es estadísticamente significativa por contener al 1.

b)Si la R2 es inferior al 5% tenemos una relación que no es estadísticamente significativa entre las variables de la regresión.

c)Con una correlación r=0.3 con un intervalo de confianza del 68.5% de (0.03, 0.68) podemos decir que se trata de una correlación que no es estadísticamente significativa.

d)Una pendiente positiva o negativa pero estadísticamente significativa no puede tener una R2 menor del 50%.

15.¿Cuál de las siguientes afirmaciones es cierta?

a)Una correlación r=-0.75 (p<0.05) tendrá una pendiente de regresión negativa pero no necesariamente significativa.

b)Si en una muestra no hay normalidad, con una Asimetría estandarizada que desplaza mayoritariamente los valores hacia el lado izquierdo, por debajo del primer cuartil hay más valores que por encima del tercer cuartil.

c)Si tener madre anoréxica es un factor de riesgo para que una chica sea anoréxica con una OR=5, tener una madre sin anorexia es un factor de protección para la anorexia, con una OR=0.2.

d)El valor del percentil 75 es siempre mayor que el valor del percentil 25.

16.En un Análisis de componentes principales la primera componente principal es V=0.5X+0.5Y-0.5Z y la segunda es W=0.5X-0.5Y+0.01Z ¿Cuál de los siguientes puntos es el que está en la posición del 2?:

img_3462

a)(1, 0, 1)

b)(1, 2, 1)

c)(2, 1, 5)

d)(0, 2, 5)

17.En la tabla de contingencias siguiente:

Captura de pantalla 2016-05-29 a las 19.11.50

¿Cuál de las siguientes afirmaciones no es cierta?

a)El valor de la ji-cuadrado será 0.

b)El p-valor será 1.

c)El p-valor no será 1 porque la tabla de contingencia esperada no coincide con esta tabla observada.

d)El valor umbral a partir del cual rechazaríamos la hipótesis nula es 9.4877.

18.Hemos hecho una comparación de dos tratamientos en dos grupos diferentes. Los valores de la muestra que tenemos quedan representados de la siguiente forma mediante un Box-Plot:

IMG_3479

Si queremos hacer una comparación de medias de ambos grupos, ¿cuál de las siguientes afirmaciones es cierta?

a)Estos dos grupos constituyen un único grupo homogéneo puesto que se solapan los intervalos de confianza.

b)Las medias serán significativamente diferentes porque ya se observa que el grupo 2 tiene una media superior a la del grupo 1.

c)Necesitamos saber el tamaño de muestra para construir los intervalos de confianza de la media del 95% de cada grupo y ver si esos intervalos se solapan o no.

d)El test que deberíamos aplicar aquí es el test de proporciones.

19.¿Cuál de las siguientes afirmaciones es cierta?

a)Una Odds ratio de 0.5 con un intervalo de confianza del 95% que no contenga al cero es estadísticamente significativa.

b)Una correlación de Pearson de 0.9 con un intervalo de confianza del 95% que no contenga al uno es estadísticamente significativa.

c)Una V de Crámer de 0.9 con una ji-cuadrado con un p-valor de 0.15 implica que no hay relación significativa entre las variables cualitativas relacionadas.

d)Una R2 superior al 50% implica que la regresión lineal simple es estadísticamente significativa.

20.¿Qué error podríamos estar cometiendo si al comparar dos tratamientos el p-valor que obtenemos es de 0.25?

a)El error de tipo I.

b)El error de tipo II.

c)Ambos errores: El error de tipo I y el error de tipo II.

d)No podemos cometer error en este caso porque aceptaríamos la Hipótesis nula por ser el p-valor superior a 0.05.

Solución Situación 100

1c:Debe aplicarse la fórmula de la construcción de un intervalo de confianza del 95%. Aquí tenemos las dos fórmulas. La primera para una variable cuantitativa y la segunda para una variable dicotómica. En nuestro caso debemos aplicar la segunda:

IMG_8047

El cálculo es:

0,1±2x(Raíz(0,1×0,9))/Raíz(10000))

en tanto por uno, que da este intervalo de (9.4, 10.6), en tanto por ciento.

2c:El error estándar es 0.5 porque el radio del intervalo es 1 (porque la distancia que hay desde la media, que es 50 a cualquiera de los dos extremos del intervalo es 1) y como para construir  un intervalo del 95% de la media siempre se coge dos veces el valor de error estándar, éste error debe ser 0.5, porque dos veces 0.5 da 1.

Entonces aplicamos la fórmula del error estándar vista en el tema 3: EE=DE/Raíz(n); o sea, en nuestro caso: 0.5=DE/Raíz(400). Por lo tanto, la DE es 10.

Si ahora construimos un intervalo de valores individuales del 95% debemos coger dos veces esa DE y nos da el intervalo (30, 70). No olvidemos que los intervalos de confianza descriptivos, individuales (que significa individuo a individuo), se construyen con la DE y, en cambio, los intervalos de confianza de la media se construyen con el error estándar (EE).

3c:Con los valores (1, 2) la muestra es la que tendrá un índice de Gini mayor; o sea, será cuando tendremos un muestra con más desigualdad económica. Pensemos que se nos pide con qué dos valores aumentará el índice de Gini; o sea, con qué dos valores habrá más diferencia entre los ricos y los pobres. Añadiendo el 1 y el 2 estamos añadiendo dos personas con ganancias muy bajas. En este momento el individuo que gana 10 unidades monetarias es aún más rico respecto al resto de la muestra. Se crea más desigualdad. Esto se reflejará en un aumento del valor del índice de Gini. Evidentemente se puede calcular para comprobarlo. Pero intuitivamente debe comprenderse qué supone que se añadan dos individuos nuevos con ganancias bajas o, por el contrario, con ganancias altas.

4b: Este caso es el única en el que es coherente lo dicho en de la correlación y de la pendiente. En ambos casos se está diciendo que no hay significación.

5c: De las cuatro respuestas únicamente una presenta una relación significativa y, por lo tanto, es la única predicción posible y, por lo tanto, la mejor. Es la única que tiene un intervalo de confianza o de la pendiente o de la correlación que no tiene al 0 en su interior.

6c: Este es el único caso en el que las dos afirmaciones van en la misma dirección de la respuesta generada. En este caso si disminuimos la diferencia de medias y aumentamos la desviación estándar el p-valor subirá por las dos causas. Si disminuimos la diferencia de medias es evidente que el p-valor subirá, porque habrá más igualdad y si aumentamos la desviación estándar lo que estamos haciendo es mezclar más las muestras y esto se reflejará también en un mayor aumento del p-valor porque será aún más razonable la hipótesis nula.

En los otros casos no sucede así. O en ambos casos no se cumple el resultado dicho o en un caso sí y en otro no, lo que implica que no puede decirse en general que se obtenga en resultado argumentado. Por ejemplo, cojamos la respuesta d: Es verdad que si aumentamos la diferencia de medias el p-valor bajará, porque será más razonable rechazar la hipótesis nula, pero si disminuimos el tamaño de muestra sucederá justo lo contrario: el p-valor subirá porque será más razonable mantener la hipótesis nula. Esta contradicción entre ambas afirmaciones es lo que impide que podamos seleccionar esta opción d.

7c:Debemos aplicar la fórmula:

img_3388

pero con una variación: con un 9 en lugar de un 4 porque es un intervalo del 99.5%, lo que implica que hay que construir un intervalo con 3 veces el error estándar. El 9 viene de hacer el cuadrado de 3. Podemos deducirlo de las fórmula del inicio del Tema 16.

Si aplicamos esta fórmula con una p=0.2 y un radio r=0.01 porque se trabaja siempre en tanto por uno, obtenemos n=14400.

8c:El valor de referencia es 12.59 en una tabla 4×3. Como el valor de la ji-cuadrado es mayor que ese valor de referencia el p-valor será menor que 0.05.

9d:Variable dicotómica, muestras relacionadas, la técnica a aplicar es el Test de McNemar.

10a: Zona es un factor significativo. Claramente hay tres grupos homogéneos. El sexo no es significativo. Se observa claramente que en promedio no hay diferencias entre ambos sexos. Y hay interacción porque claramente dependiendo de la zona los valores de los sexos cambian.

 

Situación 100: Examen (Temas 1-16)

1.Si en un estudio sobre la estimación poblacional de posibles consumidores de un nuevo producto tenemos una muestra de tamaño 10000 de los cuales 1000 serían consumidores de ese producto, un intervalo de confianza del 95% del porcentaje poblacional será:

a)(9.2, 10.8)

b)(9.5, 10.5)

c)(9.4, 10.6)

d)(9.0, 11.0)

2.En un estudio vemos que nos dan el siguiente intervalo de confianza del 95% de la media: (49, 51). Leemos que el tamaño de muestra ha sido 400. ¿Cuál es el intervalo de confianza del 95% descriptivo de la variable o, también denominado, intervalo de valores individuales de esa variable?

a)(40, 60)

b)(35, 65)

c)(30, 70)

d)(45, 55)

3)Tenemos un grupo con los siguientes sueldos en unidades monetarias: (1, 5, 6, 7, 10). Si llegan al grupo dos nuevos individuos, con cuáles aumentará más el índice de Gini:

a)(1, 10)

b)(10, 12)

c)(1, 2)

d)(5, 7)

4.De las siguientes afirmaciones cuál es cierta:

a) En una Regresión es compatible una pendiente con p=0.34 con un IC de confianza del 95% de la correlación de (-0.5, -0.2)

b) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (-2.8, 5.7) con una correlación con p=0.21

c) En una Regresión es compatible una pendiente con un p-valor de 0.001 con una de la correlación  con un intervalo de confianza del 95% (-0.3, 0.5)

d) En una Regresión es compatible un intervalo de confianza del 95% de la pendiente (2.7, 5.7) con uno de la correlación de (-0.4, -0.1)

5.En cuál de las siguientes regresiones lineales simples podremos hacer mejores predicciones:

a) y=3x-2; IC del 95% de la pendiente (-1, 7).

b) y=2x-3; IC del 95% de la correlación (-0.1, 0.99)

c) y=x-2; IC del 95% de la pendiente (0.3, 2)

d) y= -4x+2; IC del 95% de la correlación (-0.7, 0.1).

6.Si en una comparación de dos poblaciones al aplicar el test adecuado al caso el p-valor final es 0.01 es cierto lo siguiente:

a)Si aumentamos el tamaño de muestra y disminuimos la desviación estándar el p-valor subirá.

b)Si aumentamos la desviación estándar y aumentamos la diferencia de medias el p-valor bajará.

c)Si disminuimos la diferencias de medias y aumentamos la desviación estándar el p-valor subirá.

d)Si disminuimos el tamaño de muestra y aumentamos la diferencia de medias el p-valor bajará.

7.Se quiere hacer un pronóstico del porcentaje de consumidores que tendría un producto y se quiere tener una muy buena precisión: que el radio del intervalo sea del 1% en un intervalo del 99.5%. Sabemos que un producto similar en países muy parecidos al nuestro tiene un porcentaje de consumo alrededor del 20%. ¿Cuál es el tamaño de muestra recomendable en base a esta información:

a)6400.

b)11500.

c)14400.

d)8800.

8.Si en una tabla de contingencias 4×3 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 14.55 podemos afirmar:

a)Que el p-valor es superior a 0.05 porque 14.55 es menor que el umbral que es 21.02.

b)Que el p-valor es inferior a 0.05 porque 14.55 es mayor que el umbral que es 3.84.

c)Que el p-valor es inferior a 0.05 porque 14.55 es mayor que el umbral que es 12.59.

d)Que el p-valor es superior a 0.05 porque 14.55 es menor que el umbral que es 24.99.

9.Se comparan dos productos distintos y para ello se toma un grupo de 40 personas. Todos degustan los dos productos. La variable estudiada es si se consumiría el producto o no. Un producto lo consumiría un 10% y el otro un 5%. Para ver si esa diferencia es estadísticamente significativa debemos aplicar:

a)El Test de proporciones.

b)El Test exacto de Fisher.

c)El Test de Mann-Whitney.

d)El Test de McNemar.

10.Se ha hecho un estudio de valoración de un producto entre el 1 y el 10 en cinco zonas y en los dos sexos. Los resultados obtenidos son los siguientes:

IMG_3467

a)Zona: p<0.05 con tres grupos homogéneos. Sexo: p>0.05. Interacción: p<0.05.

b)Zona: p<0.05 con tres grupos homogéneos. Sexo: p<0.05. Interacción: p<0.05.

c)Zona: p>0.05. Sexo: p>0.05. Interacción: p<0.05.

d)Zona: p<0.05 con dos grupos homogéneos. Sexo: p<0.05. Interacción: p>0.05.