Archivo de la categoría: PROBLEMAS

Solución Situación 34

1d: Es la única correlación significativa. Las otras o el p-valor es superior a 0.05 ó el intervalo de confianza incluye al 0.

2d: Hay dos Odds ratio significativas: 10 y 15. Evidentemente, entre ellas, 15 es mayor.

3a: El error estándar es 1 porque es 20/raiz(400). El Intervalo de confianza del 95% será la media más menos dos errores estándar.

4b: Variable dicotómica y muestras relacionadas: Por lo tanto, test de McNemar.

5a: Si se observa la muestra se apreciará que claramente no se ajusta a una distribución normal, por lo tanto el test de Shapiro-Wilk debe dar un p-valor de rechazo de la hipótesis nula, un p-valor inferior a 0.05.

6d: No es cierta ninguna de las tres afirmaciones. Lo que falta saber, básicamente, para ver si será o no significativa esa diferencia, es el tamaño de las dos muestras tomadas en esas dos poblaciones.

7c: La distancia entre -9 y -1 representa menos y más dos desviaciones estándar respecto a la media.

8c: Las otras tres son ciertas. Si la desviación estándar es la raíz cuadrada del promedio de las desviaciones al cuadrado no parece que 50 pueda ser ese valor. Debe ser mucho menor. Observemos que la media está próxima a 3. Claro que habrá algunas diferencias de 7 ó de 5 pero también muchas de aproximadamente 2. Los cuadrados de esos números permiten pensar que ni la varianza alcanzará el valor de 50.

9d: Los Box-Plot nos hablan de la muestra, es una descripción de ella. Pero para ver si habrá diferencias significativas entre las medias de esas dos poblaciones nos falta saber el tamaño de muestra. Sin él no podemos decir nada.

10c: Es una definición posible del p-valor.

Situación 34: Examen (Temas 1-14)

1. ¿Qué correlación es mayor?

a. r= 0.6 IC 95%: (-0.3, 0.99)

b. r= 0.5 (p>0.05)

c. r= -0.7 IC 95%: (-0.99, 0.1)

d. r= 0.2 (p<0.05)

2. ¿Qué Odds ratio es mayor; o sea, cuál indica más relación entre dos variables dicotómicas?

a. 0.25 (p>0.05)

b. 2 (p>0.05)

c. 10 (p<0.05)

d. 15 (p<0.05)

3. Si una muestra de tamaño 400, que se ajusta bien a una distribución normal, tiene una media muestral de 40 y una desviación estándar de 20, un intervalo de confianza del 95% de la media poblacional sería:

a. (38, 42)

b. (0, 80)

c. (39, 41)

d. (35, 45)

4. Estamos estudiando dos posibles nuevos productos mediante la evaluación de la valoración que dan una serie de degustadores. Cada encuestado prueba los dos productos y debe únicamente contestar si lo consumiría o no cada uno de ellos. El Test a aplicar será:

a. El Test de proporciones.

b. El Test de McNemar.

c. El Test exacto de Fisher.

d El Test de los signos.

5. En una muestra como la siguiente: (4.2, 8.1, 9.2, 9.3, 10.1, 10.4, 10.5, 11.2, 12.4, 130.1, 130.4, 131.2, 133.5) si aplicamos un Test de Shapiro-Wilk el p-valor más lógico que podemos obtener es:

a. 0.00002

b. 0.08

c. 0.5

d. -0.2

6. Queremos hacer un Test de comparación de proporciones para comprobar si el porcentaje de mujeres que consumen el producto A es distinto según se trate de mujeres que viven en poblaciones de menos de 50.000 habitantes o en poblaciones de más de 50.000. Para ello cogemos una muestra de mujeres de poblaciones de menos de 50.000 habitantes y otra en poblaciones de más de 50.000 habitantes. En la muestra del primer tipo de poblaciones el 30% son consumidoras del producto A. En la del segundo tipo de poblaciones sólo el 20% son consumidoras. Podemos, a partir de estos datos, decir:

a. El p-valor será mayor que 0.05 porque los porcentajes son muy similares.

b. El p-valor será menor que 0.05 porque aunque los porcentajes son muy similares las poblaciones son muy grandes.

c. No tenemos p-valor en las comparaciones de dos proporciones.

d. Ninguna de las tres afirmaciones anteriores es cierta.

7. En una distribución normal N(-5,2) el área que hay entre -9 y -1 es aproximadamente de:

a. 0.05

b. 0.685

c 0.95

d. 0.995

8. En la muestra siguiente (8, 1, 1, 1, 1, 2, 2, 10) no es cierto:

a. El rango es 9.

b. El rango intercuartílico es 4.

c. La desviación estándar es 50.

d. La mediana es 1.5.

9. En una comparación de dos poblaciones tenemos dos muestras (la Muestra 1 y la Muestra 2), una de cada población, con los siguientes Box-Plots:

IMG_5878

Podemos afirmar lo siguiente:

a. En el test de comparación de dos poblaciones que hagamos el p-valor será superior a 0.05 porque las muestras se solapan mucho.

b. En el test de comparación de dos poblaciones que hagamos el p-valor será inferior a 0.05 porque las medias muestrales están lo suficientemente separadas.

c. No podemos decir cuál sería el resultado del contraste de hipótesis porque no tenemos la desviación estándar de cada muestra.

d. No podemos decir cuál sería el resultado del contraste de hipótesis porque no tenemos el tamaño muestral de las muestras.

10. ¿Qué afirmación, entre las siguientes, es correcta?:

a. El p-valor es un valor que va del -1 al 1, pasando por el cero.

b. El p-valor es una medida de relación entre dos variables cuantitativas.

c. El p-valor es un número que valora la posición relativa de los que vemos respecto lo que deberíamos ver si fuera cierta la Hipótesis nula.

d. Si el p-valor es mayor que 0.05 rechazamos la Hipótesis nula.

Solución

Situación 33: Un problema de ciencias humanas

Tenemos un grupo de 15 alumnos de los que tenemos sus notas en diferentes asignaturas y sabemos el sexo de cada uno de ellos. Los datos son los que se adjuntan a continuación. Son datos que ya han salido en temas como el de Análisis de componentes principales y Análisis clúster.

SEXO (Niño)

LENGUA

MATEMÁTICAS

FÍSICA

INGLÉS

FILOSOFÍA

HISTORIA

QUÍMICA

GIMNASIA

1

5

5

5

5

5

5

5

5

0

7

4

3

8

4

7

3

8

0

5

8

7

6

5

6

7

5

0

7

2

4

8

7

7

3

6

0

8

9

10

8

8

7

9

4

1

4

9

8

4

3

4

7

5

1

6

4

4

6

5

5

3

7

1

4

7

8

3

3

2

8

3

1

5

5

4

5

6

5

5

1

0

7

4

5

7

8

8

4

6

0

7

8

8

7

7

6

7

9

1

4

3

3

4

3

2

1

4

0

7

4

4

7

8

7

4

5

1

3

5

5

2

3

3

5

7

1

5

6

6

5

5

5

6

6

Buscar la variable o la combinación de variables que pronostique lo mejor posible la variable sexo en un modelo de Regresión logística.

Solución Situación 32

1a: Las únicas OR significativas son la primera y la segunda. Una expresada por el p-valor y la otra por no contener el intervalo al 1. Por lo tanto, como 3.34 es mayor que 2.34, la primera es una Odds ratio mayor.

2c: Variable dicotómica y muestras relacionadas. Por lo tanto, el Test de McNemar es el apropiado para el caso.

3b: Si el Test era el de la t de Student para varianzas iguales significa que hemos aceptado la Hipótesis nula de igualdad de varianza o de desviaciones estándar en el Test de Fisher y eso sólo es posible si el p-valor ha sido superior a 0.05, no inferior.

4c: La «a», la «b» y la «d» no son ciertas. Si el p-valor es menor que 0.05 no aceptamos sino que rechazamos la Hipótesis. Si el p-valor es próximo a 0.05 no lanzamos nunca ninguna moneda para resolver el contraste de hipótesis. Y no es cierto que la Hipótesis alternativa sólo la aceptemos si el tamaño muestral es a partir de 30 por muestra. Y, en cambio, es bien cierto que el p-valor es una medida de la posición relativa entre lo que vemos en la muestra y lo que deberíamos ver en el caso de ser cierto lo que afirma la Hipótesis nula.

5b. La Odds ratio es un valor entre el cero y el infinito, pero en ningún caso puede ser negativo.

 

Situacion 32: Cinco preguntas

1. ¿Qué Odds ratio es mayor?

a. OR= 3.34 (p<0.05).

b. OR= 2.34 IC 95%: (1.23, 2.98).

c. OR= 5.34 (p>0.05).

d. OR= 7.34 IC 95%: (-0.34, 34.18).

2. Si tenemos que comparar la eficacia de dos tratamientos aplicados, en momentos temporales distintos, a unos mismos pacientes que sufren una enfermedad crónica, y lo queremos hacer evaluando únicamente si el paciente responde o no al tratamiento, la técnica estadística de comparación de poblaciones apropiada para el caso es:

a. Test exacto de Fisher.

b. Test de proporciones.

c. Test de McNemar.

d. Test de la t de Student de datos apareados.

3. Si hemos aplicado un Test de la t de Student de muestras independientes y con varianzas iguales, no es cierto lo siguiente:

a. En algún momento hemos aplicado un test de ajuste a la distribución normal.

b. En el Test de Fisher aplicado el p-valor era inferior a 0.05.

c. La variable es o continua o aunque discreta tiene los suficientes valores posibles como para considerarla aproximadamente continua.

d. Si se ha aplicado el test de Shapiro-Wilk el p-valor en ambas muestras debe haber sido superior a 0.05.

4. Respecto al p-valor es cierto lo siguiente:

a. Si es menor que 0.05 aceptamos la Hipótesis nula.

b. Si es próximo a 0.05 lanzamos una moneda, si sale cara aceptamos la Hipótesis nula y si sale cruz aceptamos la Hipótesis alternativa.

c. Es una medida de la posición relativa entre lo que vemos en la muestra y lo que deberíamos ver en el caso de ser cierto lo que afirma la Hipótesis nula.

d. La Hipótesis alternativa sólo la aceptamos si el tamaño muestral es a partir de 30 por muestra.

5. Se ha realizado un estudio de la variable «Peso al nacer» en niños prematuros y su relación con la variable «Algún grado de Parálisis cerebral», donde hemos codificado como 1 tener un cierto grado de Parálisis cerebral y 0 a no tenerlo. ¿Cuál de las siguientes afirmaciones no es cierta?

a. La Odds ratio es una medida adecuada del grado de relación entre ambas.

b. La Odds ratio esperable es una Odds ratio negativa.

c. La Odds ratio será menor que 1.

d. Si obtuviéramos una Odds ratio con un intervalo de confianza del 95% que no incluyera al 1 podríamos afirmar que hay una relación estadísticamente significativa entre ambas variables.

Solución

Solución Situación 31

1c: Sólo hay dos correlaciones, de las cuatro, significativas. De las dos la mayor es la que tiene mayor magnitud; o sea, mayor valor absoluto. En este caso la r=-0.7

2a: Sólo dos Odds ratios son significativas. Una OR es de 0.25 y la otra de 2. Pero en el ámbito de las Odds ratios 0.25 indica más relación que 2. Está más alejado del 1. El 0.25 por un lado del 1 es equivalente a 4 por el otro lado (1/0.25=4). Y 2 por un lado del 1 es equivalente a 0.5 por el otro lado (1/2=0.5).

3b: A la izquierda del 8 en la muestra hay dos valores de los cinco que en total constituye el tamaño muestral. Y 2 de 5 supone un 40%.

4c: Es una comparación de una variable dicotómica en muestras independientes con un tamaño de muestra inferior a 30, por lo tanto debemos aplicar el Test exacto de Fisher.

5c: El Test de Shapiro-Wilk es un test de bondad de ajuste a una normal. La muestra sigue un ritmo de normalidad y, además, el tamaño de muestra es pequeño (más a favor, pues, de la Hipótesis nula). Como la Hipótesis nula de este test es «Normalidad» el p-valor más lógico es un valor superior a 0.05.

6c: Para saber el p-valor, que es lo que necesitamos para valorar la significación de esta diferencia de proporciones, en este caso únicamente faltan los tamaños muestrales puesto que las desviaciones estándar las sabemos: están en el propio porcentaje muestral observado. Recordemos que en una variable dicotómica la varianza es p(1-p). Puede observarse en el test de comparación de dos proporciones que con los datos del problema sólo nos faltan los dos tamaños muestrales para saber su valor y poder, así, realizar el test y valorar la significación de esa diferencia.

7b: La sensibilidad de un método diagnóstico es la probabilidad de que un enfermo dé positivo en tal prueba diagnóstica. Por lo tanto, si una prueba tiene una sensibilidad del 95% significa que tiene un 5% de error, y su error será no dar positivo a pacientes que tienen la enfermedad. Por lo tanto, se tratará de falsos negativos.

8b: Si quisiéramos tener un error de tipo 2 de 0.1 significaría que la potencia sería del 90%, lo que significaría subir la potencia. Esto se logra aumentando el tamaño de muestra.

9a: Si no rechazamos la Hipótesis nula no podemos cometer el error de tipo 1. Con esta diferencia tan grande de porcentajes entre ambas muestras, al no rechazar la Hipótesis nula lo más probable es que estemos cometiendo un error de tipo 2; o sea, que tengamos baja potencia.

10c: Que el p-valor sea 1 no nos indica que las medias de las poblaciones sean iguales, nos indica que no podemos rechazar que son iguales, pero en absoluto nos afirma que sean iguales. Nos indica que no tenemos suficiente información como para decir cuál es mayor y cuál es menor. Es como en un partido de baloncesto: sabes que uno de los dos equipos va a ganar, pero mientras no tienes una situación en la que puedas decir, con poca probabilidad de equivocarte, quién va a ganar, vas a mantener la hipótesis de empate, aunque sepas que, en realidad, no es cierta. Por otro lado, un p-valor igual a 1 también nos indica que las medias muestrales son iguales porque en el estadístico de test el numerador consiste en la diferencia de medias y si ésta es 0 el p-valor es 1. Respecto a la afirmación «a» es la definición de p-valor.

Situación 31: Examen (Temas 1-14)

1. ¿Qué correlación es mayor?

a. r= 0.8 IC 95%: (-0.3, 0.99)

b. r= 0.5 IC 95%: (0.4, 0.6)

c. r= -0.7 IC 95%: (-0.8, -0.6)

d. r= 0.9

2. ¿Qué Odds ratio es mayor; o sea, cuál indica más relación entre dos variables dicotómicas?

a. 0.25 (p<0.05)

b. 2 (p<0.05)

c. 10 (p>0.05)

d. 15 (p>0.05)

3. Tenemos una muestra como la siguiente: (5, 7, 9, 12, 16). Y obtenemos un valor de un nuevo individuo que queremos situar relativamente respecto a los demás. Ese valor es 8. Ese valor tiene un percentil:

a. 8

b. 40

c. 60

d. Necesitamos una muestra más grande para tener el percentil

4. Estamos estudiando dos anestésicos mediante la evaluación del dolor postoperatorio de pacientes que son operados de apendicitis. Medimos el valor de dolor a las 24 horas en 20 pacientes operados mediante el anestésico A y 20 pacientes operados con el anestésico B. La variable dolor la medimos del 0 al 10 pero la transformaremos en valores: «Mayor o igual a 5» y «Menor que 5». El Test a aplicar será:

a. El Test de proporciones.

b. El Test de McNemar.

c. El Test exacto de Fisher.

d El Test de los signos.

5. En una muestra como la siguiente: (4.2, 8.1, 9.2, 9.3, 10.1, 10.4, 10.5, 11.2, 12.4, 13.1, 13.4, 15.2, 18.5) si aplicamos un Test de Shapiro-Wilk el p-valor más lógico que podemos obtener es:

a. 0.00002

b. 0.03

c. 0.78

d. El Test de Shapiro-Wilk no proporciona un p-valor.

6. Queremos hacer un Test de comparación de proporciones para comprobar si el porcentaje de mujeres estudiantes de medicina es distinto significativamente al porcentaje de mujeres que estudian matemáticas. Para ello cogemos una muestra en una facultad de Medicina y otra en una facultad de Matemáticas. En la facultad de Medicina el 70% son mujeres en la muestra. En la facultad de Matemáticas sólo el 40% son mujeres. Podemos, a partir de estos datos, decir:

a. El p-valor será menor que 0.05.

b. El p-valor no lo podemos saber porque nos hace falta saber las desviaciones estándar de las dos muestras.

c. El p-valor no lo podemos saber porque nos hace falta saber los tamaños de muestrales de ambas muestras.

d. b y c son correctas.

7. Si la sensibilidad de una prueba diagnóstica en Medicina es del 95% podemos afirmar:

a. Que la especificidad es del 5%.

b. Que hay un 5% de falsos negativos.

c Que el valor predictivo positivo será bajo.

d. Ninguna de las tres anteriores es cierta.

8. En un estudio clínico en el que se quiere comparar un fármaco con un placebo se ha decidido tomar dos muestras de tamaño 100 para poder distinguir una diferencia mínima de 2 de la variable estudiada. Con ello sabemos que tenemos una potencia del 80% y un error de tipo 1 de 0.05. Si quisiéramos cambiar el estudio y pasar a tener un error de tipo 2 de 0.1 deberíamos:

a. Disminuir el tamaño de muestra.

b. Aumentar el tamaño de muestra.

c. El tamaño de muestra no cambiaría.

d. Ninguna de las tres respuestas anteriores es cierta.

9. Si estamos comparando la respuesta positiva a un determinado fármaco respecto a un placebo y tenemos que con el fármaco responden positivamente un 80% y con el placebo un 40%, con un tamaño de muestra muy pequeño y el contraste de hipótesis de igualdad de proporciones nos dice que no podemos rechazar la hipótesis nula, podemos afirmar:

a. Que estamos cometiendo un error de tipo II.

b. Que estamos cometiendo un error de tipo I.

c. Que tenemos una potencia muy elevada.

d. Que estamos cometiendo un error pero que no sabemos de qué tipo.

10. ¿Qué afirmación, entre las siguientes, no es correcta?:

a. El p-valor es la probabilidad de la zona crítica constuida a partir del valor del estadístico de test utilizado.

b. En un Test de la t de Student de comparación de medias si el p-valor es 1 las medias muestrales de las dos muestras son iguales.

c. En un Test de la t de Student de comparación de medias si el p-valor es 1 las medias poblacionales de las dos poblaciones son iguales.

d. En un Test de la t de Student de comparación de medias si el p-valor es 1 nos indica que la información que tenemos en las dos muestras no nos permite rechazar la Hipótesis nula de igualdad de medias poblacionales.

Solución

Solución Situación 30

1c: Se trata de dos variables cuantitativas. De las cuatro respuestas la única que es una medida de la relación entre dos variables cuantitativas es la correlación de Pearson.

2d: Ahora tenemos una relación entre una variable dicotómica y una variable cuantitativa. La única medida de esta relación de entre las cuatro respuestas es la Odds ratio, que es la fundamentalmente usada en estos casos, en el contexto de una regresión logística.

3d: Si se observan los datos se ve claramente que hay relación y, además, una relación directa, una relación que nos debe llevar a una correlación positiva claramente. Por lo tanto, la respuesta a y la b descartadas. La respuesta c nos da una correlación positiva, efectivamente, y muy grande (r=0,99), pero no significativa. Una correlación tan grande con un tamaño muestral tan grande es imposible que no nos dé una relación significativa. Por lo tanto, descartada la respuesta c, también. Nos queda la respuesta d que es efectivamente la correlación significativa que tienen estas dos variables.

4c: Si se observa el gráfico es suficiente para comprobar que la respuesta c es incorrecta. Restar el tercer cuartel menos la mediana (el segundo cuartil) nos debe dar un valor algo inferior a 0,3, por lo tanto no nos puede dar 0,42.

5d: Si se observan ambos gráficos, ambas regresiones logísticas podemos ver que los valores están más segregados, más separados, en el caso de la variable «Relación adjetivos/sustantivos», lo que se visualiza también porque tiene una curva con más pendiente. Esto significa que con la variable «Relación adjetivos/sustantivos» construiríamos un mecanismo más eficaz de clasificación de un texto en la categoría de «Ciencias» o «Letras», un mecanismo con menos errores de mala clasificación.

Situación 30: Cinco preguntas en un estudio lingüístico

Estamos diseñando un clasificador automático de artículos de revistas. En un primer proceso de decisión se pretende distinguir si se trata de un artículo de la categoría «Ciencia» o de la categoría «Letras». Posteriormente habrá otros niveles de decisión y de clasificación.

Para optimizar este primer proceso de decisión se han estudiado una serie de variables en 15 textos de Ciencias y en 15 textos de Letras. Los resultados obtenidos son los siguientes:

IMG_5773

Observad bien la matriz de datos. La variable «Texto de ciencias» toma valores 0 y 1. El valor 1 corresponde a un texto de ciencias y el valor 0 a un texto de letras. Se ha tomado en cada texto, en cada artículo, una muestra de 2000 palabras para medir las tres variables siguientes: «Media de palabras por oración», «Porcentaje de subordinadas» y «Relación adjetivos/sustantivos».

1. A partir de esos valores obtenidos y mostrados en la matriz de datos anterior, para evaluar y cuantificar la relación entre las variables «Media de palabras por oración» y «Relación adjetivos/sustantivos» la mejor opción es:

a. La V de Cramer.

b. El Kappa.

c. La correlación de Pearson.

d. La Odds ratio.

2. Para valorar la relación entre las variables «Texto de Ciencias» y «Media de palabras por oración» la mejor opción es:

a. La V de Cramer.

b. El Kappa.

c. La correlación de Pearson.

d. La Odds ratio.

3. La correlación de Pearson más razonable entre las variables «Media de palabras por oración» y «Porcentaje de subordinadas», viendo los datos obtenidos es:

a. r= – 0,78 (p<0,05).

b. r= 0.

c. r= 0,99 (p>0,05).

d. r= 0,87 (p<0,05).

4. El gráfico Box-Plot de la variable «Relación adjetivos/sustantivos» es el siguiente:

IMG_5777

¿Qué afirmación no es cierta?

a. El rango intercuartílico es 0,46.

b. La mediana es 0,625.

c. El tercer cuartil menos la mediana es 0,42.

d. El segundo cuartil menos el primer cuartil es 0,2.

5. Si hacemos una Regresión logística entre la variable «Texto de Ciencias» y «Media de palabras por oración» obtenemos el siguiente modelo:

IMG_5778

Si hacemos una Regresión logística entre la variable «Texto de Ciencias» y «Relación adjetivos/sustantivos» obtenemos el siguiente modelo:

IMG_5780

¿Qué afirmación no es cierta?

a. La variable «Relación adjetivos/sustantivos» tiene, respecto a la variable dicotómica «Texto de ciencias», una Odds ratio más alejada de 1 que la que tiene la variable «Media de palabras por oración».

b. Si un texto tiene un valor de la variable «Media de palabras por oración» de 8 podemos decir que la probabilidad de que se trate de un texto científico es del 90%.

c. Si un texto tiene un valor de la variable «Relación adjetivos/sustantivos» de 0,65 podemos decir que la probabilidad de se trate de un texto científico es del 50%.

d. La variable «Media de palabras por oración» representa un mecanismo mejor de clasificación de textos entre la categoría de «Ciencias» o «Letras» que el que obtendríamos mediante la variable «Relación adjetivos/sustantivos».

Solución

Solución Situación 29

1b: Si la diferencia mínima a detectar es muy pequeña, como ésta está siempre en el denominador de una ecuación para el cálculo del tamaño muestral, el tamaño muestral necesario es muy grande.

2b: Porque es necesario saber las frecuencias de las cuatro posibles combinaciones para aplicar el test. En el estadístico de test debe usarse la frecuencia de los casos de individuos que tienen valores distintos en las dos muestras relacionadas.

3c: El error de typo I es independiente del error de tipo II y de la potencia. No tiene ninguna relación.

4d: El intervalo contiene al 0, por lo tanto no hay una diferencia significativa. El único p-valor que indica no significación es el 0.65.

5d: Si el p-valor es menor que 0.05 el intervalo de confianza no contendrá al 0. El intervalo (0.001, 0.5) no contiene al 0, pero como está muy cerca del 0 el p-valor no daría tan claramente diferente de 0.05. El intervalo más razonable es (0.4, 0.6).