Archivo de la categoría: PROBLEMAS

Situación 81: Examen (Temas 13-17 y 19)

  1. En un estudio donde se quiere comparar dos mecanismos de rehabilitación pretendemos analizar si hay diferencias de medias entre ellas en la variable SF-36. Tenemos 100 pacientes que repartimos en dos grupos de igual tamaño. A cada grupo le aplicamos uno de los dos tratamientos a comparar. El test de Shapiro-Wilk de ambas muestras nos proporciona un p-valor mayor que 0.05. El test de Fisher-Snedecor nos proporciona una p=0.01. Es cierto lo siguiente:

a. Si el test de la t de Student para varianzas desiguales da un p-valor inferior a 0.05 debemos concluir que las varianzas son diferentes.

b. Si el test de la t de Student para varianzas desiguales da un p-valor superior a 0.05 debemos concluir que las varianzas son diferentes.

c. Si el test de la t de Student para varianzas desiguales da un p-valor inferior a 0.05 debemos concluir que las medias son diferentes.

d. Si el test de la t de Student para varianzas desiguales da un p-valor inferior a 0.05 debemos concluir que no podemos decir que las medias son diferentes.

  1. Si en una comparación de dos poblaciones el test adecuado al caso el p-valor final es 0.02 es cierto lo siguiente:

a. Si aumentamos el tamaño de muestra y las medias y las desviaciones siguen siendo las mismas el p-valor subirá.

b. Si, sin cambiar el tamaño de muestra ni las dos medias muestrales, observamos que las desviaciones son menores de lo que habíamos calculado previamente, el p-valor subirá.

c. Si, sin cambiar el tamaño de muestra ni las desviaciones estándar, observamos que la diferencia de medias es menor de lo que habíamos calculado previamente, el p-valor bajará.

d. Si, sin cambiar el tamaño de muestra, observamos que la diferencia de medias es mayor de lo que habíamos calculado previamente y las desviaciones estándar menores de lo que habíamos calculado, el p-valor bajará.

  1. Hemos de comparar dos procedimientos distintos de tratamiento para pacientes con demencia. Tomamos 20 pacientes y los repartimos al azar en dos grupos de 10 cada uno. La variable elegida para evaluar ambos tratamientos es el Mini-Mental. El Test de Shapiro-Wilk nos da, en ambas muestras, un p-valor de 0.005 y el test de Fisher-Snedecor nos da un p-valor de 0.03. Debemos:

a. Aplicar el Test de la t de Student de varianzas iguales.

b. Aplicar el Test de la t de Student de varianzas diferentes.

c. Aplicar el Test de Mann-Whitney.

d. Aplicar el Test de la t de Student de datos apareados.

  1. Hemos de comparar dos formas de rehabilitación psicológica a pacientes que han sufrido un infarto cerebral. La variable analizada es si después de un año el paciente consigue superar un umbral previamente establecido en un test psicotécnico. Se ha trabajado con 600 pacientes. 300 en cada grupo. Cada paciente recibe un único tratamiento. Después del año en un grupo un 4% consigue la rehabilitación psicológica. En el otro grupo un 2% lo consigue. Debemos:

a. Aplicar un Test de Mann-Whitney.

b. Aplicar un Test de proporciones.

c. Aplicar un Test exacto de Fisher.

d. Aplicar un Test de McNemar.

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a. Si en una comparación de dos poblaciones aplicamos un Test de Mann-Whitney es que la variable no se ajusta a la distribución normal en ninguna de las dos muestras.

b. En un contraste de hipótesis para evaluar el ajuste a la distribución normal un p-valor inferior a 0.05 indica que hay suficiente ajuste de los datos a la distribución normal.

c. Cuanto menor desviación estándar tengamos en dos muestras de dos poblaciones a comparar más posible será rechazar la hipótesis nula de igualdad de medias.

d. En un ANOVA de un factor fijo con cinco niveles un p-valor menor de 0.05 indica que hay diferencias significativas entre las cinco poblaciones que estamos comparando.

  1. En un ANOVA de dos factores fijos y cruzados (cada uno de los dos factores con 4 niveles) obtenemos los siguientes p-valores: Factor A: p<0.05, Factor B: p<0.05, Interacción: p>0.05, podemos afirmar:

a. El número de poblaciones a comparar es de 8.

b. Los dos factores son significativos y, por lo tanto, hay interacción entre ellos.

c. No hay interacción significativa entre los factores.

d. Ninguna de las tres afirmaciones anteriores es cierta.

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a. En un ANOVA de dos factores si ambos factores son significativos lo será también la interacción.

b. Si en las comparaciones múltiples de un ANOVA de un factor tenemos dos o más grupos homogéneos el p-valor del ANOVA será menor de 0.05.

c. Las comparaciones múltiples en un factor únicamente tiene sentido realizarlas si el p-valor del ANOVA previo, para ese factor, es superior a 0.05.

d. En un Análisis clúster se use la distancia que se use el dendrograma obtenido es exactamente igual.

  1. Se quiere hacer un pronóstico de la media poblacional de la concentración de un determinado neurotransmisor. ¿Qué tamaño de muestra necesitamos tomar para tener un intervalo del 95% de radio 40 si la Desviación estándar que tenemos en una muestra piloto es de 100?:

a. 100.

b. 1000.

c. 400.

d. 25.

  1. En un Análisis de componentes principales la primera componente principal es 0.5X+0.45Y-0.48Z. Es cierto lo siguiente:

a. En la representación de la primera componente los individuos más a la derecha del eje tendrán valores grandes de X, valores pequeños de Y y valores pequeños de Z.

b. En la representación de la primera componente los individuos más a la derecha del eje tendrán valores grandes de X, de Y y de Z.

c. En la representación de la primera componente los individuos más a la derecha del eje tendrán valores grandes de X e Y y valores pequeños de Z.

d. En la representación de la primera componente los individuos más a la derecha del eje tendrán valores pequeños de X e Y y valores grandes de Z.

  1. Tenemos los siguientes datos en un estudio clínico. ¿Cuál es la afirmación más razonable?:

IMG_1209

a. Factor A: p>0.05. Factor B: p>0.05. Interacción: p<0.05.

b.  Factor A: p<0.05. Factor B: p<0.05. Interacción: p<0.05.

c. Factor A: p<0.05. Factor B: p<0.05. Interacción: p>0.05.

d. Factor A: p<0.05. Factor B: p>0.05. Interacción: p>0.05.

Solución Situación 80

1d: Si ordenamos la muestra de menor a mayor tenemos la muetra: (-100, 1, 1, 3, 3, 10, 20, 20) observamos que el primer cuartil es 1 por ser el promedio entre 1 y 1.

2c: El error estándar es 0.5 porque 10/raíz(400). Como es un intervalo de confianza de la media del 95% deberemos restar y sumar a la media dos veces ese valor, dando el intervalo (19, 21)

3c: Aunque se trata de una relación significativa, estamos ante una capacidad productiva muy baja. El coeficiente de determinación es sólo del 4%, porque 0.2 al cuadrado es 0.04 y pasado a porcentaje es el 4%, muy lejos del 50% necesario para hablar de suficiente capacidad predictiva.

4d: Sólo la OR de 1.7 y la de 0.5 son significativas. Por lo tanto, debemos comparar esas dos. Si pasamos 0.5 al otro lado tenemos 1/0.5 que es igual a 2. Como 2>1.7, el 0.5 indica mayor cantidad de relación.

5d: Si la tabla de contingencias observada y esperada son iguales la ji-cuadrado vale cero y, por lo tanto, el numerador de la V de Crámer es 0 y, por lo tanto, la V de Crámer vale 0.

6c: Como la Odds ratio no es significativa debe contener su intervalo de confianza del 95% al 1 y, por lo tanto, no puede ser cierto que ese intervalo no contenga al 1.

7a: Si el p-valor de una ji-cuadrado es mayor que 0.05 esto indica, evidentemente, que no podemos decir que existe una relación significativa entre esas variables cualitativas.

8d: Si se da la información de esta forma es porque existe suficiente ajuste a la distribución normal, por lo tanto, entre 15 y 25 tenemos aproximadamente el 68.5% de los valores. Por debajo de 15 y por encima de 25 tenemos el 31.5%. Por debajo de 15 tenemos la mitad de ese porcentaje: 15.75%, que es aproximadamente el 16% que afirma la respuesta «d».

9d: El signo de la pendiente de una recta de regresión es exactamente el mismo que el signo de la correlación.

10b: El que la mediana y la media coincidan es una buena señal para pensar en que habrá simetría y no habrá asimetría, pero la asimetría es una mirada más global que es más exigente que la mirada sobre la igualdad o no de media y mediana. Por ejemplo, la muestra (0, 100, 100, 100, 100, 133.3, 133.3, 133.3) tiene media y mediana iguales (100) y se ve que hay una asimetría remarcable en su interior. El valor de 0 rompe la simetría. La Asimetría estandarizada de esta muestra es -2.38, que no está dentro del intervalo (-2, 2).

Situación 80: Examen (Temas 1-9)

1. En la muestra (10, 3, 3, 1, 1, 20, 20, -100):

a. La mediana es 1.

b. El rango es 80.

c. El rango intercuartílico es 15.

d. El primer cuartil es 1.

  1. Un intervalo de confianza del 95% de la media en una muestra con media muestral 20, desviación estándar 10 y tamaño muestral de 400 es:

a. (0, 40).

b. (19.5, 20.5).

c. (19, 21).

d. (18, 22).

  1. De una correlación r=0.20 (p=0.0001), podemos decir:

a. El tamaño muestral es pequeño porque la correlación es pequeña.

b. Hay una relación significativa entre las variables comparadas porque el coeficiente de determinación es mayor del 5%.

c. No podremos predecir con una precisión aceptable el valor de una variable a partir de la otra, mediante una Regresión, porque el coeficiente de determinación no es mayor del 50%.

d. El coeficiente de determinación es del 40%.

  1. ¿Cuál de las siguientes relaciones indica una relación más fuerte entre las dos variables cualitativas?

a. OR=1.7 (IC 95%: (1.2, 2.8)).

b. OR=0.2 (IC 95%: (0.001, 2.5)).

c. OR=15 (IC 95%: (0.3, 55)).

d. OR=0.5 (IC 95%: (0.3, 0.62)).

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a. La Odds ratio mide la cantidad de relación que hay entre dos variables cuantitativas.

b. Una correlación de Pearson es significativa si el coeficiente de determinación es superior al 95%.

c. La V de Crámer si es negativa indica una relación de tipo inverso entre las variables.

d. Si la tabla de contingencias observada y la tabla de contingencias esperada son iguales entonces la V de Crámer es 0.

  1. Estamos tratando de asociar el consumo de una determinada dieta alimentaria y un determinado trastorno psiquiátrico. Nos dicen que la Odds ratio que mide la asociación entre esa dieta y ese trastorno es de 0.5 pero que no es significativa. No es cierto:

a. Que un intervalo de confianza del 95% de la Odds ratio contiene al 1.

b. Que la Odds ratio que asocia el no consumo de esa dieta con esa enfermedad es de 2.

c. Que un intervalo de confianza del 95% de la Odds ratio únicamente tiene valores inferiores a 1.

d. Que la ji-cuadrado previa ha dado un p-valor superior a 0.05.

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a. Si una ji-cuadrado nos proporciona un p-valor mayor que 0.05 indica que no podemos decir, con el nivel de información que tenemos, que hay relación significativa entre las dos variables cualitativas estudiadas.

b. Si la tabla de contingencias observada y la esperada son idénticas el p-valor es 0.

c. Entre dos variables cuantitativas una ji-cuadrado positiva indica una relación directa entre las variables.

d. Una correlación negativa y significativa entre dos variables cuantitativas va seguida de una regresión lineal simple con pendiente también significativa, pero el signo de esa pendiente puede ser negativo o positivo según la disposición de los valores.

  1. Nos dicen que la concentración de dopamina en pacientes diagnosticados de Parkinson se puede resumir de la siguiente forma 20±5, podemos afirmar:

a. Que en la población hay aproximadamente el 2.5% de valores por debajo de 15.

b. Entre 15 y 25 tenemos aproximadamente el 95% de pacientes con Parkinson.

c. Por encima de 25 tenemos aproximadamente el 25% de la población de los pacientes de Parkinson.

d. Por debajo de 15 tenemos aproximadamente el 16% de pacientes con Parkinson.

  1. En una Regresión lineal simple es cierto:

a. Si la R2 es inferior al 95% tenemos una relación estadísticamente significativa entre las variables de la regresión.

b. Un coeficiente de determinación del 50% es compatible con una correlación r=-0.5

c. Si la pendiente de una recta de regresión es distinta de 0 entonces la correlación entre esas variables es significativa.

d. Si la ecuación de la recta es y=-2x+3, la correlación será negativa.

  1. ¿Cuál de las siguientes afirmaciones no es cierta?

a. Un intervalo de confianza de la media del 95% es más amplio que uno del 68.5%.

b. Una muestra con media y mediana iguales tendrá una Asimetría estandarizada dentro del intervalo (-2, 2).

c. Una tabla de contingencias observada igual a la esperada nos impide rechazar la hipótesis nula de independencia de las variables cualitativas que estamos relacionando.

d. Entre la mediana y el primer cuartil hay la misma proporción de individuos que entre el tercer cuartil y la mediana.

Solución Situación 79

1c: Si se ordena de menor a mayor la muestra vemos que el primer cuartil es -20 y el tercer cuartil es 3, por lo tanto el rango intercuartílico es 23 porque es la diferencia que hay entre 3 y -20; o sea: 3-(-20)=23.

2d: El error estándar es 2, porque 10/raíz(25) es igual a 2. Como es un intervalo de confianza de la media ese intervalo debemos construirlo mediante el error estándar, por lo tanto, como es un intervalo del 95%, debemos coger dos veces el error estándar y restarlo y sumarlo a la media muestral. Por lo tanto, tenemos un intervalo (16, 24).

3a: Una correlación de este nivel, pequeña en magnitud, únicamente resulta significativa si el tamaño de muestra es grande. Debe captarse mucha regularidad dentro de la dispersión y eso únicamente se logra con muestras de tamaño considerable.

Además, podemos descartar las otras opciones fácilmente:

El coeficiente de determinación no nos dice cosas de la significación sino de la capacidad pronóstica.

La significación en sí no nos apunta la capacidad pronóstica. Podemos tener una relación perfectamente significativa con una baja capacidad pronóstica, como es el caso de la información dada en este problema.

El coeficiente de determinación no es, obviamente, el 31%. Sería el cuadrado de 0.31 pasado a porcentaje.

4d: Únicamente son significativas las Odds ratios de 8 y de 0.1. Si pasamos la de 0.1 al otro lado para compararla obtenemos el valor de 10, porque (1/0.1)=10. Como 10>8, la «d» es la respuesta correcta.

5c: Si una tabla de contingencia tiene valores muy pequeños, porque el tamaño de muestra es muy pequeño podemos encontrarnos perfectamente con el caso de tener una tabla de contingencias no significativa y una V de Crámer muy grande.

6c: Si una Odds ratio de 0.2 es significativa su intervalo de confianza no puede contener al 1; por lo tanto: todos sus valores serán inferiores a 1, evidentemente.

7c: La ji-cuadrado no es una técnica para trabajar con variables cuantitativas.

8b: Dentro de cada cuartil tenemos un 25% de valores, por lo tanto, en toda muestra entre el primer cuartil y mediana y entre la mediana y el tercer cuartil tenemos el mismo porcentaje de valores y en la población aproximadamente también. Por lo tanto, en esta población estudiada entre 5 y 20 habrá aproximadamente el mismo porcentaje de personas que entre 20 y 25 porque estamos hablando de que 5 es el primer cuartil, 20 es la mediana y 25 es el tercer cuartil.

9b: El cuadrado de -0.5 es 0.25, pasado a porcentaje es 25%.

10c: Si la tabla de contingencias observada es igual a la esperada es obvio que no tenemos ningún argumento para rechazar la hipótesis nula puesto que la tabla esperada es construida bajo el supuesto de la no relación entre esas variables. Por lo tanto, en absoluto, podemos rechazarla esa hipótesis.

Situación 79: Examen (Temas 1-9)

  1. En la muestra (10, 3, 3, 1, 1, -20, -20, -100):

a. La mediana es 2.

b. El rango es 90.

c. El rango intercuartílico es 23.

d. El primer cuartil es 3.

  1. Un intervalo de confianza del 95% de la media en una muestra con media muestral 20, desviación estándar 10 y tamaño muestral de 25 es:

a. (0, 40).

b. (19, 21).

c. (18, 22).

d. (16, 24).

  1. De una correlación r=-0.31 (p=0.0001), podemos decir:

a. El tamaño muestral debe ser grande porque, de lo contrario, con este nivel de correlación no tendríamos esta significación.

b. Hay una relación significativa entre las variables estudiadas porque el coeficiente de determinación es menor del 50%.

c. Podremos predecir con una precisión aceptable el valor de una variable a partir de la otra, porque la relación entre ellas es significativa.

d. El coeficiente de determinación es del 31%.

  1. ¿Cuál de las siguientes relaciones indica una relación más fuerte entre las dos variables cualitativas?

a. OR=50 (IC 95%: (0.6, 250)).

b. OR=8 (IC 95%: (6.5, 13.5)).

c. OR=15 (IC 95%: (0.3, 55)).

d. OR=0.1 (IC 95%: (0.001, 0.22)).

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a. La Odds ratio mide la significación que hay en la relación entre dos variables cualitativas.

b. Una correlación negativa es significativa si el coeficiente de determinación es superior al 50%.

c. Una V de Crámer de 0.9 y no significativa es posible si el tamaño de muestra es muy pequeño.

d. Si la tabla de contingencias observada y la tabla de contingencias esperada son iguales entonces la V de Crámer valdrá 1.

  1. Estamos tratando de asociar el consumo de una determinada dieta alimentaria y un determinado trastorno psiquiátrico. Nos dicen que la Odds ratio que mide la asociación entre esa dieta y ese trastorno es de 0.2, y que es significativa. Podemos afirmar:

a. Que un intervalo de confianza del 95% de la Odds ratio contiene al 1.

b. Que la Odds ratio que asocia el no consumo de esa dieta con esa enfermedad es de 2.

c. Que un intervalo de confianza del 95% de la Odds ratio únicamente tiene valores inferiores a 1.

d. Que la ji-cuadrado previa ha dado un p-valor superior a 0.05.

  1. ¿Cuál de las siguientes afirmaciones no es cierta?

a. Si una ji-cuadrado nos proporciona un p-valor mayor que 0.05 indica que no podemos decir, con el nivel de información que tenemos, que hay relación significativa entre las dos variables cualitativas.

b. Si la tabla de contingencias observada y la esperada son idénticas el p-valor es 1.

c. Entre dos variables cuantitativas una ji-cuadrado positiva indica una relación directa entre las variables.

d. Una correlación negativa y significativa entre dos variables cuantitativas va seguida de una regresión lineal simple con pendiente negativa y significativa.

  1. Nos dicen que la concentración de dopamina en pacientes diagnosticados de Parkinson se puede resumir de la siguiente forma 20 (5- 25), podemos afirmar:

a. Que podemos representar a esa población de la siguiente forma: 20±5.

b. Entre 5 y 20 tenemos aproximadamente los mismos pacientes con Parkinson que entre 20 y 25.

c. Por encima de 25 tenemos aproximadamente el 50% de la población de los pacientes de Parkinson.

d. Entre 20 y 50 tenemos aproximadamente el 75% de la población de los pacientes de Parkinson.

  1. En una Regresión lineal simple es cierto:

a. Si la R2 es superior al 50% tenemos una relación estadísticamente significativa entre las variables de la regresión.

b. Un coeficiente de determinación del 25% es compatible con una correlación r=-0.5

c. Si la pendiente es mayor que 1 la correlación es significativa.

d. Si la ecuación de la recta es y=2x+3, la correlación puede ser positiva o negativa, según sea la relación entre las variables directa o inversa.

  1. ¿Cuál de las siguientes afirmaciones es cierta?

a. Un intervalo de confianza de la media del 95% es más estrecho que uno del 68.5%.

b. Una muestra con media y mediana iguales tendrá una Asimetría estandarizada y una Curtosis estandarizada entre -2 y 2.

c. Una tabla de contingencias observada igual a la esperada nos impide rechazar la hipótesis nula de independencia de las variables cualitativas que estamos relacionando.

d. En una muestra entre la mediana y el primer cuartil hay la misma distancia numérica que entre el tercer cuartil y la mediana.

Solución Situación 78

1d: Para tener un índice de Gini tan pequeño hace falta que los valores muestrales sean muy similares. La única muestra que cumple tal cosa es ésta. Las demás tienen mucha dispersión.

2b: El tercer cuartil es 8 y el primero 7. Por lo tanto, el rango intercuartílico es 1.

3b: El error estándar en esta muestra es 10, porque la desviación estándar es 100 y la raíz cuadrada del tamaño de muestra es 10. Luego 100/10=10. Si construímos un intervalo de confianza de la media lo haremos con ese error estándar. Para construir un intervalo de confianza del 99.5% de la media deberemos sumar tres veces y restar tres veces el error estándar a la media de la muestra. Tres veces 10 es 30. Por lo tanto, el intervalo de confianza será (70, 130).

La respuesta d, que dice que no podemos tener una muestra con media, desviación estándar y tamaño de muestra iguales a 100, es absurda. Claro que la podemos tener. Si tenemos una variable que pueda tener tanto valores positivos como negativos, claro que puede darse perfectamente esta situación.

4d: Es evidente que se trata de una correlación de elevada magnitud, pero no es significativa. El p-valor es superior a 0.05. Si queremos ver si esta correlación es fiable, y no fruto del azar, deberemos aumentar el tamaño de muestra.

5d: No es una gran correlación, pero es la única que es significativa.

6a: Esta regresión puede ser perfectamente, porque la pendiente es negativa, como la correlación. El signo de la correlación y el de la pendiente de la recta deben ser necesariamente el mismo. La respuesta b no es posible porque la pendiente es positiva y esto es incompatible con lo que acabamos de decir. La respuesta c tampoco es posible porque no introduce el efecto de la variable independiente x, y sabemos que la relación con la variable dependiente es significativa. Si hay relación significativa la variable debe entrar en la fórmula de la regresión.

7d: Es evidente que con una misma desviación estándar el índice de Gini podrá cambiar dependiente de la suma de todos los valores de la muestra. Por ejemplo, la muestra (1, 1, 2, 2) tiene la misma desviación estándar que la muestra (1000, 1000, 1001, 1001) pero el índice de Gini no, porque el reparto del total es más equilibrado en esta segunda muestra que en la primera. El índice de Gini capta este reparto relativo del todo. El índice de Gini de la primera muestra será mayor que el de la segunda muestra.

8c: Como el tamaño de la muestra es par para calcular la mediana debemos ordenar la muestra y hacer el promedio de los dos valores centrales. Los dos valores centrales de esta muestra son 1 y 5. Su promedio es 3.

9c: Si observamos en el tema 8 los ejemplos propuestos en el análisis de la relación entre dos variables cualitativas dicotómicas veremos que en toda tabla de contingencias 2×2 siempre el valor umbral de referencia para ver la significación es 3,84. Como 3 es menor que 3,84 el p-valor será superior a 0.05. Ver el último dibujo del tema 8.

10d: Observemos que tenemos un caso un tanto especial. Tenemos una variable claramente cuantitativa (caudal del río) y una variable dicotómica (nivel de mercurio por encima o por debajo de un cierto valor). Para calcular una correlación de Pearson deberían ser las dos variables cuantitativas y para hacer una ji-cuadrado deberían ser las dos variables cualitativas. No es el caso. Por lo tanto, no estamos en las condiciones de aplicación ni de una ni de la otra técnica estadística.

 

Situación 78: Examen (Temas 1-8)

1. Si en una muestra tenemos un índice de Gini es 0.1, ¿cuál de las siguientes muestras es la más compatible con ese valor:

a. (1, 1, 1, 2, 2, 5, 7, 12, 12, 12, 23, 24).

b. (1, 1, 1, 2, 2, 5, 7, 12, 12, 12, 23, 240).

c. (2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 300).

d. (2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3).

2. En la muestra (7, 7, 7, 8, 8, 8, 8, 27):

a. La mediana es 7.5.

b. El rango intercuartílico es 1.

c. El índice de Gini es 1.

d. El primer cuartil no existe porque los valores más bajos son iguales.

3. En una muestra de tamaño 100 con media 100 y desviación estándar 100 es cierto:

a. Un intervalo de confianza de la media del 95% sería (98, 102).

b. Un intervalo de confianza de la media del 99.5% sería (70, 130).

c. Un intervalo de confianza de valores individuales del 95% sería (80, 120).

d. No puede darse una muestra de tamaño 100 con media 100 y desviación estándar 100.

4. Si en una muestra donde hemos evaluado dos variables cuantitativas tenemos una correlación r=-0.8 (p>0.05) podemos decir:

a. El tamaño de muestra es muy grande.

b. Como la correlación es mayor de 0.5 es significativa.

c. Una regresión entre estas dos variables nos daría mucha capacidad pronóstica porque el coeficiente de determinación es superior al 50%.

d. Se trata de una correlación no significativa. Deberíamos aumentar el tamaño de muestra para ver si esta tendencia que se aprecia acaba confirmándose como estadísticamente significativa al aumentar la muestra.

5. ¿Qué correlación es mayor?

a. r=-0.6 (p=0.23)

b. r=0.90 (p=0.45)

c. r=-0.45 (p=0.87)

d. r=0.23 (p=0.01).

6. Si la correlación entre dos variables es r=-0.9 (p<0.05), es cierto:

a. La relación lineal entre ambas variables puede ser y=-3x-18.

b. La relación lineal entre ambas variables puede ser y=5x+15.

c. La relación lineal entre ambas variables puede ser y=18.

d. Ninguna de las tres relaciones lineales anteriores puede ser.

7. En una muestra donde sabemos que la desviación estándar es 5:

a. El índice de Gini será 0.

b. El índice de Gini será un valor fijo, independientemente de cuáles sean los valores concretos de la muestra.

c. El índice de Gini será 1.

d. El índice de Gini puede ser muy cambiante dependiendo de la magnitud de los valores.

8. En cuál de las siguientes muestras la mediana vale 3:

a. (1, 1, 2, 2, 3, 3, 12, 12)

b. (1, 1, 2, 2, 3, 3, 12, 12)

c. (1, 1, 1, 1, 5, 7.5, 12 12)

d. (1, 1, 3, 3, 4, 12, 12, 12)

9. Si en la relación entre dos variables dicotómicas (con dos valores posibles cada una de ellas) tenemos un valor de la ji-cuadrado (cálculo de la suma de los cuadrados de observado menos esperado divididos por el esperado) igual a 3:

a. El p-valor será menor que 0.05.

b. El p-valor será 0.05.

c. El p-valor será mayor que 0.05.

d. El p-valor no sabemos cuál puede ser porque nos faltaría saber el tamaño de muestra.

10. Entre la variable Caudal de un río un día y que el nivel de mercurio esté por encima o por debajo de un determinado umbral:

a. La correlación de Pearson nos medirá el grado de relación muy adecuadamente.

b. Necesitamos aplicar un test de la ji-cuadrado para evaluar si hay o no relación entre esas variables.

c. No podemos tener un p-valor porque hablamos de la relación entre una variable cuantitativa y una cualitativa.

d. No podemos ni medir una correlación de Pearson ni una ji-cuadrado porque no estamos en las condiciones que exigen esas dos técnicas estadísticas.

Solución Situación 77

1. Se trata de un ANOVA de dos factores, uno fijo (Sistema) y el otro aleatorio (Operario) y anidado en el primero.

Los resultados del ANOVA aplicado son los siguientes:

IMG_0547

 

Se cumplen las condiciones del modelo: normalidad, igualdad de varianzas e independencia.

El modelo es un ANOVA de dos factores anidados a efectos mixtos.

Únicamente resulta significativo el factor fijo «Sistema». Por eso aplicamos unas comparaciones múltiples y podemos ver que es el control C (el grupo al que no se aplica ningún tratamiento) el que se aparta de los otros dos niveles.

El factor Operario no es significativo. No obstante, hemos estimado su componente de la varianza, que es 3,24.

La media general es 13,95 y los tres parámetro del factor sistema son: -10,03, 8,23 y 1,80.

2. Se trata de un ANOVA de tres factores, dos fijos (Sistema y Calentar), cruzados, y uno aleatorio (Operario) anidado en la interacción de los dos factores fijos y cruzados.

El modelo es el mismo que el visto en el problema de la Situación 45, podemos verlo en la Solución Situación 45.

Los resultados son los siguientes:

IMG_0548

 

Todo es significativo excepto Operario. No obstante, hemos estimado también la componente de la varianza de operario que es 2,55. La componente de la varianza residual es 3,17.

Podemos ver también la estimación de los parámetros de los factores fijos del modelo. La media general es 21,49, los parámetros del factor Sistema son -10,36, 8,18 y 2,18, y los parámetros de la interacción -4,62, 4,62, 5,06, -5,06, -0,44 y 0,44.

Respecto a la pregunta de la probabilidad de que la medición sea superior a 31 en el caso de tratarse del Tratamiento 1 con calentamiento, debemos calcular la media muestral de este grupo (que es 32,495) y tomar como varianza la suma de la residual y de la debida a operario (esta es cuestionable por el hecho de no ser significativa): Por lo tanto, sería o la Raíz cuadrada de 3,17 ó la Raíz cuadrada de 3,17+2,55. Se trataría pues de una normal N(32,495; 1.78) o de una normal N(32,495; 2.39). Entonces, se trata de calcular en una de estas dos campanas de Gauss la probabilidad de tener valores por encima de 31. Vamos a calcularlo con la segunda opción que posiblemente sea la más razonable, debido a que los operarios alguna fuente de variación introducen, aunque no sea suficientemente grande como para que el contraste de hipótesis lo marque como significativo. El área a la derecha de 31 en una normal N(32,495; 2.39) es 0,7342.

3. Se trata, ahora, de un ANOVA de tres factores, dos fijos (Sistema y Calentar) y uno aleatorio (Operario) anidado esta vez dentro del factor Sistema, no de la interacción como antes. El modelo sería el del problema de la Situación 41. Ver la Solución Situación 41.

4. Se trata de un ANOVA de tres factores, dos fijos (Sistema y Calentar) y uno aleatorio (Operario) y los tres factores están ahora cruzados.

Situación 77: Examen (Tema 15)

1. La medición de una determinada variable sanguínea se sabe que puede estar influida por un previo tratamiento de la muestra y, también, por el operario que la realiza. Para ello en un laboratorio de análisis clínicos se hace un experimento para evaluar la importancia de estos efectos.

Se toma una muestra homogénea y se divide en doce partes. A cuatro no se le realiza tratamiento previo (C), a otras cuatro se les hace un tratamiento previo T1 y otras cuatro un tratamiento T2. Se toman 6 operarios al azar. Cada uno de ellos hace el análisis de uno de los tipos dos veces; o sea, en dos de las muestras. Se obtienen los siguientes resultados:

Sistema Operario Medición
C 1 4,22
C 1 7,83
C 2 0,04
C 2 3,57
T1 3 19,55
T1 3 20,77
T1 4 22,98
T1 4 25,44
T2 5 13,85
T2 5 18,05
T2 6 14,06
T2 6 17,05

Estudiar las influencia del tratamiento previo y de la acción del operario en el resultado de la medición de la variable sanguínea.

2. A continuación se quiere ver lo mismo pero introduciendo una variante: haciendo el análisis previo calentamiento de la muestra o no, porque se piensa que también puede ser un factor que influya en el resultado final. El procedimiento del experimento es el mismo: cada una de las muestras de los tres sistemas anteriores se dividir en dos calentando una y no haciéndolo en la otra. Ahora se necesitan tomar, no obstante, 12 operarios. El cuadro de resultados es el siguiente:

Sistema Calentar Operario Medición
C No 1 5,65
C No 1 3,24
C No 2 2,06
C No 2 5,54
C Si 3 21,93
C Si 3 21,11
C Si 4 15,67
C Si 4 13,86
T1 No 5 27,15
T1 No 5 25,96
T1 No 6 28,25
T1 No 6 26,07
T1 Si 7 33,42
T1 Si 7 32,92
T1 Si 8 32,16
T1 Si 8 31,48
T2 No 9 8,86
T2 No 9 12,28
T2 No 10 14,3
T2 No 10 9,22
T2 Si 11 36,83
T2 Si 11 35,73
T2 Si 12 37,54
T2 Si 12 34,6

Estudiar la influencia ahora del tratamiento, del calentar o no la muestra y del operario.

Interesa también conocer la probabilidad de que al aplicar el tratamiento T1 con calentamiento de la muestra el valor de la medición sea superior a 31.

3. Si el experimento del apartado anterior se hubiera hecho con 6 operarios de la forma que marca el siguiente cuadro de datos, ¿cuál hubiera sido el modelo? Responder sin analizar los datos (por eso la medición no tiene valores):

Sistema Calentar Operario Medición
C No 1
C No 1
C No 2
C No 2
C Si 1
C Si 1
C Si 2
C Si 2
T1 No 3
T1 No 3
T1 No 4
T1 No 4
T1 Si 3
T1 Si 3
T1 Si 4
T1 Si 4
T2 No 5
T2 No 5
T2 No 6
T2 No 6
T2 Si 5
T2 Si 5
T2 Si 6
T2 Si 6

4. Plantear el modelo que tendríamos si el experimento se hubiera hecho sólo con dos operarios, según el siguiente planteamiento:

Sistema Calentar Operario Medición
C No 1
C No 1
C No 2
C No 2
C Si 1
C Si 1
C Si 2
C Si 2
T1 No 1
T1 No 1
T1 No 2
T1 No 2
T1 Si 1
T1 Si 1
T1 Si 2
T1 Si 2
T2 No 1
T2 No 1
T2 No 2
T2 No 2
T2 Si 1
T2 Si 1
T2 Si 2
T2 Si 2

 

Situación 76: Examen (Tema 1-8)

1. Si en una muestra tenemos un índice de Gini es 0.95, podemos decir:

a. Que existe menor dispersión de valores en la muestra que en una que tuviéramos un índice de 0.3.

b. Que existe una correlación positiva entre las variables.

c. Que no es un valor significativo.

d. Que existe mucha desigualdad de valores dentro de la muestra.

2. En la muestra (8, 6, 0, 16, 8, 6, 0, 16):

a. La mediana es 7.

b. El rango intercuartílico es 12.

c. El rango es 6.

d. El primer cuartil es 0.

3. En una muestra de tamaño 100 con media 100 y desviación estándar 10 es cierto:

a. Un intervalo de confianza de la media del 95% sería (97, 103).

b. Un intervalo de confianza de la media del 99.5% sería (98, 102).

c. Un intervalo de confianza de valores individuales del 95% sería (80, 120).

d. Un intervalo de confianza de valores individuales del 99.5% sería (90, 110).

4. Si en una muestra donde hemos evaluado dos variables cuantitativas tenemos una correlación r=0.2 (p<0.05) podemos decir:

a. El tamaño de muestra es menor de 5.

b. Como la correlación es menor de 0.5 no es significativa.

c. Una regresión entre estas dos variables nos daría poca capacidad pronóstica.

d. Ninguna de las tres afirmaciones anteriores es cierta.

5. ¿Qué correlación es mayor?

a. r=-0.6 (p=0.001)

b. r=0.90 (p=0.001)

c. r=-0.45 (p=0.001)

d. r=-0.95 (p=0.0001)

6. Si la correlación entre dos variables es r=-0.9 (p<0.05), es cierto:

a. El coeficiente de determinación es 90%.

b. El contraste de hipótesis de la pendiente de la recta de regresión puede no ser significativo.

c. El contraste de hipótesis de la pendiente de la recta de regresión será significativo y la pendiente será negativa.

d. El coeficiente de determinación no es lo suficientemente grande como para hacer predicciones con error aceptable.

7. En una muestra donde sabemos que la desviación estándar es 0:

a. El índice de Gini será 0.

b. El índice de Gini puede ser 0.5.

c. El índice de Gini será muy próximo a 0 porque hay muy poca desviación estándar.

d. El índice de Gini será 1.

8. El Box-Plot siguiente:

IMG_0265

corresponde a la muestra:

a. (1, 1, 2, 3, 3, 3, 12, 12)

b. (1, 1, 3, 3, 3, 3, 12, 12)

c. (1, 1, 2, 2, 7.5, 7.5, 12 12)

d. (1, 1, 3, 7.5, 7.5, 12, 12, 12)

9. Si en la relación entre dos variables tenemos un valor de la ji-cuadrado (cálculo de la suma de los cuadrados de observado menos esperado divididos por el esperado) igual a 0:

a. El p-valor será 1.

b. El p-valor será menor que 0.05.

c. El p-valor será 0.

d. El p-valor puede ser cualquier valor entre 0 y 1.

10. Entre la variable sexo y padecer o no diabetes podemos decir lo siguiente:

a. La correlación de Pearson nos medirá el grado de relación muy adecuadamente.

b. Necesitamos aplicar un test de la ji-cuadrado para evaluar si hay o no relación entre esas variables.

c. No podemos tener un p-valor porque hablamos de la relación entre variables cualitativas.

d. En la relación entre variables cualitativas siempre la relación es estadísticamente significativa.