Archivos Mensuales: mayo 2019

Situación 139: Trabajo práctico con una base de datos

Tenemos la siguiente base de datos de pacientes con demencias diagnosticadas:

Variables:

P=Paciente

S=Sexo (h=hombre; m=mujer)

E=Edad

EVC=Enfermedad vascular central (s=sí; n=no)

EVP=Enfermedad vascular periférica (s=sí; n=no)

D=Diabetes (s=sí; n=no)

MM0=Mini Mental en el diagnóstico

MM3=Mini Mental a los 3 años

MM5=Mini Mental a los 5 años

P S E EVC EVP D MM0 MM3 MM5
1 h 60 s n n 21 20 18
2 h 79 n n n 20 19 16
3 h 71 n s s 23 20 17
4 h 66 n s s 22 19 16
5 m 69 n n s 21 19 16
6 m 62 n n s 24 22 19
7 m 60 s n n 21 19 16
8 m 63 s n n 24 22 19
9 m 77 n s n 23 21 18
10 h 63 n s n 20 18 15
11 h 79 n s n 24 22 19
12 h 55 n s s 23 21 18
13 m 72 n n s 21 19 16
14 m 68 n n n 21 21 20
15 h 81 n n s 23 21 18
16 h 71 n n n 20 19 19
17 m 61 n s s 24 23 20
18 m 76 s s s 23 22 19
19 m 72 s s n 22 21 18
20 m 63 n n n 24 23 20
21 m 67 n n n 21 20 17
22 h 69 n n n 23 22 19
23 h 60 n n n 21 20 17
24 m 64 n n s 22 21 18
25 m 73 n n s 21 20 17
26 m 66 s n n 23 21 18
27 m 76 s n n 22 20 17
28 h 75 n n n 23 21 18
29 m 62 n n s 21 19 16
30 m 78 n n n 24 22 19
31 h 57 n s s 23 21 18
32 h 58 n s s 21 19 16
33 m 63 s s n 23 21 18
34 m 65 n s n 24 22 19
35 m 74 s s n 20 17 14
36 m 61 n n n 24 22 19
37 h 71 n n s 23 21 18
38 m 71 n n n 22 21 18
39 m 63 n n s 24 23 20
40 h 67 n n s 21 20 17
41 h 69 n n n 21 20 17
42 m 63 n n n 21 20 17
43 m 75 n s n 22 21 18
44 m 69 n s n 21 20 17
45 m 62 s s n 24 20 17
46 m 66 s s s 24 20 16
47 h 57 n s n 23 22 19
48 h 62 n s s 21 18 16
49 h 59 n n n 21 20 17
50 m 72 n n s 28 27 24
51 m 78 n n s 24 23 20
52 m 73 s n n 24 23 20
53 m 63 n n n 23 24 21
54 h 65 s n n 23 22 19
55 m 67 n s n 23 22 21
56 m 66 n s n 24 23 20
57 h 75 n n s 22 21 18
58 h 62 n n n 21 20 17
59 m 71 n n s 23 22 19
60 m 59 s s n 22 17 16
61 m 66 n n s 24 23 20
62 m 64 n n s 23 22 19
63 m 65 n n n 22 21 18
64 h 71 n n n 24 23 20
65 h 68 n n n 21 20 17
66 h 73 n n n 21 20 17
67 m 64 n n n 21 20 17
68 m 60 s s s 22 18 15
69 m 76 n n n 21 21 18
70 m 64 n n s 23 23 20
71 h 68 n n n 22 19 16
72 m 63 n n s 23 19 16
73 m 68 n n s 21 19 16
74 h 73 n n n 21 22 16
75 h 62 n n n 23 19 16
76 m 65 n n n 24 23 20
77 m 76 n n n 20 19 16
78 m 61 n n n 24 23 20
79 m 67 n n s 22 20 17
80 m 64 n n n 22 21 18
81 h 64 n n s 23 21 18
82 m 69 n s s 20 17 15
83 m 74 n n n 22 21 20
84 m 57 n n n 24 23 20
85 h 67 n n n 23 22 19
86 h 73 n n n 22 21 18
87 m 74 n n s 21 20 17
88 m 72 s s n 23 20 17
89 m 78 n n s 24 23 20
90 m 68 s s s 22 20 18
91 h 73 n n n 21 20 17
92 m 64 n n n 21 20 17
93 h 75 n n n 23 22 19
94 h 63 n n n 23 23 21
95 m 79 n n n 20 19 16
96 m 77 s n s 24 20 16
97 m 76 n n s 23 22 19
98 m 62 n s n 22 21 19
99 h 70 n n s 24 23 21
100 m 73 n n s 20 20 16

1.Hacer una estadística descriptiva básica (Media y desviación estándar o Mediana y rango intercuartílico) de las variable MM0, MM3, MM5 y MM0-MM5.

2.Hacer una estadística descriptiva básica de la variable “Número de enfermedades con riesgo vascular que tiene el paciente (Enfermedad vascular central, periférica o diabetes)”.

3.Correlacionar el número de enfermedades con riesgo vascular que tiene el paciente con la variable MM0-MM5.

4.Correlacionar la edad con la variable MM0-MM5.

5.Comparar si hay diferencia de medias, estadísticamente significativa, en la variable MM5 entre los pacientes que tienen o no Diabetes.

6.Comparar si hay diferencia de medias, estadísticamente significativa, en la variable MM0-MM5 entre los pacientes que tienen o no Diabetes.

Solución Situación 138

1b: El Intervalo de una OR nunca puede tener valores negativos. En todo caso, el intervalo no contiene al 1, por lo tanto es incompatible con un p-valor superior a 0.05

2d: El Tratamiento no es significativo, el Grupo sanguíneo es significativo es significativo. No hay interacción significativa, porque los valores por cada población son paralelos.

3b: Como una de las dos muestras no se ajusta a la normal debe aplicarse el test de Mann-Withney.

4c: Obsérvese el cálculo de los valores de las dos componentes para los cuatro puntos:

Los puntos c y el d son los que están más a la derecha porque son los que tienen un valor mayor para la componente 1. El c es el que está más arriba, mirando los valores que tienen el c y el d en la componente 2.

5d: Al aumentar el tamaño de muestra el p-valor bajará, al disminuir la desviación estándar el p-valor bajará y al disminuir la diferencia de medias el p-valor subirá. El único perfil que supone: bajada, bajada y subida es el d.

6b: Si la OR no es significativa, porque la p es superior a 0.05, es que no hay relación. Como se trata de una tabla 2×2 el valor de la ji-cuadrado tiene que ser menor que el umbral (3.84), no mayor.

7b: Los dos factores son significativos y hay interacción. En otoño todos los fármacos van igual, cosa que no sucede en otras estaciones. Esto representa que el comportamiento de los fármacos depende de la estación en la que se apliquen: esto es lo que es la interacción.

8c: El valor esperado por grupo es 3 que, como es menor que 5 nos lleva seguro al Test exacto de Fisher.

9b: Obsérvese el cálculo de los valores de las dos componentes para los cuatro puntos:

Los puntos a y el b son los que están más a la izquierda porque son los que tienen un valor menor para la componente 1. El b es el que está más abajo, mirando los valores que tienen el a y el b en la componente 2.

10b. Al aumentar el tamaño de muestra el p-valor bajará, al aumento la desviación estándar el p-valor subirá y al aumentar la diferencia de medias el p-valor bajará. El único perfil que supone: bajada, subida y bajada es el b.

 

Situación 138: Examen (Temas 8-17 y 19)

1.¿En cuál de estas afirmaciones no hay compatibilidad?

a.En un contrate de hipótesis de igualdad de medias una p=0.01 y un IC del 95% de la diferencia de medias entre ambas poblaciones de (0.15, 0.44).

b.En una Odds ratio una p=0.22 y un IC del 95% de (-0.13, 0.56).

c.En una tabla de contingencias 3×2 un valor de ji-cuadrado de 4.3 y un p-valor superior a 0.05.

d. En una ANOVA de un factor una p=0.67 y tener un único grupo homogéneo entre los cinco niveles que estamos comparando.

2.Tenemos los siguientes datos en un estudio donde se aplican dos tratamientos distintos (1 y 2) a un grupo de pacientes que tienen una determinada patología y que se han diferenciado según su grupo sanguíneo.  Con los datos obtenidos se pretende ver la diferencia entre tratamientos, entre grupos sanguíneos y si hay o no interacción. ¿Cuál es la afirmación más razonable respecto a los resultados que podríamos obtener en el ANOVA?:

a.Factor Tratamiento: p<0.05. Factor Grupo sanguíneo: p>0.05. Interacción: p>0.05.

b.Factor Tratamiento: p<0.05. Factor Grupo sanguíneo: p<0.05. Interacción: p<0.05.

c.Factor Tratamiento: p>0.05. Factor Grupo sanguíneo: p<0.05. Interacción: p<0.05.

d.Factor Tratamiento: p>0.05. Factor Grupo sanguíneo: p<0.05. Interacción: p>0.05.

3.En un estudio donde se quiere comparar dos psicoterapias tenemos 100 pacientes que repartimos en dos grupos de igual tamaño. A cada grupo le aplicamos sólo uno de los dos tratamientos a comparar. Evaluamos una variable cuantitativa. El test de Shapiro-Wilk de la primera muestra tiene una p=0.22 y el de la segunda muestra tiene una p=0.03. El test de Fisher-Snedecor nos proporciona una p=0.01. Es cierto lo siguiente:

a.Debemos aplicar el test de la t de Student para varianzas desiguales.

b.Debemos aplicar el test de Mann-Whitney.

c.Debemos aplicar el test de la t de Student para varianzas iguales.

d.Debemos aplicar el test de la t de Student de datos apareados.

4.¿Cuál es el punto 4 en un Análisis de Componentes Principales con las dos siguientes primeras componentes principales:

a.(2, 1, 0, 4, 2, 4)

b.(1, 4, 4, 1, 2, 0)

c.(5, 3, 3, 5, 4, 5)

d.(3, 5, 5, 3, 5, 3)

5.En un estudio de comparación de dos poblaciones partimos de unos datos iniciales concretos y calculamos el p-valor con la técnica adecuada. Seguidamente introducimos nuevos valores de ambas muestras que no teníamos previamente aumentando, pues, el tamaño de ambas muestras y obteniendo la misma media y la misma desviación estándar en ambas muestras y volvemos a calcular el p-valor. Después detectamos que la desviación estándar era más baja de la que habíamos calculado y volvemos a calcular el p-valor. Finalmente, detectamos que la diferencia de medias es más pequeña de la que habíamos calculado previamente y volvemos a calcular el p-valor. ¿Cuál de las siguientes es la secuencia de p-valores que podríamos tener?

a.0.23/0.13/0.21/0.16.

b.0.52/0.14/0.77/0.62.

c.0.12/0.03/0.01/0.001.

d.0.12/0.01/0.001/0.01.

6.¿En cuál de las siguientes afirmaciones no hay compatibilidad?

a.En una diferencia de medias con un IC 95%: (0.85, 5.45) y un p-valor de 0.02.

b.En una OR de 1.34 con p=0.34 y una ji-cuadrado de 4.32.

c.En un ANOVA de dos factores una p=0.23 del primer factor, una p=0.89 del segundo factor y una p=0.00001 de la interacción.

d.Una V de Crámer con un valor de 0 y una ji-cuadrado con una  p=1.

7.Tenemos los siguientes datos en un estudio donde se aplican tres fármacos (A, B, C) en pacientes con la misma patología de las cuatro estaciones del años.  Con los datos obtenidos se pretende ver la diferencia entre fármacos, entre estaciones y ver, finalmente, si hay o no interacción. ¿Cuál es la afirmación más razonable respecto a los resultados que podríamos obtener en el ANOVA?:

a.Factor Fármaco: p<0.05. Factor Estación: p>0.05. Interacción: p<0.05.

b.Factor Fármaco: p<0.05. Factor Estación: p<0.05. Interacción: p<0.05.

c.Factor Fármaco: p<0.05. Factor Estación: p<0.05. Interacción: p>0.05.

d.Factor Fármaco: p>0.05. Factor Estación: p<0.05. Interacción: p>0.05.

8.Hemos de comparar dos formas de rehabilitación psicológica a pacientes que han sufrido un infarto cerebral. La variable analizada es si después de un año el paciente consigue superar un umbral previamente establecido en un test psicotécnico. Se ha trabajado con 100 pacientes. 50 en cada grupo. Cada paciente recibe un único tratamiento. Después del año en un grupo un 7% consigue la rehabilitación psicológica. En el otro grupo un 5% lo consigue. Para ver si esas diferencias son estadísticamente significativas debemos:

a.Aplicar un Test de Wilcoxon.

b.Aplicar un Test de proporciones.

c.Aplicar un Test exacto de Fisher.

d.Aplicar un Test de McNemar.

9.¿Cuál es el punto 2 en un Análisis de Componentes Principales con las dos siguientes primeras componentes principales:

a.(2, 1, 0, 4, 2, 4)

b.(1, 4, 4, 1, 2, 0)

c.(5, 3, 3, 5, 4, 5)

d.(3, 5, 5, 3, 5, 3)

10.En un estudio de comparación de dos poblaciones partimos de unos datos iniciales concretos y calculamos el p-valor con la técnica adecuada. Seguidamente introducimos nuevos valores de ambas muestras que no teníamos previamente aumentando, pues, el tamaño de ambas muestras y obteniendo la misma media y la misma desviación estándar en ambas muestras y volvemos a calcular el p-valor. Después detectamos que la desviación estándar era más alta de la que habíamos calculado y volvemos a calcular el p-valor. Finalmente, detectamos que la diferencia de medias es más grande de la que habíamos calculado previamente y volvemos a calcular el p-valor. ¿Cuál de las siguientes es la secuencia de p-valores que podríamos tener?

a.0.23/0.13/0.21/0.36.

b.0.52/0.14/0.77/0.62.

c.0.12/0.03/0.01/0.001.

d.0.12/0.01/0.001/0.01.