Archivo del Autor: estadisticallopis

La Endocarditis infecciosa y su profilaxis: Una mirada desde la Estadística

La Endocarditis infecciosa es una infección, habitualmente bacteriana, del endocardio (el tejido interno del corazón), especialmente a nivel de las válvulas cardíacas. Esta enfermedad ha tenido tres momentos completamente distintos en cuanto a su pronóstico: Hasta la aparición, entre los años 30 y 40 del siglo XX, de los primeros fármacos antimicrobianos la enfermedad era prácticamente mortal en el 100% de casos. A partir de aquel momento se apreció el primer salto hacia un cierto control de esa enfermedad. Hacia los años 70 se produjo un nuevo salto: la cirugía valvular. Desde entonces se ha estabilizado la situación y, aunque el perfil de tipos de endocarditis ha cambiado en los últimos años, se mantiene un nivel de mortalidad intrahospitalaria del 20-25% y de una mortalidad al año del 30-35%.

El International Collaboration on Endocarditis (ICE) publicó el año 2009 un importante artículo que mostraba cuál era la situación actual, a nivel mundial, de esta infección. El abstract de ese artículo es el siguiente:

IMG_0718

Los valores de variables basales de los pacientes de esa cohorte, en el total y distribuidos según distintas zonas en el mundo, son los siguientes:

IMG_0699

Los principales signos que presentan estos pacientes son los siguientes:

IMG_0700

La etiología bacteriana muestra la siguiente distribución por zonas:

IMG_0714

La distribución de la etiología microbiana según el tipo de Endocarditis infecciosa es el siguiente:

IMG_0715

En cuanto a la distribución de las válvulas afectadas por vegetaciones, las complicaciones, el tratamiento y las variables resultado, tenemos la siguiente distribución por zonas:

IMG_0716

En cuanto a las variables que tienen una asociación con la mortalidad intrahospitalaria la tabla nos muestra las significativas y la magnitud de esa significación:

IMG_0717

Como puede observarse mediante la Odds ratio: la edad, el que sea una endocarditis sobre prótesis valvular, la presencia de edema pulmonar, la infección por Staphylococcus aureus, la infección por Staphylococcus coagulasa negativos, la presencia de vegetaciones en la válvula mitral y las complicaciones paravalvulares (abscesos, fístulas), son factores que incrementan la probabilidad de muerte intrahospitalaria; o sea, muerte durante el ingreso. Sin embargo, una elevada velocidad de sedimentación eritrocitaria, una infección por Streptococcus del grupo viridans, o la cirugía, son factores que disminuyen la probabilidad de muerte introhospitalaria.

Recordemos que una Odds ratio para ver si es significativa hay que ver si su p-valor es inferior a 0.05 ó que su intervalo de confianza no contenga al 1. Si es significativa y mayor que 1 es un factor que aumenta la asociación con lo que estamos evaluando; en nuestro caso con la muerte intrahospitalaria (es, pues, un factor de riesgo). Si es significativa y menor que 1 es un factor que disminuye esa asociación (es, pues, en este caso, un factor de protección).

Desde hace muchos años se ha venido realizado profilaxis antibiótica ante procedimientos invasivos que supongan riesgo de bacteriemia (presencia bacteriana en sangre) y, por lo tanto, riesgo de Endocarditis infecciosa. Sin embargo, en los últimos años distintos organismos médicos de diferentes países, muy importantes sanitariamente, han realizado cambios en la profilaxis antibiótica ante esos procedimientos invasivos. En unos países se ha suprimido completamente esa profilaxis y, en otros, se ha mantenido únicamente para ciertos pacientes con mayor riesgo (portadores de prótesis valvular, pacientes que habían tenido una Endocarditis previa, pacientes con alguna cardiopatía congénita, etc.).

En buena parte los cambios vinieron por trabajos como el siguiente:



Con unos datos muy explícitos, como los siguientes:





Después de estos cambios en el nivel de exigencia profiláctica se han hecho diversos estudios evaluando la incidencia de los cambios. Recojo a continuación cuatro estudios distintos que evalúan estos cambios.

El primero viene de Francia. El abstract es:

IMG_0712

Fundamentalmente los datos aportados por este estudio se sintetizan en el siguiente gráfico:

IMG_0713

Otro estudio es en Inglaterra. El abstract es:

IMG_0707

En este artículo se exponen diversos gráficos muy ilustrativos. Uno es el cambio de consumo de antibióticos a nivel porfiláxico:

IMG_0708

Y el otro es el cambio en la incidencia de endocarditis en la población:

IMG_0709

Respecto a las medidas de cambios realizadas en EEUU tenemos dos estudios. El primero tiene como abstract:

IMG_0701

Se exponen los siguientes gráficos y tablas:

IMG_0702

IMG_0703

El otro estudio es el siguiente:

IMG_0704

Con los siguientes gráficos ocupando un punto central del estudio:

IMG_0705

IMG_0706

Como puede apreciarse el único estudio que detecta un cierto aumento de la incidencia de Endocarditis infecciosa tras el cambio de estrategia es el de Inglaterra, curiosamente el único lugar donde el cambio fue completamente radical.

Base de datos de Demencias 2: Estadística descriptiva e intervalos de confianza

En la base de datos de Demencias que aparece en el artículo Base de datos de Demencias 1: Base de datos, aplicar los siguientes técnicas estadísticas:

1. Hacer una estadística descriptiva de las variables Nivel de estudios, Diabetes, Hipertensión y Enfermedad coronaria, en los 200 pacientes de la base de datos.

2. Hacer una estadística descriptiva (Media y Desviación estándar o Mediana y Rango intercuartílico) del nivel de Mini-Mental, a los 3 años del diagnóstico, de los pacientes con Alzhéimer, otra de los pacientes con Demencia Vascular y, finalmente, otra de los pacientes con Demencia Mixta.

3. Hacer un Box-Plot del nivel del Mini-Mental, a los 3 años del diagnóstico, de los 150 pacientes con el diagnóstico de alguna de las tres demencias.

4. Construir un intervalo de confianza del 95% del porcentaje de diabetes, del porcentaje de hipertensión y del porcentaje de enfermedad coronaria que hay en la población que representa esta muestra en su globalidad; o sea, teniendo en cuenta la muestra de tamaño 200.

5. Construir un intervalo de confianza del 95% de la media del Mini-Mental que tienen, a los tres años del diagnóstico, los pacientes con Alzhéimer, otro intervalo también de la media de los pacientes con Demencia vascular, finalmente, otro de los pacientes con Demencia mixta.

 Soluciones:

IMG_1295

IMG_1296

IMG_1297

IMG_1298

IMG_1299

 

Base de datos de Demencias 1: Base de datos

La siguiente base de datos de pacientes de demencia tiene la siguientes variables:

P=Número de Paciente

G=Grupo (Control, Alzhéimer, Demencia vascular y Demencia mixta)

S=Sexo

E=Edad

ES=Nivel de estudios (A=Analfabeto, P=Primarios, M=Mediosy S=Superiores)

D=Diabetes mellitus

H=Hipertensión

C=Enfermedad coronaria

MM0=Valor del Mini-Mental State Examination (MMSE) en el diagnóstico

MM3=Valor del Mini-Mental a los 3 años del diagnóstico

Dif=MM0-MM3

VH3=Volumen del Hipocampo a los 3 años del diagnóstico en cc

P G S E ES D H C MM0 MM3 Dif VH3
1 Control h 60 P Si Si No 27 27 0 5.5
2 Control h 79 M No No No 27 27 0 5.5
3 Control h 71 M No Si No 27 28 -1 5.7
4 Control h 66 P Si No Si 28 27 1 5.4
5 Control m 69 A No No Si 27 27 0 5.3
6 Control m 62 M No Si No 30 30 0 6.1
7 Control m 60 P Si Si No 28 28 0 6.0
8 Control m 63 P Si No No 27 27 0 5.4
9 Control m 77 P No No Si 28 28 0 5.6
10 Control h 63 M No Si No 28 28 0 5.6
11 Control h 79 P Si Si No 29 29 0 5.8
12 Control h 55 S Si Si No 27 27 0 5.5
13 Control m 72 P No No No 29 29 0 5.5
14 Control m 68 P No No No 29 29 0 5.7
15 Control h 81 M No Si Si 28 28 0 5.6
16 Control h 71 P No Si Si 27 27 0 5.3
17 Control m 61 M No No No 27 27 0 5.4
18 Control m 76 P Si No No 27 27 0 5.4
19 Control m 72 P No No No 30 29 1 6.2
20 Control m 63 A No Si No 28 28 0 5.7
21 Control m 67 M No No No 28 28 0 5.5
22 Control h 69 P Si Si No 28 28 0 5.6
23 Control h 60 P No No No 28 28 0 5.7
24 Control m 64 P No No Si 28 28 0 5.9
25 Control m 73 M Si Si Si 30 30 0 6.0
26 Control m 66 P Si Si No 29 29 0 5.5
27 Control m 76 S No No No 27 28 -1 5.8
28 Control h 75 P No No No 27 27 0 5.6
29 Control m 62 P Si Si Si 29 29 0 5.6
30 Control m 78 M Si Si No 28 27 1 5.6
31 Control h 57 P No No No 29 27 2 5.2
32 Control h 58 M No No No 28 29 -1 5.7
33 Control m 63 P Si Si No 28 29 -1 5.8
34 Control m 65 P No No No 26 27 -1 5.5
35 Control m 74 A No No Si 27 27 0 5.2
36 Control m 61 M Si Si Si 29 29 0 6.2
37 Control h 71 P No No No 27 29 -2 6.2
38 Control m 71 P No No No 27 28 -1 5.5
39 Control m 63 P Si Si No 28 28 0 5.4
40 Control h 67 M Si No No 29 29 0 6.0
41 Control h 69 P No Si No 28 30 -2 6.1
42 Control m 63 P No Si Si 27 29 -2 5.6
43 Control m 75 P Si No Si 29 27 2 5.8
44 Control m 69 P Si No No 27 26 1 5.1
45 Control m 62 M No Si No 30 30 0 5.6
46 Control m 66 M No No No 27 28 -1 5.8
47 Control h 57 P Si No Si 26 26 0 4.9
48 Control h 62 P No Si No 29 28 1 5.9
49 Control h 59 A No Si No 29 28 1 5.4
50 Control m 72 M Si No No 28 28 0 5.4
51 Alzhéimer m 78 P No No Si 24 22 2 4.4
52 Alzhéimer m 73 P No Si No 24 21 3 4.3
53 Alzhéimer m 63 P No No No 23 21 2 4.2
54 Alzhéimer h 65 M Si No No 23 20 3 4.0
55 Alzhéimer m 67 P Si Si No 23 20 3 4.1
56 Alzhéimer m 66 A No Si No 24 20 4 4.0
57 Alzhéimer h 75 P No No Si 22 18 4 3.6
58 Alzhéimer h 62 P Si No Si 21 17 4 3.4
59 Alzhéimer m 71 M No Si No 23 20 3 4.1
60 Alzhéimer m 59 P No No No 20 16 4 3.3
61 Alzhéimer m 66 M Si No No 24 21 3 4.3
62 Alzhéimer m 64 P Si Si No 23 20 3 4.1
63 Alzhéimer m 65 P No Si No 22 17 5 3.5
64 Alzhéimer h 71 A No No Si 24 22 2 4.5
65 Alzhéimer h 68 M Si No Si 21 18 3 3.7
66 Alzhéimer h 73 P No Si No 21 20 1 4.1
67 Alzhéimer m 64 P No Si No 21 18 3 3.6
68 Alzhéimer m 60 P Si No No 22 19 3 3.8
69 Alzhéimer m 76 M Si No Si 21 18 3 3.6
70 Alzhéimer m 64 P No Si No 23 20 3 4.0
71 Alzhéimer h 68 S No No No 22 18 4 3.7
72 Alzhéimer m 63 P Si No No 23 20 3 4.1
73 Alzhéimer m 68 P No Si Si 21 18 3 3.7
74 Alzhéimer h 73 M No No No 21 20 1 4.1
75 Alzhéimer h 62 P Si No No 20 17 3 3.4
76 Alzhéimer m 65 M Si Si No 23 19 4 3.9
77 Alzhéimer m 76 P No Si No 22 20 2 4.0
78 Alzhéimer m 61 P No No No 21 17 4 3.4
79 Alzhéimer m 67 A Si No Si 21 18 3 3.7
80 Alzhéimer m 64 M No Si Si 21 18 3 3.7
81 Alzhéimer h 64 P No Si No 24 21 3 4.3
82 Alzhéimer m 69 P Si No No 20 18 2 3.7
83 Alzhéimer m 74 P Si No No 22 19 3 3.9
84 Alzhéimer m 57 M No Si No 24 19 5 3.9
85 Alzhéimer h 67 P No No No 23 20 3 4.0
86 Alzhéimer h 73 S Si No Si 22 19 3 3.9
87 Alzhéimer m 74 P No Si Si 21 19 2 3.8
88 Alzhéimer m 72 P No Si No 21 18 3 3.7
89 Alzhéimer m 78 M No No Si 24 21 3 4.3
90 Alzhéimer m 68 M No No No 23 19 4 3.8
91 Alzhéimer h 73 P No Si No 20 18 2 3.7
92 Alzhéimer m 64 P No No No 23 20 3 4.0
93 Alzhéimer h 75 A Si No No 22 18 4 3.7
94 Alzhéimer h 63 M No Si No 23 20 3 4.0
95 Alzhéimer m 79 P No Si Si 21 20 1 4.0
96 Alzhéimer m 77 P Si No Si 24 22 2 4.4
97 Alzhéimer m 76 P Si No No 21 18 3 3.7
98 Alzhéimer m 62 M No No No 22 17 5 3.4
99 Alzhéimer h 70 P No No No 21 18 3 3.7
100 Alzhéimer m 73 P Si Si No 21 19 2 3.9
101 Vascular m 73 P Si Si No 20 17 3 5.3
102 Vascular h 75 P No No Si 20 14 6 5.5
103 Vascular h 72 M No Si Si 20 14 6 5.5
104 Vascular m 71 P Si No No 21 13 8 5.7
105 Vascular m 78 M No No No 18 12 6 5.4
106 Vascular m 61 P No Si No 20 14 6 5.3
107 Vascular h 66 P Si No Si 21 16 5 6.1
108 Vascular h 69 A No No No 19 13 6 6.0
109 Vascular m 76 M No Si No 20 14 6 5.4
110 Vascular m 77 P No Si No 18 16 2 5.6
111 Vascular m 73 P Si No No 20 14 6 5.5
112 Vascular m 61 P Si No No 20 13 7 5.5
113 Vascular h 72 M No Si Si 18 12 6 5.7
114 Vascular m 56 P No No Si 20 18 2 5.4
115 Vascular m 63 P Si No No 20 14 6 5.3
116 Vascular h 67 P Si Si No 20 16 4 6.1
117 Vascular h 63 S Si Si No 21 14 7 6.0
118 Vascular m 73 M Si No No 20 14 6 5.4
119 Vascular m 55 P Si No No 19 12 7 5.6
120 Vascular m 65 M No No Si 20 13 7 5.5
121 Vascular m 58 P Si No Si 21 16 5 5.5
122 Vascular h 74 P Si Si No 21 15 6 5.7
123 Vascular h 61 P No Si No 20 15 5 5.4
124 Vascular m 70 M Si Si Si 21 14 7 5.3
125 Vascular m 58 P Si Si No 20 14 6 6.1
126 Vascular m 62 P Si Si No 21 14 7 6.0
127 Vascular m 63 P No Si No 21 14 7 5.4
128 Vascular h 61 M No No No 18 13 5 5.6
129 Vascular m 71 P Si Si No 18 11 7 5.6
130 Vascular m 60 P Si Si Si 21 15 6 5.8
131 Vascular h 77 P No Si Si 20 12 8 5.5
132 Vascular h 73 P No Si No 19 13 6 5.2
133 Vascular m 69 M Si No No 18 13 5 5.7
134 Vascular m 69 P No No No 18 12 6 5.8
135 Vascular m 78 M No Si No 18 10 8 5.5
136 Vascular h 57 P Si No No 21 15 6 5.2
137 Vascular h 64 S Si No Si 19 14 5 6.2
138 Vascular m 60 P Si Si Si 20 14 6 6.2
139 Vascular m 62 P Si Si No 18 13 5 5.5
140 Vascular m 72 M Si No No 18 12 6 5.4
141 Vascular m 72 P No No No 19 12 7 6.0
142 Vascular h 79 M Si No Si 19 13 6 6.1
143 Vascular m 62 P Si Si No 18 12 6 5.6
144 Vascular m 75 P Si Si Si 21 14 7 5.8
145 Vascular h 68 P Si No No 21 15 6 5.1
146 Vascular h 60 M No No No 19 12 7 5.6
147 Vascular m 60 P Si Si No 19 12 7 5.8
148 Vascular m 79 P Si Si No 20 15 5 4.9
149 Vascular h 67 P No No No 18 14 4 5.9
150 Vascular h 59 S No No Si 18 12 6 5.4
151 Mixta m 65 P Si Si Si 21 15 6 4.2
152 Mixta m 78 P No No No 20 16 4 4.1
153 Mixta m 66 P No No No 20 16 4 4.2
154 Mixta m 64 P Si Si No 19 15 4 4.1
155 Mixta h 55 M Si Si No 21 17 4 4.3
156 Mixta m 63 P No No No 21 17 4 4.5
157 Mixta m 66 M No No Si 20 16 4 4.2
158 Mixta h 65 P Si Si Si 19 15 4 4.2
159 Mixta h 70 P No Si No 21 17 4 4.2
160 Mixta m 71 P No Si No 19 15 4 4.2
161 Mixta m 64 M Si No No 21 18 3 4.3
162 Mixta h 79 P Si No No 20 16 4 3.8
163 Mixta h 63 P No Si Si 18 15 3 4.0
164 Mixta m 60 P No No No 20 16 4 4.3
165 Mixta m 56 P Si No No 19 16 3 4.4
166 Mixta m 78 M Si Si No 19 13 6 3.5
167 Mixta m 67 P No Si No 19 15 4 4.1
168 Mixta h 74 S No No No 19 17 2 4.2
169 Mixta m 60 P Si No Si 21 14 7 4.1
170 Mixta m 77 P No Si Si 18 14 4 3.7
171 Mixta h 72 M No Si No 21 18 3 4.6
172 Mixta h 76 P Si No No 20 15 5 4.1
173 Mixta m 71 M No No No 18 14 4 3.9
174 Mixta m 64 P No Si No 21 16 5 4.1
175 Mixta h 79 P Si No No 20 15 5 3.9
176 Mixta h 58 M Si No No 20 16 4 3.8
177 Mixta m 73 M Si Si Si 20 16 4 4.3
178 Mixta m 72 P No No No 18 13 5 3.5
179 Mixta m 70 P No No No 20 14 6 3.7
180 Mixta m 72 P Si Si No 19 15 4 4.2
181 Mixta h 70 M No No No 21 19 2 4.8
182 Mixta m 74 P No Si No 20 16 4 3.9
183 Mixta m 78 P Si No Si 19 15 4 4.1
184 Mixta h 60 P Si No Si 20 15 5 4.1
185 Mixta h 64 P No Si No 20 16 4 4.2
186 Mixta m 62 M No No No 20 16 4 3.9
187 Mixta m 67 P Si No No 21 17 4 4.3
188 Mixta m 79 M No Si No 21 16 5 4.2
189 Mixta h 70 P No Si No 18 14 4 3.9
190 Mixta h 70 P Si No Si 19 14 5 3.4
191 Mixta m 77 A Si No Si 18 14 4 3.6
192 Mixta m 78 M No Si No 19 14 5 3.8
193 Mixta m 66 P No No No 20 14 6 3.6
194 Mixta m 74 P Si Si No 21 15 6 4.0
195 Mixta h 78 P Si Si Si 20 16 4 3.8
196 Mixta m 67 M No Si No 21 16 5 4.4
197 Mixta m 72 P No Si No 19 15 4 4.1
198 Mixta h 70 S Si Si No 18 13 5 3.4
199 Mixta h 68 P No Si No 20 17 3 4.5
200 Mixta m 75 P No Si No 19 14 5 3.6

 

Para quien quiera ver el Mini-Mental aquí lo tiene. Se puntúa del 0-30. Entre 27 y 30 se considera un valor normal. A partir de ese intervalo y cuando más bajo sea el valor más importante es el deterioro cognitivo:

IMG_0664

IMG_0665

Solución Situación 78

1d: Para tener un índice de Gini tan pequeño hace falta que los valores muestrales sean muy similares. La única muestra que cumple tal cosa es ésta. Las demás tienen mucha dispersión.

2b: El tercer cuartil es 8 y el primero 7. Por lo tanto, el rango intercuartílico es 1.

3b: El error estándar en esta muestra es 10, porque la desviación estándar es 100 y la raíz cuadrada del tamaño de muestra es 10. Luego 100/10=10. Si construímos un intervalo de confianza de la media lo haremos con ese error estándar. Para construir un intervalo de confianza del 99.5% de la media deberemos sumar tres veces y restar tres veces el error estándar a la media de la muestra. Tres veces 10 es 30. Por lo tanto, el intervalo de confianza será (70, 130).

La respuesta d, que dice que no podemos tener una muestra con media, desviación estándar y tamaño de muestra iguales a 100, es absurda. Claro que la podemos tener. Si tenemos una variable que pueda tener tanto valores positivos como negativos, claro que puede darse perfectamente esta situación.

4d: Es evidente que se trata de una correlación de elevada magnitud, pero no es significativa. El p-valor es superior a 0.05. Si queremos ver si esta correlación es fiable, y no fruto del azar, deberemos aumentar el tamaño de muestra.

5d: No es una gran correlación, pero es la única que es significativa.

6a: Esta regresión puede ser perfectamente, porque la pendiente es negativa, como la correlación. El signo de la correlación y el de la pendiente de la recta deben ser necesariamente el mismo. La respuesta b no es posible porque la pendiente es positiva y esto es incompatible con lo que acabamos de decir. La respuesta c tampoco es posible porque no introduce el efecto de la variable independiente x, y sabemos que la relación con la variable dependiente es significativa. Si hay relación significativa la variable debe entrar en la fórmula de la regresión.

7d: Es evidente que con una misma desviación estándar el índice de Gini podrá cambiar dependiente de la suma de todos los valores de la muestra. Por ejemplo, la muestra (1, 1, 2, 2) tiene la misma desviación estándar que la muestra (1000, 1000, 1001, 1001) pero el índice de Gini no, porque el reparto del total es más equilibrado en esta segunda muestra que en la primera. El índice de Gini capta este reparto relativo del todo. El índice de Gini de la primera muestra será mayor que el de la segunda muestra.

8c: Como el tamaño de la muestra es par para calcular la mediana debemos ordenar la muestra y hacer el promedio de los dos valores centrales. Los dos valores centrales de esta muestra son 1 y 5. Su promedio es 3.

9c: Si observamos en el tema 8 los ejemplos propuestos en el análisis de la relación entre dos variables cualitativas dicotómicas veremos que en toda tabla de contingencias 2×2 siempre el valor umbral de referencia para ver la significación es 3,84. Como 3 es menor que 3,84 el p-valor será superior a 0.05. Ver el último dibujo del tema 8.

10d: Observemos que tenemos un caso un tanto especial. Tenemos una variable claramente cuantitativa (caudal del río) y una variable dicotómica (nivel de mercurio por encima o por debajo de un cierto valor). Para calcular una correlación de Pearson deberían ser las dos variables cuantitativas y para hacer una ji-cuadrado deberían ser las dos variables cualitativas. No es el caso. Por lo tanto, no estamos en las condiciones de aplicación ni de una ni de la otra técnica estadística.

 

Situación 78: Examen (Temas 1-8)

1. Si en una muestra tenemos un índice de Gini es 0.1, ¿cuál de las siguientes muestras es la más compatible con ese valor:

a. (1, 1, 1, 2, 2, 5, 7, 12, 12, 12, 23, 24).

b. (1, 1, 1, 2, 2, 5, 7, 12, 12, 12, 23, 240).

c. (2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 300).

d. (2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3).

2. En la muestra (7, 7, 7, 8, 8, 8, 8, 27):

a. La mediana es 7.5.

b. El rango intercuartílico es 1.

c. El índice de Gini es 1.

d. El primer cuartil no existe porque los valores más bajos son iguales.

3. En una muestra de tamaño 100 con media 100 y desviación estándar 100 es cierto:

a. Un intervalo de confianza de la media del 95% sería (98, 102).

b. Un intervalo de confianza de la media del 99.5% sería (70, 130).

c. Un intervalo de confianza de valores individuales del 95% sería (80, 120).

d. No puede darse una muestra de tamaño 100 con media 100 y desviación estándar 100.

4. Si en una muestra donde hemos evaluado dos variables cuantitativas tenemos una correlación r=-0.8 (p>0.05) podemos decir:

a. El tamaño de muestra es muy grande.

b. Como la correlación es mayor de 0.5 es significativa.

c. Una regresión entre estas dos variables nos daría mucha capacidad pronóstica porque el coeficiente de determinación es superior al 50%.

d. Se trata de una correlación no significativa. Deberíamos aumentar el tamaño de muestra para ver si esta tendencia que se aprecia acaba confirmándose como estadísticamente significativa al aumentar la muestra.

5. ¿Qué correlación es mayor?

a. r=-0.6 (p=0.23)

b. r=0.90 (p=0.45)

c. r=-0.45 (p=0.87)

d. r=0.23 (p=0.01).

6. Si la correlación entre dos variables es r=-0.9 (p<0.05), es cierto:

a. La relación lineal entre ambas variables puede ser y=-3x-18.

b. La relación lineal entre ambas variables puede ser y=5x+15.

c. La relación lineal entre ambas variables puede ser y=18.

d. Ninguna de las tres relaciones lineales anteriores puede ser.

7. En una muestra donde sabemos que la desviación estándar es 5:

a. El índice de Gini será 0.

b. El índice de Gini será un valor fijo, independientemente de cuáles sean los valores concretos de la muestra.

c. El índice de Gini será 1.

d. El índice de Gini puede ser muy cambiante dependiendo de la magnitud de los valores.

8. En cuál de las siguientes muestras la mediana vale 3:

a. (1, 1, 2, 2, 3, 3, 12, 12)

b. (1, 1, 2, 2, 3, 3, 12, 12)

c. (1, 1, 1, 1, 5, 7.5, 12 12)

d. (1, 1, 3, 3, 4, 12, 12, 12)

9. Si en la relación entre dos variables dicotómicas (con dos valores posibles cada una de ellas) tenemos un valor de la ji-cuadrado (cálculo de la suma de los cuadrados de observado menos esperado divididos por el esperado) igual a 3:

a. El p-valor será menor que 0.05.

b. El p-valor será 0.05.

c. El p-valor será mayor que 0.05.

d. El p-valor no sabemos cuál puede ser porque nos faltaría saber el tamaño de muestra.

10. Entre la variable Caudal de un río un día y que el nivel de mercurio esté por encima o por debajo de un determinado umbral:

a. La correlación de Pearson nos medirá el grado de relación muy adecuadamente.

b. Necesitamos aplicar un test de la ji-cuadrado para evaluar si hay o no relación entre esas variables.

c. No podemos tener un p-valor porque hablamos de la relación entre una variable cuantitativa y una cualitativa.

d. No podemos ni medir una correlación de Pearson ni una ji-cuadrado porque no estamos en las condiciones que exigen esas dos técnicas estadísticas.

Solución Situación 77

1. Se trata de un ANOVA de dos factores, uno fijo (Sistema) y el otro aleatorio (Operario) y anidado en el primero.

Los resultados del ANOVA aplicado son los siguientes:

IMG_0547

 

Se cumplen las condiciones del modelo: normalidad, igualdad de varianzas e independencia.

El modelo es un ANOVA de dos factores anidados a efectos mixtos.

Únicamente resulta significativo el factor fijo «Sistema». Por eso aplicamos unas comparaciones múltiples y podemos ver que es el control C (el grupo al que no se aplica ningún tratamiento) el que se aparta de los otros dos niveles.

El factor Operario no es significativo. No obstante, hemos estimado su componente de la varianza, que es 3,24.

La media general es 13,95 y los tres parámetro del factor sistema son: -10,03, 8,23 y 1,80.

2. Se trata de un ANOVA de tres factores, dos fijos (Sistema y Calentar), cruzados, y uno aleatorio (Operario) anidado en la interacción de los dos factores fijos y cruzados.

El modelo es el mismo que el visto en el problema de la Situación 45, podemos verlo en la Solución Situación 45.

Los resultados son los siguientes:

IMG_0548

 

Todo es significativo excepto Operario. No obstante, hemos estimado también la componente de la varianza de operario que es 2,55. La componente de la varianza residual es 3,17.

Podemos ver también la estimación de los parámetros de los factores fijos del modelo. La media general es 21,49, los parámetros del factor Sistema son -10,36, 8,18 y 2,18, y los parámetros de la interacción -4,62, 4,62, 5,06, -5,06, -0,44 y 0,44.

Respecto a la pregunta de la probabilidad de que la medición sea superior a 31 en el caso de tratarse del Tratamiento 1 con calentamiento, debemos calcular la media muestral de este grupo (que es 32,495) y tomar como varianza la suma de la residual y de la debida a operario (esta es cuestionable por el hecho de no ser significativa): Por lo tanto, sería o la Raíz cuadrada de 3,17 ó la Raíz cuadrada de 3,17+2,55. Se trataría pues de una normal N(32,495; 1.78) o de una normal N(32,495; 2.39). Entonces, se trata de calcular en una de estas dos campanas de Gauss la probabilidad de tener valores por encima de 31. Vamos a calcularlo con la segunda opción que posiblemente sea la más razonable, debido a que los operarios alguna fuente de variación introducen, aunque no sea suficientemente grande como para que el contraste de hipótesis lo marque como significativo. El área a la derecha de 31 en una normal N(32,495; 2.39) es 0,7342.

3. Se trata, ahora, de un ANOVA de tres factores, dos fijos (Sistema y Calentar) y uno aleatorio (Operario) anidado esta vez dentro del factor Sistema, no de la interacción como antes. El modelo sería el del problema de la Situación 41. Ver la Solución Situación 41.

4. Se trata de un ANOVA de tres factores, dos fijos (Sistema y Calentar) y uno aleatorio (Operario) y los tres factores están ahora cruzados.

Situación 77: Examen (Tema 15)

1. La medición de una determinada variable sanguínea se sabe que puede estar influida por un previo tratamiento de la muestra y, también, por el operario que la realiza. Para ello en un laboratorio de análisis clínicos se hace un experimento para evaluar la importancia de estos efectos.

Se toma una muestra homogénea y se divide en doce partes. A cuatro no se le realiza tratamiento previo (C), a otras cuatro se les hace un tratamiento previo T1 y otras cuatro un tratamiento T2. Se toman 6 operarios al azar. Cada uno de ellos hace el análisis de uno de los tipos dos veces; o sea, en dos de las muestras. Se obtienen los siguientes resultados:

Sistema Operario Medición
C 1 4,22
C 1 7,83
C 2 0,04
C 2 3,57
T1 3 19,55
T1 3 20,77
T1 4 22,98
T1 4 25,44
T2 5 13,85
T2 5 18,05
T2 6 14,06
T2 6 17,05

Estudiar las influencia del tratamiento previo y de la acción del operario en el resultado de la medición de la variable sanguínea.

2. A continuación se quiere ver lo mismo pero introduciendo una variante: haciendo el análisis previo calentamiento de la muestra o no, porque se piensa que también puede ser un factor que influya en el resultado final. El procedimiento del experimento es el mismo: cada una de las muestras de los tres sistemas anteriores se dividir en dos calentando una y no haciéndolo en la otra. Ahora se necesitan tomar, no obstante, 12 operarios. El cuadro de resultados es el siguiente:

Sistema Calentar Operario Medición
C No 1 5,65
C No 1 3,24
C No 2 2,06
C No 2 5,54
C Si 3 21,93
C Si 3 21,11
C Si 4 15,67
C Si 4 13,86
T1 No 5 27,15
T1 No 5 25,96
T1 No 6 28,25
T1 No 6 26,07
T1 Si 7 33,42
T1 Si 7 32,92
T1 Si 8 32,16
T1 Si 8 31,48
T2 No 9 8,86
T2 No 9 12,28
T2 No 10 14,3
T2 No 10 9,22
T2 Si 11 36,83
T2 Si 11 35,73
T2 Si 12 37,54
T2 Si 12 34,6

Estudiar la influencia ahora del tratamiento, del calentar o no la muestra y del operario.

Interesa también conocer la probabilidad de que al aplicar el tratamiento T1 con calentamiento de la muestra el valor de la medición sea superior a 31.

3. Si el experimento del apartado anterior se hubiera hecho con 6 operarios de la forma que marca el siguiente cuadro de datos, ¿cuál hubiera sido el modelo? Responder sin analizar los datos (por eso la medición no tiene valores):

Sistema Calentar Operario Medición
C No 1
C No 1
C No 2
C No 2
C Si 1
C Si 1
C Si 2
C Si 2
T1 No 3
T1 No 3
T1 No 4
T1 No 4
T1 Si 3
T1 Si 3
T1 Si 4
T1 Si 4
T2 No 5
T2 No 5
T2 No 6
T2 No 6
T2 Si 5
T2 Si 5
T2 Si 6
T2 Si 6

4. Plantear el modelo que tendríamos si el experimento se hubiera hecho sólo con dos operarios, según el siguiente planteamiento:

Sistema Calentar Operario Medición
C No 1
C No 1
C No 2
C No 2
C Si 1
C Si 1
C Si 2
C Si 2
T1 No 1
T1 No 1
T1 No 2
T1 No 2
T1 Si 1
T1 Si 1
T1 Si 2
T1 Si 2
T2 No 1
T2 No 1
T2 No 2
T2 No 2
T2 Si 1
T2 Si 1
T2 Si 2
T2 Si 2

 

Situación 76: Examen (Tema 1-8)

1. Si en una muestra tenemos un índice de Gini es 0.95, podemos decir:

a. Que existe menor dispersión de valores en la muestra que en una que tuviéramos un índice de 0.3.

b. Que existe una correlación positiva entre las variables.

c. Que no es un valor significativo.

d. Que existe mucha desigualdad de valores dentro de la muestra.

2. En la muestra (8, 6, 0, 16, 8, 6, 0, 16):

a. La mediana es 7.

b. El rango intercuartílico es 12.

c. El rango es 6.

d. El primer cuartil es 0.

3. En una muestra de tamaño 100 con media 100 y desviación estándar 10 es cierto:

a. Un intervalo de confianza de la media del 95% sería (97, 103).

b. Un intervalo de confianza de la media del 99.5% sería (98, 102).

c. Un intervalo de confianza de valores individuales del 95% sería (80, 120).

d. Un intervalo de confianza de valores individuales del 99.5% sería (90, 110).

4. Si en una muestra donde hemos evaluado dos variables cuantitativas tenemos una correlación r=0.2 (p<0.05) podemos decir:

a. El tamaño de muestra es menor de 5.

b. Como la correlación es menor de 0.5 no es significativa.

c. Una regresión entre estas dos variables nos daría poca capacidad pronóstica.

d. Ninguna de las tres afirmaciones anteriores es cierta.

5. ¿Qué correlación es mayor?

a. r=-0.6 (p=0.001)

b. r=0.90 (p=0.001)

c. r=-0.45 (p=0.001)

d. r=-0.95 (p=0.0001)

6. Si la correlación entre dos variables es r=-0.9 (p<0.05), es cierto:

a. El coeficiente de determinación es 90%.

b. El contraste de hipótesis de la pendiente de la recta de regresión puede no ser significativo.

c. El contraste de hipótesis de la pendiente de la recta de regresión será significativo y la pendiente será negativa.

d. El coeficiente de determinación no es lo suficientemente grande como para hacer predicciones con error aceptable.

7. En una muestra donde sabemos que la desviación estándar es 0:

a. El índice de Gini será 0.

b. El índice de Gini puede ser 0.5.

c. El índice de Gini será muy próximo a 0 porque hay muy poca desviación estándar.

d. El índice de Gini será 1.

8. El Box-Plot siguiente:

IMG_0265

corresponde a la muestra:

a. (1, 1, 2, 3, 3, 3, 12, 12)

b. (1, 1, 3, 3, 3, 3, 12, 12)

c. (1, 1, 2, 2, 7.5, 7.5, 12 12)

d. (1, 1, 3, 7.5, 7.5, 12, 12, 12)

9. Si en la relación entre dos variables tenemos un valor de la ji-cuadrado (cálculo de la suma de los cuadrados de observado menos esperado divididos por el esperado) igual a 0:

a. El p-valor será 1.

b. El p-valor será menor que 0.05.

c. El p-valor será 0.

d. El p-valor puede ser cualquier valor entre 0 y 1.

10. Entre la variable sexo y padecer o no diabetes podemos decir lo siguiente:

a. La correlación de Pearson nos medirá el grado de relación muy adecuadamente.

b. Necesitamos aplicar un test de la ji-cuadrado para evaluar si hay o no relación entre esas variables.

c. No podemos tener un p-valor porque hablamos de la relación entre variables cualitativas.

d. En la relación entre variables cualitativas siempre la relación es estadísticamente significativa.

Solución Situación 76

1d: Valores altos de índice de Gini reflejan elevada dispersión de valores. Un índice de Gini de 0.95 indica que la mayor parte de valores de la variable estudiada están concentrados en un o en unos pocos individuos de la muestra.

2a: La mediana es 7 porque si ordenamos la muestra quedan en medio un 6 y un 8 cuyo promedio es 7.

3c: Como la DE es 10 en un intervalo de confianza del 95% de valores individuales deberemos coger la media y sumarle y restarle dos veces esa DE, quedando el intervalo (80, 120).

4c: Tendríamos poca capacidad pronóstica porque el coeficiente de determinación sería del 4%, muy por debajo del 50% necesario.

5d: Las cuatro correlaciones son significativas, por lo tanto escogemos la que tenga un valor absoluto mayor que es este -0.95.

6c: Si una correlación es significativa también será significativa la pendiente de la regresión que hagamos. Además, el signo será el mismo: Un correlación positiva genera una pendiente positiva y una correlación negativa una pendiente negativa.

7a: Una muestra con DE igual a 0 indica que todos sus valores son iguales. Una muestra así genera una curva de Lorenz diagonal, por lo tanto con índice de Gini igual a 0.

8b: Mínimo=1, Primer cuartil=2, Mediana=3, Tercer cuartil=7.5 y Máximo=12.

9a: Si el valor es 0, a la derecha queda todo el área de la curva de la distribución ji-cuadrado, por lo tanto el p-valor es 1. Total coherencia de la hipótesis nula puesto que tenemos una tabla de contingencias observada que es exactamente igual a la esperada en el caso de ser cierta la hipótesis nula.

10b: El test de la ji-cuadrado es el procedimiento estadístico adecuado para evaluar la relación entre variables cualitativas como es este caso.

 

Solución Situación 75

1c: La variable dependiente es dicotómica y hay una única variable independiente que es continua. Estamos ante un caso de Regresión logística simple.

2c: Tenemos una variable dependiente y tres independientes, lineales, por lo tanto se trata de una Regresión múltiple.

3d: En una Regresión lineal simple lo que le sucede a la pendiente le sucede igual a la correlación. Como la pendiente es significativa también lo será la correlación.

4c: Esto no es cierto porque la primera de los dos variables independientes no tiene una relación significativa con la variable dependiente. Vemos que su intervalo de confianza incluye al 0, por lo tanto no podemos establecer ningún tipo de asociación entre la dependiente y esta variable independiente. La opción b, por el contrario, es cierta, porque ahora sí se trata de una relación significativa, puesto que el intervalo de confianza no incluye al 0 y como la OR será menor que 1, al aumentar el valor de la variable independiente disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

5b: Sólo las dos primeras OR son significativas y 5 es mayor que 4 (1/0.25=5).

6d: El coeficiente de determinación si no va acompañado de una relación significativa no es indicador de nada.

7b: Como el coeficiente de la primera variable independiente es significativo, porque no incluye al 0, y positivo, la relación entre la variable dependiente y esta variable es una relación directa, por lo tanto, habrá una correlación positiva entre ellas.

8a: Como la relación que hay entre la OR y el coeficiente es exponencial, podemos ver que si elevamos el número e a 0.6 y a 1.1 obtenemos, respectivamente, el 1.82 y el 3.0.

9b: El coeficiente de correlación positivo va asociado a una pendiente positiva y el coeficiente de correlación negativo va asociado a una pendiente negativa. Además, la significación es paralela: cuando una lo es la otra también, y al revés. Por lo tanto, como el intervalo de la pendiente no contiene al 0 la correlación será significativa.

10c: Una correlación significativa no nos lleva automáticamente a una regresión con buena o suficiente capacidad predictiva. El coeficiente de determinación es el que solemos usar como criterio para esto último. Si es menor del 50% su capacidad predictiva es baja. En nuestro caso tenemos un valor del 25%, muy por debajo de ese 50%.