Archivo del Autor: estadisticallopis

Tema 29: METAANÁLISIS

1. Es muy frecuente en estudios estadísticos encontrarnos con las dos situaciones siguientes:

a. Que no se aprecien diferencias estadísticamente significativas entre los grupos comparados o que no se pueda hablar de una asociación, también estadísticamente significativa, entre dos variables, debido a un tamaño de muestra pequeño.

b. Que se hayan hecho muchos estudios relativamente similares y que sea difícil acabar de perfilar una conclusión global por la falta de sintonía entre los diferentes resultados.

2. Para enfrentarse a estas situaciones suele hablarse de dos soluciones posibles: Los estudios multicéntricos o el metaanálisis. En los estudios multicéntricos el objetivo es unificar criterios de diferentes grupos para realizar un estudio conjunto. En los estudios de metaanálisis el objetivo es aprovecharse de la información de diferentes estudios hechos con la misma intención por grupos diferentes buscando una unificación de toda esa información.

3. En los estudios multicéntricos y en los metaanálisis el objetivo es siempre aumentar la mirada, aumentar el tamaño de muestra. Sin embargo, la calidad no es la misma. El grado de unificación es muy superior en los estudios multicéntricos, sin lugar a dudas.

4. En ocasiones no es posible la organización de un estudio multicéntrico y, al mismo tiempor se dispone de muchos estudios, en cierta forma análogos, hechos por diferentes grupos. En estas situaciones es interesante tratar de sintetizar la información que se tiene en esos diferentes estudios. Por esto ha tenido y tiene mucho éxito este tipo de estudios.

5. En muchas ocasiones un metaanálisis ha sido la antesala de un posterior estudio multicéntrico. Es obtener ciertas conclusiones en la particular ampliación del tamaño de muestra que representa un metaanálisis ha llevado en muchas ocasiones a la realización de estudios multicéntricos que han acabado demostrando o no, mediante un estudio de más calidad metedológica, lo que apuntaba el metaanálisis.

6. Lo primero que hay que hacer en un metaanálisis es reunir una serie de estudios que hayan hecho lo mismo. Que hayan estudiado lo mismo. Evidentemente con una muestra distinta tomado en una zona diferente. Puede que con algunos aspectos metodológicos diferentes, pero lo fundamental es que se haya buscado lo mismo: la relación que hay entre la exposición a un riesgo y una determinada enfermedad, la comparación de un tratamiento determinado respecto a un placebo, etc.

7. Un elemento presente en un metaanálisis es siempre la tabla resumen de los diferentes resultados obtenidos en los diferentes estudios. Veamos un ejemplo de estas tablas resumen en un estudio donde se analiza el riesgo de enfermedad coronaria en fumadores pasivos:

20140309-195325.jpg

20140309-195336.jpg

8. Los gráficos son muy importantes en metaanálisis. Se han diseñado muchos tipos de gráficos. Posiblemente los más usados son los siguientes:

9. El denominado Forest plot, que es el que suele usarse más, resume digamos que sin voluntad de estructuración los diferentes estudios que tenemos. Es un orden incluso alfabético, no hay una ordenación estructurada como la hay en otros tipos de gráficos en metaanálisis. La estructura general es, pues, la siguiente:

IMG_8170

10. El Funnel plot resume la información con ya cierta estructuración. Lo hace según el peso estadístico que tiene cada uno de los estudios. Por el tamaño de muestra o por el error estándar. Por ejemplo, veamos cómo quedaría estructurado según el tamaño de muestra:

IMG_8171

11. Observemos que cada punto hace referencia al valor obtenido en un estudio incluido en el metaanálisis pero ahora están estructurados en función del tamaño muestral del estudio. Es interesante porque, de hecho, el peso del tamaño de muestra por estudio es un elemento muy importante. Suele darse, lógicamente, una estructuración en forma de triángulo isósceles con base en la zona de tamaño muestral reducido y con vértice en la parte de mayor tamaño muestral.

12. El Abbé plot es la creación de dos territorios diferentes: uno donde va mejor un tratamiento y otro donde va mejor el otro. Se trata, entonces, de ver dónde caen mayoritariamente, los diferentes estudios.

13. A la hora de juntar todos los valores buscando por lo tanto la unificación y el aumento del tamaño de muestra es muy importante tener en cuenta la heterogeneidad de los estudios. Este es el gran caballo de batalla del metaanálisis, sin lugar a dudas.

14. Un elemento para evaluar esta heterogeneidad es el llamado Test de heterogeneidad. Es un contraste de hipótesis con la Hipótesis nula: Homogeneidad (igualdad entre los estudios) e Hipótesis alternativa: Heterogeneidad (diferencia significativa entre los estudios). Es un Test de la ji-cuadrado, como veremos después.

15. Otro elemento que evalúa la heterogeneidad entre estudios incluidos en el metaanálisis es el denominado coeficiente de heterogeneidad que se suele simbolizar con una I2. El cálculo de este coeficiente es el siguiente:

IMG_8172

16. El valor, como puede verse, se calcula mediante el valor de la ji-cuadrado y el número de grado de libertad, que será el número de estudios menos 1.

17. Veamos, a continuación, dos ejemplos diferentes donde veremos aplicar tanto el Test de heterogeneidad como el cálculo del coeficiente de heterogeneidad.

18. Vamos a ver el primero paso a paso. Supongamos un metaanálisis en pequeño para entenderlo mejor:

IMG_8173

19. Ahora hacemos el total; o sea, sumamos los tres estudios:

IMG_8173

20.  Ahora tenemos una probabilidad total, con la que construiremos un Test de la ji-cuadrado (Ver el Tema 8: Relación entre variables cualitativas. El test de la ji-cuadrado): o sea, el observado, que es lo que tenemos, y el esperado, que es lo que tendrían los tres estudios si la probabilidad fuera única:

IMG_8173

21. A partir de aquí podemos aplicar el Test de la ji-cuadrado y el coeficiente de heterogeneidad para obtener:

IMG_8175

22. El coeficiente como es negativo se hace 0% que es el valor más bajo posible.

23. El otro ejemplo, ahora con todos los datos de golpe y donde se puede ver una importante heterogeneidad entre los estudios:

IMG_8176

24. El coeficiente de heterogeneidad servirá para rectificar los intervalos de confianza y los contrastes de hipótesis que se realicen con los datos del metaanálisis agrupados. Un coeficiente de heterogeneidad elevado penalizará las decisiones finales, hará que el tamaño de muestra alcanzado sumando estudios no sea tan trascendente.

25. La variabilidad en los estudios de metaanálisis debe verse en dos componentes. Una es la variabilidad intraestudio y otra la variabilidad interestudios, que queda evaluada mediante el coeficientes de heterogeneidad o mediante el Test de heterogeneidad. En los intervalos de confianza de un pronóstico o en un contraste de hipótesis siempre está presente la noción de Error estándar que hemos visto en el Tema 3: Intervalos de confianza:

IMG_6927

26. La magnitud del coeficiente de heterogeneidad modifica el numerador. Lo amplía. Por lo tanto, un mismo metaanálisis, con un mismo tamaño de muestra total proporcionará intervalos de confianza distintos según el grado de heterogeneidad. Cuanta más heterogeneidad más grande se hace el numerador.

27. Supongamos un nuevo ejemplo sencillo y simplificado que nos ayudará a valorar esto que estamos diciendo. Lo vemos en un tema que trata de estudiar la media de colesterol en una población. Cuatro estudios presentan los siguientes valores:

IMG_8194

28. Si ahora calculamos la media de los cuatro estudios es 205, pero hay una cierta heterogeneidad que nos debe penalizar a la hora de construir un intervalo de confianza de la media juntando los cuatro estudios.

29. Calcularemos la varianza dentro de los estudios, marcada con un subíndice D, y la varianza entre los estudios, marcada con el subíndice E. Vemos también a continuación una alternativa forma de cálculo del coeficiente de heterogeneidad a partir de estas dos varianzas. Y calcularemos también la varianza global y la DE global a partir de la suma de estas dos varianzas:

IMG_8196

30. Si ahora incorporamos los valores totales en la tabla anterior y el valor de esta DE global ello nos permite calcular el Error estándar (EE) y ver cómo queda penalizado por la varianza entre estudios o heterogeneidad:

IMG_8194

31. Observemos que al final el EE es 1.13 y no 1, como sería sin esta penalización. Si tuviéramos más heterogeneidad tendríamos más penalización.

32. Finalmente una tabla donde se expresan los resultados finales del metaanálisis mostrado anteriormente del estudio del riesgo de enfermedad coronaria en fumadores pasivo:

20140309-195345.jpg

Solución Situación 58

Respuestas correctas:

1a: La muestra ordenada es (-9, -7, -3, -2, 0, 0, 1, 12). El primer cuartil es -5 porque es el promedio entre -7 y -3 y el tercer cuartil es 0.5 porque es el promedio entre 0 y 1. Por lo tanto, el rango intercuartílico es la diferencia entre 0.5 y -5 que es 5.5.

2b: La mediana de esta muestra es 25, el primer cuartil también es 25 y el tercer cuartil es 155. Esta muestra tiene un aspecto que permite pensar en que no se ajustará a una distribución normal y que, por lo tanto, tendrá Asimetría estandarizada o Curtosis estandarizada, o ambas, fuera del intervalo de la normalidad: fuera del intervalo (-2, 2). Las otras tres respuestas no son ciertas.

3c: Se trata de una correlación no significativa porque el p-valor es mayor que 0.05. Si una correlación no es significativa quiere decir que todavía puede suceder cualquier cosa a nivel poblacional, por lo tanto, no podemos descartar que la correlación poblacional sea incluso positiva, negativa o incluso 0. Por lo tanto, debemos, en este caso, mantener la Hipótesis nula de la correlación poblacional igual a 0. Es la opción más prudente.

4c: Como la Desviación estándar es 5 y el tamaño de muestra es 100, el error estándar es 0.5. Para hacer un intervalo de confianza del 95% de la media tenemos que multiplicar el error estándar por 2, lo que nos da un intervalo (49, 51). Los otros no son correctos. El «a» suma y resta sólo un error estándar, lo que da un intervalo de la media del 68.5%. El «b» supone lo mismo con los valores individuales de la variable: suma y resta una desviación estándar únicamente, lo que nos proporciona un intervalo del 68.5% también. La «d» resta cuatro desviaciones estándar a la media y suma una desviación estándar a la media, lo que nos daría un intervalo de confianza que no se aplica, en realidad nunca y, en todo caso, no sería del 95%.

5d: Las afirmaciones «a», «b» y «c» son ciertas. Siguen al pie de la letra las definiciones de primer cuartil, tercer cuartil y rango intercuartílico. Sin embargo, la «d» no es cierta. De la información de la mediana, del primer y del tercer cuartil en absoluto se puede seguir que el intervalo del 95% sea el que allí se especifica.

Situación 58: Examen (Temas 1-5)

1. La muestra (-7, -9, 1, 12, -3, -2, 0, 0) tiene como rango intercuartílico:

a. 5,5

b. 5

c. 19

d. 4,5

2. Si decimos que la forma más apropiada de resumir una determinada variable cuantitativa es mediante los siguientes números: 25 (25-155), ¿cuál de las siguientes afirmaciones es la más razonable?:

a. Esta forma de representar la variable no es posible porque no es posible que la mediana y el primer cuartil coincidan.

b. La Asimetría estandarizada o la Curtosis estandarizada, o ambas, estarán fuera del intervalo (-2, 2).

c. La media es 25 y la desviación estándar será también 25.

d. La variable se ajusta bien a una distribución normal.

3. Una correlación r=-0.78 (p=0.25):

a. Es una correlación significativa porque la correlación es superior a 0.05.

b. Es una correlación significativa porque el p-valor es superior a 0.05..

c. Se trata de una correlación no significativa y, por lo tanto, no podemos descartar que la correlación poblacional sea incluso positiva. Por lo tanto, debemos, en este caso, mantener la Hipótesis de que la correlación poblacional es igual a 0.

d. Como la correlación no es significativa se trata de una correlación que, en realidad, es positiva.

4. Si tenemos una muestra de una variable cuantitativa de tamaño muestral 100, con media 50, desviación estándar 5, con Asimetría estandarizada 0.25 y Curtosis estandarizada 1.12, es cierto lo siguiente:

a. Un intervalo de confianza del 95% de la media es (49.5, 50.5).

b. Un intervalo de confianza del 95% de valores individuales es (45, 55).

c. Un intervalo de confianza del 95% de la media es (49, 51).

d. Un intervalo de confianza del 95% de valores individuales es (25, 55).

5. Si una variable tiene una mediana de 35, un primer cuartil de 30 y un tercer cuartil de 40, ¿cuál de las siguientes afirmaciones no es cierta?:

a. El rango intercuartílico es 10.

b. El 75% de la población aproximadamente tiene un valor por encima de 30.

c. Por encima de 40 hay, en la población, aproximadamente el mismo número de valores que por debajo de 30.

d. Un intervalo de confianza del 95% sería (20, 50).

La Estadística, la Ciencia y la Filosofía

En un extraordinario texto de Thomas Mann, en el que analiza la obra del filósofo Shopenhauer, formula, con una belleza extraordinaria (bella por la metáfora usada y, especialmente, por el carácter sintético que representa), una visión de lo que ha sido la columna vertebral de la Ciencia y de la Filosofía.

Para Thomas Mann desde Platón hasta Kant y, poco después, Shopenhauer, la preocupación de la Ciencia y de la Filosofía ha sido delimitar con precisión el uso del artículo determinado y del artículo indeterminado.

Realmente es genial. Resumir la historia de la Ciencia y de la Filosofía como un diálogo entre el artículo determinado y el artículo intederminado es ciertamente genial.

El artículo determinado apunta a lo que vemos, se mueve en la esfera de las representaciones, en la esfera de lo visual, de lo sensible: «Una casa», «una buena acción», «un círculo», «un cacto amoroso», etc. El artículo indeterminado, por el contrario, nos trasporta a la idea, a lo que no vemos, a la unidad, a lo invisible: «La casa», «la buena acción», «el círculo», «el amor».

Siempre en la historia del conocimiento se ha dado esta dualidad: entre lo que vemos y lo que no vemos. Entre la diversidad de lo visible y la necesidad de la unidad formal que fundamenta, desde detrás, esa diversidad. Desde Tales de Mileto, en realidad, está presente esta dualidad. Cuando él se planteaba lo que había detrás de todas las cosas, lo que había detrás de la diversidad de formas de presentación de esas cosas, en realidad buscaba un artículo indeterminado que unificara la pluralidad de artículos determinados que visualizaba. El agua como explicación de todo lo que hay fue la solución para él. El agua es, para él, el artículo indeterminado que da unidad a la pluralidad de nuestra mirada hecha de artículos determinados.

Y la historia de la Ciencia y de la Filosofía es eso: la búsqueda de la unidad en la diversidad. Con Platón es clarísimo: Las ideas son esos elementos a modo de artículo indeterminados que explican, desde la cueva, que veamos sus sombras proyectadas en forma de pluralidad visualizada a modo de artículos determinados. Lo que vemos son «unas buenas acciones», «unos círculos», etc, que son sombras de «la bondad», «del círculo», etc.

Y todo esto, ¿qué tiene que ver con la Estadística? Pues mucho. Muchísimo.

La Estadística puede verse como un diálogo entre lo determinado, lo que vemos, las muestras, la pluralidad de lo visible, y lo indeterminado, lo que no vemos, las poblaciones, los totales inaccesibles y que queremos delimitar, dibujar. La Estadística es un ir de lo determinado a lo indeterminado. La Estadística es un repertorio de técnicas para alzarse desde lo diverso y parcial a lo unitario y desconocido. La Estadística es un mecanismo que ayuda a hacer ese tránsito que ha interesado e interesa desde hace dos milenios y medio a la humanidad.

Seguramente la Estadística es una de las más fundamentales herramientas que tenemos en la Ciencia y la Filosofía para hacer ese transito desde lo determinado a lo indeterminado que es el camino que ha hecho la Ciencia y la Filosofía dede que a partir de Tales de Mileto comenzó el camino del mito al logos.

Vale la pena una disciplina tan trascendental como la Estadística, sin lugar a dudas.

Situación 57: Práctica (Temas 1-5)

Tenemos la siguiente base de datos de sexo, edad, IMC, consumo de TV, el uso de antidepresivos y si trabaja o no:

Sexo: 1=Hombre; 0=Mujer

IMC (Índice de masa corporal)

Edad en años

TVdiaria en horas

Antidepresivos: 1=Sí; 0=No

Trabaja: 1=Sí; 0=No

Sexo Edad IMC TVdiaria Antidepresivos Trabaja
1 52 23 1 0 1
1 60 26 2 0 1
1 60 28 2 1 0
1 31 25 3 0 1
1 41 26 2 1 1
1 56 27 1 1 1
1 76 28 5 1 0
1 31 24 2 0 1
1 34 24 3 0 1
1 63 27 3 0 1
1 21 23 1 0 0
1 44 24 2 0 1
1 52 28 2 0 1
1 41 24 3 0 1
1 43 23 3 0 1
1 51 30 4 0 1
1 23 24 3 0 0
1 45 26 2 0 1
1 26 24 2 1 0
1 36 23 1 0 1
1 31 24 1 0 1
1 41 24 1 0 1
1 51 26 1 0 1
1 41 25 1 0 0
1 31 26 2 0 0
1 34 27 2 0 1
1 63 28 2 0 0
1 43 23 1 0 1
1 51 26 1 0 1
1 41 22 2 0 1
1 45 24 2 0 1
1 60 25 2 0 0
1 36 24 2 0 1
1 65 27 2 1 0
1 49 34 1 1 1
1 43 31 2 0 1
1 51 24 2 0 1
1 43 23 2 0 1
1 47 26 2 0 1
1 19 22 2 0 1
1 59 32 2 1 1
1 57 33 1 1 1
1 40 23 2 1 1
1 43 22 2 0 0
1 44 26 2 0 0
1 52 26 2 0 0
1 42 23 2 0 0
1 52 27 2 0 0
1 52 32 2 0 0
1 31 24 2 1 1
0 41 24 3 1 0
0 43 21 3 0 1
0 51 25 4 0 0
0 41 22 4 0 1
0 24 23 1 1 1
0 41 24 1 1 1
0 27 25 1 1 1
0 21 21 4 0 0
0 31 21 4 0 0
0 23 24 2 0 0
0 63 31 2 0 0
0 41 21 3 0 0
0 23 25 1 1 1
0 52 24 4 1 1
0 23 20 2 0 1
0 51 27 4 1 0
0 37 21 2 0 0
0 22 20 2 0 0
0 73 25 5 1 0
0 50 28 5 0 0
0 36 23 3 1 1
0 46 24 2 1 1
0 62 26 4 1 0
0 65 31 4 0 0
0 40 23 3 0 0
0 40 24 3 0 0
0 69 27 5 1 0
0 50 25 5 1 0
0 50 26 5 0 0
0 37 22 1 0 1
0 47 24 2 1 1
0 57 28 3 1 0
0 47 24 3 0 0
0 37 24 2 0 0
0 40 24 3 0 0
0 32 23 2 0 0
0 37 24 2 0 1
0 47 25 3 1 1
0 57 26 4 1 0
0 47 24 4 0 0
0 37 23 4 0 1
0 40 24 4 0 0
0 69 30 5 1 1
0 47 19 4 0 0
0 22 21 1 0 0
0 26 21 1 0 0
0 47 24 2 1 0
0 23 19 2 0 1
0 57 29 2 1 1
0 58 28 3 1 0

1. Hacer una Estadística descriptiva de la variable IMC.

2. Comprobar el ajuste de la variable IMC a la distribución normal mediante la Asimetría estandarizada y la Curtosis estandarizada y resumirla apropiadamente.

3. Calcular y valorar las correlaciones entre las tres variables cuantitativas: Edad, IMC y TVdiaria. Calcular esas mismas correlaciones entre las tres variables cuantitativas en hombres y en mujeres por separado.

4. Hacer una Estadística descriptiva de las variables Antidepresivos y Trabaja.

5. Construir un intervalo de confianza del 95% de la media de la IMC en hombres y uno en mujeres.

Análisis de componentes principales aplicado a datos de jugadores de baloncesto

He recogido estadísticas de los jugadores de baloncesto del F.C.Barcelona y del R.Madrid publicadas en la página web de la ACB. La base de datos es la siguiente:

PUN=Puntos medios por partido.

T2, T3 y T1=Porcentaje de acierto en tiros de 2, de 3 y de 1, respectivamente.

RTO=Rebotes totales.

ASI=Asistencias.

BRE=Balones recuperados.

BPE=Balones perdidos.

TFA=Tapones a favor.

TCO=Tapones en contra.

FFA=Faltas a favor.

FCO=Faltas en contra.

Nombre PUN T2 T3 T1 RTO ASI BRE BPE TFA TCO FFA FCO
Tomic, Ante 11.20 64.38 0.00 69.23 7.05 1.55 0.65 1.45 0.60 0.20 2.50 3.35
Navarro, Juan Carlos 10.83 48.57 34.83 80.95 2.39 2.44 0.78 1.22 0.00 0.17 1.33 3.33
Huertas, Marcelinho 7.53 54.22 27.66 100.00 1.79 4.79 0.63 1.79 0.05 0.16 0.84 1.53
Lorbek, Erazem 9.18 56.00 45.83 80.00 2.82 1.09 0.55 0.55 0.09 0.18 1.82 1.82
Dorsey, Joey 4.95 74.58 0.00 29.73 5.45 0.50 1.10 1.20 1.30 0.15 2.75 2.00
Abrines, Alex 7.94 52.50 46.30 86.66 1.61 0.83 0.72 0.56 0.39 0.11 1.83 1.67
Papanikolau, Kostas 6.94 50.00 38.30 89.99 3.83 1.33 0.72 1.44 0.22 0.39 2.06 1.33
Lampe, Maciej 6.33 47.76 31.58 65.00 2.93 1.07 0.00 0.80 0.60 0.07 1.27 1.73
Oleson, Brad 6.73 55.55 39.47 90.00 1.09 1.45 0.55 0.73 0.09 0.00 1.00 1.09
Nachbar, Bostjan 7.74 53.62 27.78 80.00 2.47 0.63 0.63 1.16 0.05 0.21 3.11 1.58
Sada, Víctor 1.74 37.93 0.00 84.61 2.05 1.95 0.47 1.00 0.00 0.05 0.63 1.16
Todorovic, Marko 2.73 60.00 0.00 64.70 2.53 0.53 0.40 0.67 0.47 0.00 1.40 0.93
Hezonja, Mario 3.50 47.83 33.33 80.01 1.83 0.75 0.50 0.75 0.25 0.00 0.92 0.75
Pullen, Jacob 5.60 57.14 35.56 69.57 0.50 1.05 0.50 1.00 0.05 0.20 1.05 1.25
Mirotic, Nikola 13.68 61.60 33.33 77.11 6.32 1.32 1.05 1.16 0.37 0.21 1.63 3.42
Fernández, Rudy 12.94 60.00 35.23 84.75 3.17 2.61 2.11 1.06 0.28 0.11 1.61 3.78
Rodríguez, Sergio 12.35 57.80 40.79 84.85 1.85 5.70 1.60 2.30 0.10 0.15 1.60 2.20
Llull, Sergio 13.30 51.72 49.48 88.89 2.00 3.25 1.20 1.30 0.10 0.05 1.05 2.20
Reyes, Felipe 8.16 52.13 38.47 77.78 4.53 0.79 1.05 1.47 0.26 0.16 1.74 3.32
Bourousis, Ioannis 6.61 57.97 29.17 81.82 4.11 0.56 0.44 0.78 0.39 0.17 2.22 1.89
Carroll, Jaycee 10.07 53.57 40.98 80.00 2.27 0.40 0.47 0.87 0.00 0.20 1.47 1.33
Mejri, Salah 4.89 56.52 24.99 60.00 4.00 0.42 0.47 0.63 0.79 0.26 1.84 1.11
Darden, Tremmell 5.05 51.16 42.42 93.75 2.25 0.90 0.30 0.35 0.60 0.00 1.20 0.75
Slaughter, Marcus 2.70 56.10 0.00 42.11 3.15 0.75 0.75 0.60 0.45 0.05 2.00 1.25
Díez, Daniel 3.92 52.38 27.59 83.34 1.23 0.54 0.46 0.15 0.08 0.15 0.46 0.62
Draper, Dontaye 1.79 50.00 27.78 71.44 0.89 1.68 0.79 0.74 0.05 0.05 2.05 0.74

Si se hace un Análisis de componentes principales con estas variables obtenemos el siguiente cuadro del peso de cada una de las componentes:

IMG_8096

Las tres primeras componentes explican el 73,1% de la variabilidad. Con las dos primeras un 62,4%.

Los coeficientes de las tres primeras componentes son las siguientes:

IMG_8097

El gráfico de las dos primeras componentes principales es el siguiente:

IMG_8098

Situación 56: Aplicación de técnicas de relación y de comparación

Supongamos que tenemos una base de datos como la siguiente:

Tenemos registradas las siguientes variables: Sexo, Edad, Fumador, Haber fumado, Paquetes-año y Bronquitis crónica.

En la variable fumador se distinguen tres situaciones: fumador activo (sí), ex-fumador (ex) y que nunca ha fumado (no).

La variable Haber fumado es una transformación de esta anterior que puede ser útil en algún momento. Agrupa en un valor de «sí» a los fumadores activos y a los ex-fumadores y en un valor de «no» a los que nunca han fumado.

En la variable Paquetes-año se calcula mediante la fórmula de años fumados multiplicado por  el número de paquetes al día fumados. Por ejemplo, una persona que ha fumado durante 15 años a razón de 1 paquete diario son 15 paquetes-año. Una persona que ha fumado durante 30 años medio paquete diario también son 15 paquetes-año.

(Esta matriz se puede copiar y pegar en un software estadístico)

(La variable Bronquitis crónica está codificada de la siguiente forma: 1=sí, 0=no)

Sexo Edad Fumador Haber fumado Paquetes-año Bronquitis crónica
h 56 20 1
h 64 45 1
h 40 15 1
h 35 5 0
h 45 20 1
h 55 35 1
h 45 0 0
h 35 no no 0 0
h 38 no no 0 0
h 67 no no 0 0
h 45 no no 0 0
h 48 no no 0 0
h 56 no no 0 1
h 45 no no 0 0
h 47 ex 25 1
h 55 ex 10 0
h 45 ex 30 1
h 49 ex 20 1
h 64 28 1
h 40 15 1
h 35 5 0
h 45 20 1
h 55 35 1
h 45 no no 0 0
h 35 no no 0 0
h 38 no no 0 0
h 67 no no 0 0
h 47 ex 25 1
h 55 ex 10 0
h 45 ex 25 1
h 49 ex 20 1
h 64 40 1
h 40 15 1
h 35 5 0
h 45 20 1
h 47 ex 25 1
h 55 ex 10 0
h 47 ex 30 1
h 51 ex 20 1
h 64 45 1
h 40 15 1
h 35 5 0
h 44 20 0
h 47 no no 0 0
h 48 no no 0 0
h 56 no no 0 1
h 46 no no 0 0
h 56 no no 0 0
h 56 no no 0 1
h 35 7 0
m 45 10 0
m 47 ex 12 0
m 55 ex 10 0
m 45 ex 15 1
m 28 5 0
m 45 20 1
m 55 12 1
m 45 no no 0 0
m 35 no no 0 0
m 27 no no 0 0
m 67 no no 0 0
m 45 no no 0 0
m 35 5 0
m 56 8 0
m 55 12 1
m 55 no no 0 0
m 41 no no 0 0
m 48 no no 0 0
m 77 no no 0 0
m 54 no no 0 0
m 40 6 0
m 50 10 0
m 66 14 1
m 69 no no 0 0
m 44 no no 0 0
m 44 no no 0 0
m 73 no no 0 0
m 54 no no 0 0
m 54 no no 0 0
m 41 5 0
m 51 13 0
m 61 12 1
m 51 no no 0 0
m 41 no no 0 0
m 44 no no 0 0
m 73 no no 0 0
m 41 5 0
m 51 20 1
m 61 10 1
m 51 no no 0 0
m 41 no no 0 0
m 44 no no 0 0
m 73 no no 0 0
m 51 no no 0 0
m 54 no no 0 0
m 62 no no 0 1
m 51 no no 0 0
m 53 ex 15 1
m 61 ex 10 0
m 62 no no 0 1

Preguntas:

1. ¿Existe asociación estadísticamente significativa entre la variable Sexo y la variable Fumador?

2. ¿Existe asociación estadísticamente significativa entre la variable Haber fumado y la variable Bronquitis crónica? Si existe asociación significativa, calcular la Odds ratio.

3. ¿Existe asociación estadísticamente significativa entre la cantidad de tabaco fumado acumulado en los fumadores y en los ex-fumadores y tener o no el diagnóstico de Bronquitis crónica? Calcular la Odds ratio.

4. ¿Existen diferencias estadísticamente significativas entre los niveles de tabaco fumado acumulado y el ser fumadores activos o ex-fumadores?

5. ¿Existen diferencias significativas entre los niveles de tabaco fumado acumulado en los dos sexos?

6. ¿Existe una correlación significativa entre la variable Edad y la variable Tabaco acumulado?

Artículos de Psiquiatría-Psicología y la Estadística

Vamos a ver una serie de artículos que nos sirvan de iniciación a la Estadística para estudiantes de Psiquiatría y Psicología. He elegido unos cuantos artículos de Psiquiatría y de Psicología que me parecen interesantes para iniciarse en la conexión entre estos campos del conocimiento y la Estadística.

1. Veamos el primero. Se trata de un estudio sobre la Esquizofrenia, una de las enfermedades psiquiátricas más estudiadas, más graves y más complejas.

En este estudio se está comparando, como sucede con frecuencia en este tipo de trastornos, un grupo de pacientes con esquizofrenia y un grupo de pacientes controles. Observemos cómo se comparan las concentraciones de un determinado receptor a nivel neuronal en estos dos grupos de pacientes: esquizofrénicos y un grupo control:

20140130-172704.jpg

20140130-172715.jpg

20140130-172724.jpg

2. Otro ámbito interesante en Psiquiatría y Psicología es la Anorexia nerviosa. Se ha considerado muchas veces que esos pacientes, debido al bajo aporte de nutrientes, debían de incrementar la permeabilidad a nivel digestivo, con la finalidad de optimizar los recursos disponibles. Pues, parece que no. Que es más bien todo lo contrario. Que llueve sobre mojado. Que estos pacientes, que evitan la comida, tienen alterados los mecanismos de permeabilidad pero en el sentido de una reducción de permeabilidad respecto al nivel normal.

Observemos las curvas de eliminación de ciertas sustancias en estudios controlados comparando pacientes con Anorexia nerviosa con personas sin esa patología:

20140130-172731.jpg

20140130-172740.jpg

3. Este es un interesante artículo que trata de estimar la prevalencia del TDAH en una determinada población. Los estudios de prevalencia tienen una trascendencia especial en el mundo sanitario, evidentemente. Conocer el alcance de una patología es un elemento importantísimo a nivel social.

20140130-172803.jpg

4. A continuación otro estudio de prevalencia, aunque distinto. Se trata de conocer una realidad social compleja. Este artículo puede resultar interesante como iniciación a la importantísima noción de Odds ratio en el ámbito sanitario:

20140130-172810.jpg

5. El sistema inmunitario es nuestro ejército interno que nos protege de lo externo que nos llega y de lo interno que se deteriora y nos puede perjudicar. Es fundamental su equilibrio y su eficacia.

Este artículo es un estudio muy interesante que evalúa una de las dimensiones fisiopatológicas por donde transitan las consecuencias de la Anorexia nerviosa: una alteración del sistema inmunitario que transforma en más vulnerable a esos pacientes:

20140130-172816.jpg

20140130-172823.jpg

6. A continuación un interesante estudio que compara las dimensiones del afrontamiento al estrés entre hombres y mujeres universitarios:

20140130-172829.jpg

20140130-172835.jpg

7. Muchas enfermedades psiquiátricas tienen una explicación a nivel de receptores de neurotransmisores. Todo lo más trascendente a nivel del tejido nervioso sucede en las sinapsis. Parece, pues, lógico, que, alteraciones a ese nivel, deben originar cuadros patológicos. En el trastorno bipolar parece claro que los receptores de la serotonina se ven alterados. En este artículo se reúnen diferentes estudios, orientados todos ellos en la misma dirección, que tratan de mostrar cuantitativamente esta realidad. Estos estudios que combinan diferentes estudios hechos en la misma dirección abundan mucho en ciencia. Es una forma de comparar, de unificar y de aumentar, de alguna forma, el tamaño de muestra:

20140130-172749.jpg

20140130-172757.jpg

Solución Situación 56

1. ¿Existe asociación estadísticamente significativa entre la variable Sexo y la variable Fumador?

20140130-170756.jpg

2. ¿Existe asociación estadísticamente significativa entre la variable Haber fumado y la variable Bronquitis crónica? Si existe asociación significativa, calcular la Odds ratio.

 20140130-170809.jpg

Se ha utilizado el software Statgrafics. La versión castellana de este software estadístico traduce la Odds ratio como Razón de momios. Pero, en todo caso, puede verse que la Odds ratio es, en este caso, OR=11.9. Sería OR=(32/22)/(5/41)=11.9. O sea, entre los fumadores hay una proporción de diagnosticados con Bronquitis crónica 11.9 veces superior a lo que sucede entre no fumadores.

3. ¿Existe asociación estadísticamente significativa entre la cantidad de tabaco fumado acumulado en los fumadores y en los ex-fumadores y tener o no el diagnóstico de Bronquitis crónica? Calcular la Odds ratio.

 20140130-170817.jpg

4. ¿Existen diferencias estadísticamente significativas entre los niveles de tabaco fumado acumulado y el ser fumadores activos o ex-fumadores?

 20140130-170827.jpg

5. ¿Existen diferencias significativas entre los niveles de tabaco fumado acumulado en los dos sexos?

 20140130-170835.jpg

6. ¿Existe una correlación significativa entre la variable Edad y la variable Tabaco acumulado?

20140130-170842.jpg

Pero si ahora eliminamos los que nunca han fumado:

20140130-170855.jpg

Solución Situación 55

1a : El rango es 17, no el rango intercuartílico.

2a: Como entre 14 y 26, por aquello de media más y menos dos veces la desviación estándar, hay aproximadamente el 95% de los valores poblacionales, por debajo de 26 es 97.5% porque hay que sumar a esos 95% el 2.5% que hay por debajo de 14. Por lo tanto, el percentil 97.5 es aproximadamente 26.

3c: Si el p-valor es mayor que 0.05 entonces tenemos que no podemos rechazar la Hipótesis nula, o, dicho de otro modo, que no tenemos suficientes argumentos como para pensar que la correlación es distinta de cero.

4d: Efectivamente una muestra puede ser simétrica y no ajustarse a una distribución normal. La siguiente muestra sería un ejemplo: (2, 2, 3, 50, 51, 51).

5b: La V de Cramer únicamente tiene valor si existe una relación significativa entre las variables cualitativas estudiadas. Por lo tanto, la ji-cuadrado es una técnica adecuada para evaluar, previamente, si hay que tener o no en cuenta esa medida de la relación entre esas variables cualitativas.