Archivo de la categoría: PROBLEMAS

Situación 61: Examen (Temas 1-9)

1. ¿Qué valor refleja un mayor nivel de relación entre dos variables?

a. r= 0.6 (p<0.05)

b. OR=10 (IC 95%: (4.37, 23.32))

c. V=0.85 (p<0.05)

d. No pueden compararse estos tres tipos de medición del grado de relación entre dos variables.

2. ¿Qué Odds ratio indica mayor relación entre dos variables dicotómicas?

a. 0.1 (p<0.05)

b. 7 (p<0.05)

c. 15 (p>0.05)

d. 0.05 (p>0.05)

3. Tenemos un individuo con un valor de IMC de 26 y nos dicen que, respecto a una muestra, este valor representa un percentil 80. ¿Cuál de las siguientes es la muestra referente?:

a. (19, 21, 21, 22, 23, 24, 24, 24, 25, 31)

b. (19, 21, 21, 22, 24, 24, 25, 27, 28, 31)

c. (20, 21, 21, 22, 24, 24, 24, 25, 27, 29)

d. (18, 21, 21, 22, 24, 24, 27, 29, 31, 38)

4. ¿Qué afirmación entre las siguientes es cierta?

a. Una Odds ratio mayor que 1 siempre es significativa.

b. Una Odds ratio de 4, significativa, es una medida que indica mayor asociación que una Odds ratio de 0.5 que también sea significativa.

c. La V de Crámer toma el valor de 1 si el observado y el esperado son diferentes.

d. El índice kappa puede tener valores negativos si la concordancia entre dos observadores es muy alta.

5. En una muestra como la siguiente: (4, 5, 5, 6, 6, 15, 16, 16, 17, 17, 80), la asimetría estandarizada y la curtosis estandarizada:

a. Deben de ser valores que caen fuera del intervalo (-2, 2) porque sí parece haber ajuste a la distribución normal.

b. Deben de ser valores que caen fuera del intervalo (-2, 2) porque no parece haber ajuste a la distribución normal.

c. Deben de ser valores que caen dentro del intervalo (-2, 2) porque sí parece haber ajuste a la distribución normal.

d. Deben de ser valores que caen dentro del intervalo (-2, 2) porque no parece haber ajuste a la distribución normal.

6. ¿Cuál de las siguientes afirmaciones no es cierta?

a. Un intervalo de confianza del 95% de una pendiente en una Regresión lineal simple que sea (0.75, 1.34) nos indica una pendiente no significativa porque el intervalo incluye al 1.

b. Una Odds ratio con un intervalo de confianza del 95% que sea (3.23, 7.67) indica una asociación significativa.

c. Una correlación r=0.23 (p=0.001) indica que estamos ante una correlación positiva significativa.

d. Un índice kappa de 0.98 indica una fuerte concordancia entre dos observadores.

7. Sea la muestra (9, 9, 1, 1, 3, 3, 3, 7). Podemos afirmar:

a. El rango es 9.

b. La moda es 9.

c. La mediana es 5.

d. El rango intercuartílico es 6.

8. ¿Cuál de las siguientes afirmaciones  es cierta?

a. En una Regresión lineal simple la variable dependiente es cualitativa.

b. En un Test de la ji-cuadrado si el p-valor es mayor que 0.05 indica que la tabla de contingencias observada y la esperada son iguales.

c. Un intervalo de confianza de la media del 95% que sea (8, 12) indica que el Error estándar es igual a 2.

d. Una correlación de Pearson de -0.6 entre dos variables nos indica que si hacemos una Regresión lineal simple entre ambas variables tendremos una Rdel 36%.

9. ¿Cuál de las siguientes afirmaciones es cierta?

a. Un modelo de Regresión lineal simple que sea y=3x+4 tiene una pendiente negativa.

b. Una V de Crámer de -1 indica que la relación entre las variables cualitativas es de tipo inverso.

c. La ji-cuadrado es una técnica que cuantifica el grado de relación que hay entre dos variables cualitativas.

d. Una Odds ratio de 0.2, significativa, nos indica que la exposición estudiada es un factor que nos protege 5 veces más que la no exposición.

10. En una muestra con curtosis estandarizada de 3.45 y asimetría estandarizada de -5.18:

a. Si la media muestral es 5 y la desviación estándar es 3 podremos decir que entre 2 y 8 tenemos el 68.5% de los valores.

b. La media muestral y la mediana serán iguales.

c. Si la queremos resumir brevemente mejor hacerlo mediante la mediana y el rango intercuartílico expresado mediante el primer y tercer cuartil.

d. Esta muestra no tienen desviación estándar porque no se ajusta a una distribución normal.

Solución Situación 60

Las preguntas eran:

1. Comprobar si hay relación significativa entre la variable Grupo (anorexia frente a control) y cada una de las otras variables del estudio.

2. Calcular la V de Crámer para cada una de las relaciones.

3. Calcular la Odds ratio para cada una de las relaciones.

En el siguiente cuadro aparecen todos los resultados:

G respecto a: ji-cuadrado p-valor V de Crámer OR IC 95%
P 10,1764 0,0014 0,3190 4,2051 (1,69, 10,45)
A 14,0359 0,0002 0,3746 6,2469 (2,26, 17,29)
B 5,1975 0,0226 0,2280 2,9531 (1,14, 7,65)
H 23,5200 <0,0001 0,4850 20,4444 (4,47, 93,47)
D 4,5737 0,0325 0,2139 2,8908 (1,07, 7,82)
S1 13,1494 0,0003 0,3626 4,6437 (1,98, 10,88)
S2 15,1744 <0,0001 0,3895 5,5238 (2,26, 13,48)
S3 16,3185 <0,0001 0,4040 10,4444 (2,85, 32,21)

En todos los factores analizados vemos, mediante la ji-cuadrado, una relación significativa entre la variable cualitatitva Anorexia-Control y cada uno de esos factores analizados: P, A, B, H, D y las respectivas sumas de factores: S1, S2 y S3.

La variable H es la que presenta una Odds ratio más elevada. Las mujeres con antecedentes parenterales de trastornos de la alimentación tienen 20 veces más posibilidades de tener anorexia que las que no tienen esos antecedentes, en base a la muestra que tenemos.

Observemos, también, que al ir sumando más de esos factores considerados se va incrementando el riesgo. La Odds ratio va creciendo. Desde S1 a S3 vamos incrementando la Odds ratio.

Es interesante constatar el hecho de que H, individualmente, tenga una Odds ratio superior a cualquiera de las variables que suman riesgos. La suma de riesgos es más general, porque suma cualquier combinación. Tienen, esas sumas, valores de Odds ratio más bajas pero también con intervalos de confianza más estrechos porque reúnen un número superior de casos y esto reduce el intervalo.

Evidentemente en cualquier relación lo preferente es encontrar relaciones significativas, pero una vez tenemos significación cuanto más estrecho sea el intervalo de confianza más perfilado tenemos el nivel de riesgo o de protección de la exposición analizada.

Solución Situación 59

1. Calcular las correlaciones de Pearson entre las cuatro variables:

IMG_8352

 

La Edad no está correlacionada significativamente con ninguna de las otras tres variables. Lo que indica que la gravedad de la situación no depende de la edad, sino de otros factores. Nos podemos encontrar cualquier nivel de gravedad en cualquier edad.

La correlación entre las variables Amenorrea, Densidad ósea y Leucocitos es significativa y elevada. La correlación es negativa entre Amenorrea y las otras dos variables, indicando que cuantos más meses de amenorrea tenga la paciente menor nivel de densidad ósea o de leucocitos tiene. La correlación entre Leucocitos y Densidad ósea es positiva, indicando que existe entre ella una relación directa.

2. Construir un modelo de Regresión lineal simple con el que pronosticar el nivel de densidad ósea a partir de los meses de amenorrea de la paciente:

IMG_8353

IMG_8354

 

Como la correlación entre Amenorrea y Densidad ósea es significativa podemos establecer entre ellas una Regresión lineal simple. Vemos cuál es la fórmula matemática que se acaba estimando: D=0.8234-0.0172*A.

La Res del 65.97%. No es muy elevado pero está por encima del 50% que es el umbral que se suele establecer para hablar de buen o mal modelo predictor. Por encima de este 50% ya podemos hablar de una determinación aceptable.

3. Construir un modelo de Regresión lineal simple con el que pronosticar el nivel de densidad ósea a partir de los valores de leucocitos de una paciente:

IMG_8355

IMG_8356

 

Como la correlación entre Densidad ósea y Leucocitos también es significativa podemos establecer también un modelo de Regresión lineal simple. Ahora la fórmula es D=0.3018+0.0001*L. Observemos que el programa estadístico nos da 0.001E-1, esto significa que es 0.001 multiplicado por 10 elevado a -1; o, lo que es lo mismo, multiplicado por 0.1.

La R2 es del 97.05%, por lo tanto estamos ante una enorme capacidad de determinación de la Densidad ósea a partir del valor de Leucocitos de una paciente.

Por lo tanto, a la hora de predecir la Densidad ósea de una paciente los meses de amenorrea es un buen procedimiento, pero, aún mejor es basarse, si es que se conoce, el valor de Leucocitos de la paciente.

Situación 60: Práctica (Temas 8 y 9)

Tenemos la siguiente base de datos de mujeres entre 15 y 35 años, 50 de ellas diagnosticas de anorexia nervosa y otras 50, controles, sin el diagnóstico de esa enfermedad. El objetivo es detectar factores de riesgo asociados a la anorexia. A las 100 mujeres se les ha pasado una encuesta anónima para, a partir de ella, poder establecer, mediante criterios que aquí no se comentan, una tendencia al perfeccionismo, si tenía una autovaloración negativa, si su contacto con los padres era bajo, si en sus padres había alguna historia de anorexia o bulimia y, finalmente, si había abuso de consumo de drogas. Las variables y sus codificaciones son las siguientes:

G=Grupo

a: anorexia

c: control (sin anorexia)

P=Perfeccionismo

1=sí

0=no

A=Autovaloración negativa

1=sí

0=no

B=Bajo contacto con los padres

1=sí

0=no

H=Historia de anorexia o bulimia parenteral

1=sí

0=no

D=Abuso de consumo de drogas

1=sí

0=no

S1=Suma de 1 ó más riesgos

1=La suma de las otras variables es 1 ó más

0=La suma de las otras variables es 0

S2=Suma de 2 ó más riesgos

1=La suma de las otras variables es 2 ó más

0=La suma de las otras variables es 0

S3=Suma de 3 ó más riesgos

1=La suma de las otras variables es 3 ó más

0=La suma de las otras variables es 0

La base de datos es la siguiente.

G P A B H D S1 S2 S3
a 1 1 0 1 1 1 1 1
a 0 0 1 0 1 1 1 0
a 0 0 0 0 0 0 0 0
a 1 1 1 1 0 1 1 1
a 1 1 1 1 0 1 1 1
a 1 1 0 1 0 1 1 1
a 0 1 0 0 0 1 0 0
a 1 1 1 1 0 1 1 1
a 1 1 0 1 1 1 1 1
a 0 0 0 0 1 1 0 0
a 0 0 0 0 0 0 0 0
a 1 0 0 1 0 1 1 0
a 0 0 1 0 0 1 0 0
a 0 0 0 0 0 0 0 0
a 1 1 1 0 0 1 1 1
a 0 0 1 1 1 1 1 1
a 0 0 0 0 1 1 0 0
a 1 1 1 1 1 1 1 1
a 0 0 1 0 0 1 0 0
a 1 0 0 1 0 1 1 0
a 0 0 1 1 0 1 1 0
a 0 0 0 0 0 0 0 0
a 1 0 0 1 0 1 1 0
a 0 0 0 0 1 1 0 0
a 1 1 0 0 0 1 1 0
a 0 0 0 0 0 0 0 0
a 0 0 0 0 0 0 0 0
a 1 1 0 0 0 1 1 0
a 0 0 0 0 0 0 0 0
a 1 1 1 1 0 1 1 1
a 1 1 1 1 1 1 1 1
a 0 0 1 0 0 1 0 0
a 1 0 0 1 0 1 1 0
a 0 1 0 0 1 1 1 0
a 1 1 0 1 0 1 1 1
a 0 1 1 0 1 1 1 1
a 0 0 0 0 0 0 0 0
a 1 1 1 1 1 1 1 1
a 1 1 0 1 0 1 1 1
a 0 0 0 0 0 0 0 0
a 1 1 0 1 0 1 1 1
a 0 0 0 0 1 1 0 0
a 0 0 0 0 0 0 0 0
a 1 1 1 1 1 1 1 1
a 1 1 0 1 0 1 1 1
a 0 0 0 0 0 0 0 0
a 1 1 1 1 1 1 1 1
a 0 0 0 0 0 0 0 0
a 0 0 0 0 0 0 0 0
a 1 1 1 1 1 1 1 1
c 0 0 0 0 0 0 0 0
c 0 0 1 0 0 1 0 0
c 1 0 0 0 0 1 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 1 0 0 0 1 1 0
c 0 1 0 0 0 1 0 0
c 0 0 1 0 0 1 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 0 0 1 0 1 1 0
c 0 0 0 0 0 0 0 0
c 0 0 1 0 1 1 1 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 0 1 0 1 1 1 1
c 0 0 0 0 0 0 0 0
c 0 0 1 0 1 1 1 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 1 1 0 0 1 1 1
c 0 1 0 0 1 1 1 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 0 0 0 0 1 0 0
c 1 0 0 0 0 1 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 1 0 0 0 0 1 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 1 1 0 1 1 1 1
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 0 0 0 0
c 0 0 0 0 1 1 0 0
c 0 0 0 0 0 0 0 0
c 1 0 1 0 0 1 1 0
c 0 1 0 0 1 1 1 0
c 0 0 0 1 0 1 0 0

1. Comprobar si hay relación significativa entre la variable Grupo (anorexia frente a control) y cada una de las otras variables del estudio.

2. Calcular la V de Crámer para cada una de las relaciones.

3. Calcular la Odds ratio para cada una de las relaciones.

4. Interpretar los resultados.

Situación 59: Práctica (Tema 7)

Tenemos una base de datos de mujeres con el diagnóstico de anorexia nervosa. Las variables que tenemos son: la edad, los meses de amenorrea, la densidad ósea y el nivel de leucocitos en sangre. Codificadas así:

E=Edad (años).

A=Amenorrea (meses).

D=Densidad ósea (g/cm2)

L=Leucocitos (cél/microL)

E A D L
16 5 0.70 4170
17 11 0.65 3630
25 13 0.60 2990
28 14 0.54 2530
23 11 0.57 2832
24 8 0.68 3914
18 9 0.68 3927
19 9 0.71 4234
23 17 0.54 2573
22 18 0.53 2458
28 12 0.57 2897
32 14 0.59 2917
18 11 0.55 2584
24 8 0.67 3711
16 9 0.72 4204
18 15 0.53 2362
27 17 0.51 2283
28 13 0.57 2728
29 15 0.59 3020
33 16 0.55 2620
25 13 0.58 2877
17 19 0.49 2074
27 11 0.58 2806
23 10 0.60 3042
24 8 0.71 4800
26 9 0.72 4223
25 14 0.66 3773
30 14 0.61 3243
25 8 0.69 4200
23 13 0.65 3536
25 16 0.59 3065
22 12 0.70 4500
21 16 0.62 3291
22 17 0.52 2269
24 12 0.55 2600
26 17 0.51 2271
23 16 0.50 2100
21 18 0.47 1830
18 11 0.56 2704
17 8 0.73 4410
19 17 0.60 3079
23 14 0.67 3770
22 18 0.52 2209
25 11 0.60 2910
22 14 0.56 2699
21 17 0.53 2465
23 18 0.47 1861
21 11 0.67 3882
19 10 0.65 3563
18 8 0.72 3950

1. Calcular las correlaciones de Pearson entre las cuatro variables.

2. Construir un modelo de Regresión lineal simple con el que pronosticar el nivel de densidad ósea a partir de los meses de amenorrea de la paciente.

3. Construir un modelo de Regresión lineal simple con el que pronosticar el nivel de densidad ósea a partir de los valores de leucocitos de una paciente.

4. Valorar los resultados.

Solución Situación 57

1. Hacer una Estadística descriptiva de la variable IMC:

Los estadísticos más importantes son los siguientes:

IMG_8112

El Box-Plot es el siguiente:

IMG_8113

2. Comprobar el ajuste de la variable IMC a la distribución normal mediante la Asimetría estandarizada y la Curtosis estandarizada y resumirla apropiadamente:

En los datos de Estadística descriptiva del apartado anterior puede verse el cálculo de la Asimetría estandarizada y la Curtosis estandarizada de esta variable. Como puede verse una (la Asimetría estandarizada) está fuera del intervalo (-2, 2). Con uno que esté fuera de ese intervalo ya podemos considerar que el ajuste a la normalidad no es de la suficiente calidad.

Por lo tanto, a la hora de resumir la variable, la mejor opción sería: Mediana y Rango intercuartílico; o sea: 24 (23, 26).

3. Calcular y valorar las correlaciones entre las tres variables cuantitativas: Edad, IMC y TVdiaria. Calcular esas mismas correlaciones entre las tres variables cuantitativas en hombres y en mujeres por separado:

En el total de individuos las correlaciones de Pearson son las siguientes:

IMG_8114

En hombres:

IMG_8116

En mujeres:

IMG_8117

Como puede observarse entre Edad e IMC siempre hay correlación significativa, positiva y bastante grande en cuanto a magnitud. Entre Edad y TvDiaria hay correlación positiva significativa en el total y cuando se hace por sexos esta correlación sólo es significativa en las mujeres, no en los hombres.

4. Hacer una Estadística descriptiva de las variables Antidepresivos y Trabaja:

IMG_8118

IMG_8119

IMG_8120

IMG_8121

5. Construir un intervalo de confianza del 95% de la media de la IMC en hombres y uno en mujeres:

Veamos primero el de mujeres. La Estadística descriptiva de la variable IMC en mujeres es:

IMG_8125

Por lo tanto, un intervalo de confianza de la media del 95%, en mujeres, sería (24.14-2×0.4, 24.14+2×0.4)=(23.34, 24.94). Porque cogemos la media muestral y le restamos y le sumamos dos veces el error estándar (0.4).

Veamos ahora lo mismo pero en hombres:

IMG_8126

Por lo tanto, un intervalo de confianza de la media del 95%, en hombres, sería (25.72-2×0.41, 25.72+2×0.41)=(24.9, 26.54).

Solución Situación 58

Respuestas correctas:

1a: La muestra ordenada es (-9, -7, -3, -2, 0, 0, 1, 12). El primer cuartil es -5 porque es el promedio entre -7 y -3 y el tercer cuartil es 0.5 porque es el promedio entre 0 y 1. Por lo tanto, el rango intercuartílico es la diferencia entre 0.5 y -5 que es 5.5.

2b: La mediana de esta muestra es 25, el primer cuartil también es 25 y el tercer cuartil es 155. Esta muestra tiene un aspecto que permite pensar en que no se ajustará a una distribución normal y que, por lo tanto, tendrá Asimetría estandarizada o Curtosis estandarizada, o ambas, fuera del intervalo de la normalidad: fuera del intervalo (-2, 2). Las otras tres respuestas no son ciertas.

3c: Se trata de una correlación no significativa porque el p-valor es mayor que 0.05. Si una correlación no es significativa quiere decir que todavía puede suceder cualquier cosa a nivel poblacional, por lo tanto, no podemos descartar que la correlación poblacional sea incluso positiva, negativa o incluso 0. Por lo tanto, debemos, en este caso, mantener la Hipótesis nula de la correlación poblacional igual a 0. Es la opción más prudente.

4c: Como la Desviación estándar es 5 y el tamaño de muestra es 100, el error estándar es 0.5. Para hacer un intervalo de confianza del 95% de la media tenemos que multiplicar el error estándar por 2, lo que nos da un intervalo (49, 51). Los otros no son correctos. El «a» suma y resta sólo un error estándar, lo que da un intervalo de la media del 68.5%. El «b» supone lo mismo con los valores individuales de la variable: suma y resta una desviación estándar únicamente, lo que nos proporciona un intervalo del 68.5% también. La «d» resta cuatro desviaciones estándar a la media y suma una desviación estándar a la media, lo que nos daría un intervalo de confianza que no se aplica, en realidad nunca y, en todo caso, no sería del 95%.

5d: Las afirmaciones «a», «b» y «c» son ciertas. Siguen al pie de la letra las definiciones de primer cuartil, tercer cuartil y rango intercuartílico. Sin embargo, la «d» no es cierta. De la información de la mediana, del primer y del tercer cuartil en absoluto se puede seguir que el intervalo del 95% sea el que allí se especifica.

Situación 58: Examen (Temas 1-5)

1. La muestra (-7, -9, 1, 12, -3, -2, 0, 0) tiene como rango intercuartílico:

a. 5,5

b. 5

c. 19

d. 4,5

2. Si decimos que la forma más apropiada de resumir una determinada variable cuantitativa es mediante los siguientes números: 25 (25-155), ¿cuál de las siguientes afirmaciones es la más razonable?:

a. Esta forma de representar la variable no es posible porque no es posible que la mediana y el primer cuartil coincidan.

b. La Asimetría estandarizada o la Curtosis estandarizada, o ambas, estarán fuera del intervalo (-2, 2).

c. La media es 25 y la desviación estándar será también 25.

d. La variable se ajusta bien a una distribución normal.

3. Una correlación r=-0.78 (p=0.25):

a. Es una correlación significativa porque la correlación es superior a 0.05.

b. Es una correlación significativa porque el p-valor es superior a 0.05..

c. Se trata de una correlación no significativa y, por lo tanto, no podemos descartar que la correlación poblacional sea incluso positiva. Por lo tanto, debemos, en este caso, mantener la Hipótesis de que la correlación poblacional es igual a 0.

d. Como la correlación no es significativa se trata de una correlación que, en realidad, es positiva.

4. Si tenemos una muestra de una variable cuantitativa de tamaño muestral 100, con media 50, desviación estándar 5, con Asimetría estandarizada 0.25 y Curtosis estandarizada 1.12, es cierto lo siguiente:

a. Un intervalo de confianza del 95% de la media es (49.5, 50.5).

b. Un intervalo de confianza del 95% de valores individuales es (45, 55).

c. Un intervalo de confianza del 95% de la media es (49, 51).

d. Un intervalo de confianza del 95% de valores individuales es (25, 55).

5. Si una variable tiene una mediana de 35, un primer cuartil de 30 y un tercer cuartil de 40, ¿cuál de las siguientes afirmaciones no es cierta?:

a. El rango intercuartílico es 10.

b. El 75% de la población aproximadamente tiene un valor por encima de 30.

c. Por encima de 40 hay, en la población, aproximadamente el mismo número de valores que por debajo de 30.

d. Un intervalo de confianza del 95% sería (20, 50).

Situación 57: Práctica (Temas 1-5)

Tenemos la siguiente base de datos de sexo, edad, IMC, consumo de TV, el uso de antidepresivos y si trabaja o no:

Sexo: 1=Hombre; 0=Mujer

IMC (Índice de masa corporal)

Edad en años

TVdiaria en horas

Antidepresivos: 1=Sí; 0=No

Trabaja: 1=Sí; 0=No

Sexo Edad IMC TVdiaria Antidepresivos Trabaja
1 52 23 1 0 1
1 60 26 2 0 1
1 60 28 2 1 0
1 31 25 3 0 1
1 41 26 2 1 1
1 56 27 1 1 1
1 76 28 5 1 0
1 31 24 2 0 1
1 34 24 3 0 1
1 63 27 3 0 1
1 21 23 1 0 0
1 44 24 2 0 1
1 52 28 2 0 1
1 41 24 3 0 1
1 43 23 3 0 1
1 51 30 4 0 1
1 23 24 3 0 0
1 45 26 2 0 1
1 26 24 2 1 0
1 36 23 1 0 1
1 31 24 1 0 1
1 41 24 1 0 1
1 51 26 1 0 1
1 41 25 1 0 0
1 31 26 2 0 0
1 34 27 2 0 1
1 63 28 2 0 0
1 43 23 1 0 1
1 51 26 1 0 1
1 41 22 2 0 1
1 45 24 2 0 1
1 60 25 2 0 0
1 36 24 2 0 1
1 65 27 2 1 0
1 49 34 1 1 1
1 43 31 2 0 1
1 51 24 2 0 1
1 43 23 2 0 1
1 47 26 2 0 1
1 19 22 2 0 1
1 59 32 2 1 1
1 57 33 1 1 1
1 40 23 2 1 1
1 43 22 2 0 0
1 44 26 2 0 0
1 52 26 2 0 0
1 42 23 2 0 0
1 52 27 2 0 0
1 52 32 2 0 0
1 31 24 2 1 1
0 41 24 3 1 0
0 43 21 3 0 1
0 51 25 4 0 0
0 41 22 4 0 1
0 24 23 1 1 1
0 41 24 1 1 1
0 27 25 1 1 1
0 21 21 4 0 0
0 31 21 4 0 0
0 23 24 2 0 0
0 63 31 2 0 0
0 41 21 3 0 0
0 23 25 1 1 1
0 52 24 4 1 1
0 23 20 2 0 1
0 51 27 4 1 0
0 37 21 2 0 0
0 22 20 2 0 0
0 73 25 5 1 0
0 50 28 5 0 0
0 36 23 3 1 1
0 46 24 2 1 1
0 62 26 4 1 0
0 65 31 4 0 0
0 40 23 3 0 0
0 40 24 3 0 0
0 69 27 5 1 0
0 50 25 5 1 0
0 50 26 5 0 0
0 37 22 1 0 1
0 47 24 2 1 1
0 57 28 3 1 0
0 47 24 3 0 0
0 37 24 2 0 0
0 40 24 3 0 0
0 32 23 2 0 0
0 37 24 2 0 1
0 47 25 3 1 1
0 57 26 4 1 0
0 47 24 4 0 0
0 37 23 4 0 1
0 40 24 4 0 0
0 69 30 5 1 1
0 47 19 4 0 0
0 22 21 1 0 0
0 26 21 1 0 0
0 47 24 2 1 0
0 23 19 2 0 1
0 57 29 2 1 1
0 58 28 3 1 0

1. Hacer una Estadística descriptiva de la variable IMC.

2. Comprobar el ajuste de la variable IMC a la distribución normal mediante la Asimetría estandarizada y la Curtosis estandarizada y resumirla apropiadamente.

3. Calcular y valorar las correlaciones entre las tres variables cuantitativas: Edad, IMC y TVdiaria. Calcular esas mismas correlaciones entre las tres variables cuantitativas en hombres y en mujeres por separado.

4. Hacer una Estadística descriptiva de las variables Antidepresivos y Trabaja.

5. Construir un intervalo de confianza del 95% de la media de la IMC en hombres y uno en mujeres.

Situación 56: Aplicación de técnicas de relación y de comparación

Supongamos que tenemos una base de datos como la siguiente:

Tenemos registradas las siguientes variables: Sexo, Edad, Fumador, Haber fumado, Paquetes-año y Bronquitis crónica.

En la variable fumador se distinguen tres situaciones: fumador activo (sí), ex-fumador (ex) y que nunca ha fumado (no).

La variable Haber fumado es una transformación de esta anterior que puede ser útil en algún momento. Agrupa en un valor de «sí» a los fumadores activos y a los ex-fumadores y en un valor de «no» a los que nunca han fumado.

En la variable Paquetes-año se calcula mediante la fórmula de años fumados multiplicado por  el número de paquetes al día fumados. Por ejemplo, una persona que ha fumado durante 15 años a razón de 1 paquete diario son 15 paquetes-año. Una persona que ha fumado durante 30 años medio paquete diario también son 15 paquetes-año.

(Esta matriz se puede copiar y pegar en un software estadístico)

(La variable Bronquitis crónica está codificada de la siguiente forma: 1=sí, 0=no)

Sexo Edad Fumador Haber fumado Paquetes-año Bronquitis crónica
h 56 20 1
h 64 45 1
h 40 15 1
h 35 5 0
h 45 20 1
h 55 35 1
h 45 0 0
h 35 no no 0 0
h 38 no no 0 0
h 67 no no 0 0
h 45 no no 0 0
h 48 no no 0 0
h 56 no no 0 1
h 45 no no 0 0
h 47 ex 25 1
h 55 ex 10 0
h 45 ex 30 1
h 49 ex 20 1
h 64 28 1
h 40 15 1
h 35 5 0
h 45 20 1
h 55 35 1
h 45 no no 0 0
h 35 no no 0 0
h 38 no no 0 0
h 67 no no 0 0
h 47 ex 25 1
h 55 ex 10 0
h 45 ex 25 1
h 49 ex 20 1
h 64 40 1
h 40 15 1
h 35 5 0
h 45 20 1
h 47 ex 25 1
h 55 ex 10 0
h 47 ex 30 1
h 51 ex 20 1
h 64 45 1
h 40 15 1
h 35 5 0
h 44 20 0
h 47 no no 0 0
h 48 no no 0 0
h 56 no no 0 1
h 46 no no 0 0
h 56 no no 0 0
h 56 no no 0 1
h 35 7 0
m 45 10 0
m 47 ex 12 0
m 55 ex 10 0
m 45 ex 15 1
m 28 5 0
m 45 20 1
m 55 12 1
m 45 no no 0 0
m 35 no no 0 0
m 27 no no 0 0
m 67 no no 0 0
m 45 no no 0 0
m 35 5 0
m 56 8 0
m 55 12 1
m 55 no no 0 0
m 41 no no 0 0
m 48 no no 0 0
m 77 no no 0 0
m 54 no no 0 0
m 40 6 0
m 50 10 0
m 66 14 1
m 69 no no 0 0
m 44 no no 0 0
m 44 no no 0 0
m 73 no no 0 0
m 54 no no 0 0
m 54 no no 0 0
m 41 5 0
m 51 13 0
m 61 12 1
m 51 no no 0 0
m 41 no no 0 0
m 44 no no 0 0
m 73 no no 0 0
m 41 5 0
m 51 20 1
m 61 10 1
m 51 no no 0 0
m 41 no no 0 0
m 44 no no 0 0
m 73 no no 0 0
m 51 no no 0 0
m 54 no no 0 0
m 62 no no 0 1
m 51 no no 0 0
m 53 ex 15 1
m 61 ex 10 0
m 62 no no 0 1

Preguntas:

1. ¿Existe asociación estadísticamente significativa entre la variable Sexo y la variable Fumador?

2. ¿Existe asociación estadísticamente significativa entre la variable Haber fumado y la variable Bronquitis crónica? Si existe asociación significativa, calcular la Odds ratio.

3. ¿Existe asociación estadísticamente significativa entre la cantidad de tabaco fumado acumulado en los fumadores y en los ex-fumadores y tener o no el diagnóstico de Bronquitis crónica? Calcular la Odds ratio.

4. ¿Existen diferencias estadísticamente significativas entre los niveles de tabaco fumado acumulado y el ser fumadores activos o ex-fumadores?

5. ¿Existen diferencias significativas entre los niveles de tabaco fumado acumulado en los dos sexos?

6. ¿Existe una correlación significativa entre la variable Edad y la variable Tabaco acumulado?