Archivo del Autor: estadisticallopis

Situación 169: Examen (Temas 1-16)

1)Tenemos dos muestras de tamaño 20 obtenidas de dos poblaciones en las que queremos comparar sus medias poblacionales. Las dos medias muestrales son 100 y 106 y la desviación estándar muestral en ambas muestras es de 5. Evaluamos con el GRANMO la potencia del estudio realizado obteniendo la siguiente tabla:

¿qué respuesta es correcta?

a.Con estos datos no encontraremos diferencias estadísticamente significativas porque la potencia es menor al 95%.

b.Si aumentáramos el tamaño de muestra, la diferencia de medias se mantuviera y la desviación estándar subiera, entonces la potencia bajaría.

c.Si disminuyéramos el tamaño de muestra, la diferencia de medias bajara y la desviación estándar aumentara, entonces la potencia bajaría.

d.Si aumentáramos el tamaño de muestra, la diferencia de medias subiera y la desviación estándar se mantuviera igual, entonces la potencia bajaría.

 

2)En un artículo donde se compara la temperatura media del agua entre dos zonas marítimas distintas se nos da la siguiente información: La diferencia de medias poblacionales tiene un intervalo de confianza del 95% de (-0.8, 1.05). ¿Cuál de las siguientes afirmaciones es cierta?

a.Como no tenemos un p-valor no podemos decir nada sobre esa comparación de temperaturas.

b.Necesitaríamos saber qué técnica de comparación se ha aplicado.

c.Podemos decir que no hay diferencias de temperatura estadísticamente significativas.

d.Necesitamos conocer cómo es la descriptiva de cada una de las dos muestras para tomar una decisión.

 

3)En un estudio donde hemos analizado 100 muestras recogidas en el mar mediterráneo en 23 se ha superado un umbral de un contaminante. Calcular un intervalo de confianza del 95%:

a.(10.38, 35.62)

b.(14.58, 31.42)

c.(18.79, 27.21)

d.(20.90, 25.10)

 

4)En un estudio vemos que nos dan el siguiente intervalo de confianza del 95% de la media: (48.0, 52.0). Leemos que el tamaño de muestra ha sido 25. ¿Cuál es el intervalo de confianza del 95% descriptivo de la variable o, también denominado, intervalo de valores individuales de esa variable?

a.(40, 60)

b.(35, 65)

c.(30, 70)

d.(45, 55)

 

5)¿En cuál de las siguientes muestras el rango intercuartílico es 2?

a.(1, 1, 2, 4, 6, 8, 10, 11)

b.(1, 4, 5, 12)

c.(1, 2, 4, 8)

d.(1, 1, 3, 3, 5)

 

6)De las siguientes afirmaciones cuál es cierta:

a.En una Regresión es compatible una pendiente con p=0.33 con un IC de confianza del 95% de la correlación de (0.5, 0.9)

b.En una comparación de proporciones es compatible un p-valor de 0.24 con un intervalo de confianza del 95% de la diferencia de proporciones de (-0.13, 0.22).

c.En una V de Crámer si el valor es superior a 0.5 se trata de una relación estadísticamente significativa.

d.En una técnica de comparación de medias es compatible un p-valor de 0.004 con un intervalo de confianza del 95% de la diferencia de medias de (-1, 5)

 

7)Si en una comparación de dos poblaciones al aplicar el test adecuado al caso el p-valor final es 0.22 es cierto lo siguiente:

a.Si aumentamos el tamaño de muestra y disminuimos la desviación estándar el p-valor pasará a ser significativo.

b.Si aumentamos la desviación estándar y disminuimos la diferencia de medias el p-valor bajará.

c.Si disminuimos la diferencia de medias y disminuimos la desviación estándar el p-valor subirá.

d.Si aumentamos el tamaño de muestra y aumentamos la diferencia de medias el p-valor bajará.

 

8)Se quiere hacer un pronóstico del porcentaje de playas ante población de más de 10.000 habitantes en las que tenemos la presencia de una determinada especie de zooplancton. Se pretende tener un radio del intervalo del 1%, en un intervalo del 95%. Por la información previa que manejamos se piensa que el valor debe estar en torno al 10%. ¿Cuál es el tamaño de muestra recomendable en base a esta información:

a.6400.

b.3600.

c.1000.

d.8800.

 

9)Se estudia la sangre de 1000 ejemplares de una especie de pez tomados en una expedición y se compara la frecuencia en cuanto a tres variedades (A, B, C) y respecto a tres niveles cualitativos de peso (1, 2, 3). Realizamos un test de la ji-cuadrado obteniendo un valor de ji-cuadrado de 14.86.

a.El p-valor será 0.05.

b.El p-valor será 0.001.

c.El p-valor será 0.1.

d.El p-valor será 0.005.

 

10)Se ensayan dos tratamientos (A y B) a aguas residuales procedentes de una muestra de 50 depuradoras, con la finalidad de eliminar gran parte de un contaminante concreto. Cada muestra se homogeniza y se divide en dos y se aplica a cada una de ellas uno de los dos tratamientos. Se estudia la variable siguiente: Se ha superado o no el umbral de un contaminante tras el tratamiento. Para comparar si esta diferencia es estadísticamente significativa el test adecuado es:

a.El Test de proporciones.

b.El Test exacto de Fisher.

c.El Test de Mann-Whitney.

d.El Test de McNemar.

 

11).¿Cuál de estas cuatro informaciones es coherente?

a.Ji-cuadrado=12.01 de una tabla 8X2 y p-valor de 0.10

b.Ji-cuadrado=7.37 de una tabla 3X2 y p-valor de 0.005

c.Ji-cuadrado=20.51 de una tabla 6×2 y p-valor de 0.01

d.Ji-cuadrado=24.10 de una tabla 4X3 y p-valor de 0.005

 

12)En un estudio de distribución de la temperatura marina nos dan la siguiente información sobre la temperatura de una muestra de tamaño 100: 17.3 (13.5-17.8). ¿Cuál de las siguientes informaciones es coherente?

a.La media muestral es 17.3.

b.La desviación estándar es 4.5.

c.Si hiciéramos, en lugar de 100 medidas, 1000, unas 250 aproximadamente serían temperaturas por debajo de 17.3.

d.El 75% de las temperaturas en esta zona están por debajo de 17.8.

 

13)En un estudio de comparación de la salinidad marina de dos zonas tenemos la siguiente información:

Zona 1: Media muestral= 35.1; Desviación estándar=1;n=100

Zona 2: Media muestral= 35.6; Desviación estándar=1;n=100

Si queremos hacer una comparación de medias de ambos grupos, ¿cuál de las siguientes afirmaciones es cierta?

a.Habrá diferencias significativas porque las dos medias son distintas.

b.Habrá diferencias significativas porque los dos intervalos de confianza de la media no se solapan.

c.No habrá diferencias significativas porque los intervalos de confianza descriptivos de ambas muestras se solapan.

d.No habrá diferencias porque no tenemos información sobre la aplicación del test de la t de Student de varianzas iguales.

 

14)¿Cuál de las siguientes afirmaciones es cierta?

a.Un intervalo de confianza del 95% de la diferencia de proporciones de dos muestras de (0.12, 0.23) indica que no hay diferencia estadísticamente significativa entre las proporciones de ambas poblaciones.

b.Una correlación de Pearson de 0.9 con un intervalo de confianza del 95% que no contenga al uno es estadísticamente significativa.

c.Una V de Crámer de 0.9 con una ji-cuadrado con un p-valor de 0.15 implica que no hay relación significativa entre las variables cualitativas relacionadas.

d.Una R2 superior al 50% implica que la regresión lineal simple es estadísticamente significativa.

 

15)Tenemos la siguiente tabla de resultados en un estudio donde comparamos la cantidad de ejemplares de una especie de pez en cuatro zonas concretas del mediterráneo. En cada zona se toma una muestra de tamaño 5. Los resultados, en cuanto al número de ejemplares de esa especie de pez contadas en cada muestra y zona, son los siguientes:

Elige la respuesta correcta del resultado que obtendríamos con un ANOVA de un factor:

a.Factor Zona: p<0.05. Tres grupos homogéneos

b.Factor Zona: p<0.05. Cuatro grupos homogéneos

c.Factor Zona: p<0.05. Dos grupos homogéneos

d.Factor Zona: p>0.05. Una zona homogénea.

 

16)Tenemos la siguiente tabla de resultados en un estudio donde comparamos el porcentaje de una especie de zooplancton en tres zonas concretas del mediterráneo. También, en cada zona, se ha diferenciado entre muestras tomadas sobre la termoclina o por debajo de ella. Los resultados de porcentaje obtenidos son los siguientes:

En un ANOVA de dos factores, ¿cuáles son los resultados que obtendríamos?

a.Factor Zona: p<0.05. Factor Situación respecto a la termoclina: p>0.05. Interacción: p<0.05.

b.Factor Zona: p<0.05. Factor Situación respecto a la termoclina: p>0.05. Interacción: p>0.05.

c.Factor Zona: p<0.05. Factor Situación respecto a la termoclina: p<0.05. Interacción: p<0.05.

d.Factor Zona: p>0.05. Factor Situación respecto a la termoclina: p<0.05. Interacción: p>0.05.

 

17)Hemos recogido 50 muestras de un litro de agua en dos playas en las que queremos comparar la cantidad de un determinado contaminante. Después de obtener los resultados analíticos hemos aplicado primero el test de Fisher-Snedecor y proporciona un p-valor de 0.001. Luego hemos aplicado el test de Shapiro-Wilk aplicado y la primera muestra nos da un p-valor de 0.33 y la segunda un p-valor de 0.01. ¿Qué test de comparación hemos de utilizar?

a.El test de la t de Student de varianzas iguales

b.El test de Mann-Whitney

c.El test de la t de Student de varianzas diferentes

d.El test de la t de Student de datos apareados

 

18)Tenemos una muestra en la que medimos el porcentaje de la abundancia de una especie de fitoplancton en el conjunto de la biomasa. A partir de esa muestra obtenemos el intervalo de confianza del 95% de la media siguiente: (23.5, 28.5). Queremos realizar el contraste de hipótesis sobre la media de una población. Nuestra hipótesis nula es que la media poblacional el 25 y la hipótesis alternativa que la media poblacional es distinta de 25. ¿Cuál de los siguientes p-valores te parece podríamos haber obtenido?

a.0.001

b.0

c.0.43

d.1

 

19)En una Regresión lineal simple es cierto:

a.Si la pendiente tiene un intervalo de confianza del 95% de (0.23, 1.12) no es estadísticamente significativa por contener al 1.

b.Si la R2 es inferior al 5% tenemos una relación que no es estadísticamente significativa entre las variables de la regresión.

c.Si el intervalo de confianza del 95% de la diferencia de medias de dos poblaciones es (0.125, 0.199) podemos decir que hay una diferencia de medias estadísticamente significativa.

d.Una pendiente estadísticamente significativa no puede tener una R2 menor del 50%.

 

20)¿Qué afirmación entre las siguientes es cierta?

a.En una concordancia entre dos operadores si un operador tiene una kappa de 0.2 y el otro tiene una kappa de 0.8 es que concuerdan muy poco.

b.En una concordancia entre dos operadores si un operador tiene una kappa de 0.8 y el otro tiene una kappa de 0.8 es que concuerdan mucho.

c.En una concordancia de un operador consigo mismo si un operador tiene una kappa de 0.1 indica que este operador es muy coherente en sus respuestas.

d.En una concordancia de un operador consigo mismo si un operador tiene una kappa de 0.9 es que en la diagonal principal de la tabla de contingencias están la mayor parte de valores.

Solución Situación 168

1.

a.Se trata de tres factores cruzados. Uno fijo y dos aleatorios. Sistema de desinfección es un factor fijo a dos niveles. Sala hospitalaria es un factor aleatorio a tres niveles. Analista es un factor aleatorio a tres niveles.

b.Habra 7 efectos. Para ver los cocientes que habrá que realizar para efectuar los contrastes de hipótesis ver el modelo en ANOVA de tres factores.

c.

2.

3.

a. Una regresión logística puesto que estamos evaluando la viabilidad o no a cinco años.

b. Una regresión de Cox puesto que estamos relacionando las diferentes curvas de supervivencia que podemos tener al ir cambiando los valores de la variable pendiente del terreno.

Situación 168: Examen (ANOVA, Regresión logística, Análisis de superviviencia y Regresión de Cox)

1. Se quiere estudiar el grado de eficacia en la desinfección hospitalaria de dos mecanismos diferentes. Para ello se toma al azar tres salas de un hospital de tercer nivel. Se quiere evaluar la variabilidad en la respuesta de estos mecanismos de desinfección en las diferentes salas de un hospital. En dos viernes sucesivos se ensaya, en cada de las salas elegidas los dos mecanismos de desinfección diferentes. Cada una de las muestras obtenidas es analizada por tres analistas diferentes puesto que se quiere también evaluar la variabilidad que pueda haber entre analistas, realizando cada uno de ellos dos réplicas de cada análisis.

a. Escribe el modelo.

b. Escribe los efectos y los cocientes de cuadrados medios que deberían realizarse para sus respectivos contrastes de hipótesis.

c. Construye una tabla de datos factibles simulados en la que sean significativos todos los factores implicados. Comenta brevemente la elección realizada.

2. Comprobar si hay diferencias estadísticamente significativas entre las dos siguientes curvas de supervivencia en las que se ha analizado los tiempos de muerte de dos especies de árboles reimplantados en zona previamente quemada, en un seguimiento hasta 24 meses. Los 24c indica que al final del estudio estaban en situación de viabilidad:

Especie A: (1, 2, 3, 3, 3, 5, 10, 19, 24c, 24c)

Especie B: (12, 15, 16, 17, 22, 24c, 24c, 24c)

3. En un estudio de reforestación se pretende realizar dos subestudios concretos:

a. Analizar la viabilidad o no a los cinco años de una especie reimplantada en función de la variable horas de insolación anual.

b. Evaluar la relación de la curva de supervivencia hasta los dos años de esa especie implantada en función de la pendiente del terreno en el lugar de implante.

Indicar brevemente cuál sería la técnica estadística adecuada para cada uno de los dos objetivos del estudio. 

Solución Situación 167

1.

a.Se trata de tres factores cruzados, dos fijos y uno aleatorio. Sistema de desinfección es un factor fijo a dos niveles. Sala hospitalaria es un factor fijo a tres niveles. Analista es un factor aleatorio a tres niveles.

b.Habra 7 efectos. Para ver los cocientes que habrá que realizar para efectuar los contrastes de hipótesis ver el modelo en ANOVA de tres factores.

c.

2.

3.Supongamos que codificamos la no viabilidad como 1 y la viabilidad como 0:

Humedad: OR=0.78; IC95%: (0.56, 0.96): Se trata de un factor significativo y protector. Mayor humedad mayor viabilidad.

Concentración de Fósforo del suelo: OR=1.08; IC95%: (0.86, 1.39). No se trata de un factor significativo porque el 1 está dentro del intervalo.

Actividad de agua del suelo: OR=0.55; IC95%: (0.26, 0.77): Se trata de un factor significativo y protector. A mayor actividad de agua mayor viabilidad.

Distancia media a otro a los cinco arbustos más próximos: OR=1.76; IC95%: (1.28, 2.56): Se trata de un factor significativo y factor de riesgo. A mayor distancia menor viabilidad.

 

Situación 167: Examen (ANOVA, Regresión logística y Análisis de supervivencia)

1. Se quiere estudiar el grado de eficacia en la desinfección hospitalaria de dos mecanismos diferentes. Para ello se toma una sala de traumatología, una de ginecología y una con enfermos covid-19, puesto que se quiere ver la eficacia en estos tres tipos de salas bien diferenciadas en cuanto al nivel de contaminación ambiental. En dos viernes sucesivos se ensaya, en cada, sala los dos mecanismos de desinfección diferentes. Cada una de las muestras obtenidas es analizada por tres analistas diferentes puesto que se quiere también evaluar la variabilidad que pueda haber entre analistas, realizando cada uno de ellos dos réplicas de cada análisis.

a. Escribe el modelo.

b. Escribe los efectos y los cocientes de cuadrados medios que deberían realizarse para sus respectivos contrastes de hipótesis.

c. Construye una tabla de datos factibles simulados en la que sean significativos todos los factores implicados. Comenta brevemente la elección realizada.

2. Comprobar si hay diferencias estadísticamente significativas entre las dos siguientes curvas de supervivencia en las que se ha analizado los tiempos de muerte de dos especies de árboles reimplantados en zona previamente quemada, en un seguimiento hasta 24 meses. Los 24c indica que al final del estudio estaban en situación de viabilidad:

Especie A: (1, 2, 3, 3, 3, 5, 10, 19, 24c, 24c)

Especie B: (6, 7, 8, 9, 12, 15, 20, 24c, 24c, 24c)

3. Se ha analizado la relación con la viabilidad o no al año de una especie reimplantada en bosques de una serie de variables. Tenemos los siguientes resultados:

Humedad: OR=0.78; IC95%: (0.56, 0.96)

Concentración de Fósforo del suelo: OR=1.08; IC95%: (0.86, 1.39)

Actividad de agua del suelo: OR=0.55; IC95%: (0.26, 0.77)

Distancia media a otro a los cinco arbustos más próximos: OR=1.76; IC95%: (1.28, 2.56)

Comenta brevemente estos resultados (Supongamos que codificamos la no viabilidad como 1 y la viabilidad como 0).

Problemas de Sensibilidad, Especificidad, Valor predictivo positivo y Valor predictivo negativo

1. Supongamos que estamos estudiando una enfermedad en una población que sabemos que tiene una prevalencia de 0.3 (o, en porcentaje, del 30%). La población queda partida en dos grupos: Enfermos (E) y No enfermos (NE). La probabilidad de E es 0.3 y la de NE es 0.7. Supongamos también que podemos aplicar una técnica diagnóstica para ver si una persona tiene o no tiene esa enfermedad. Supongamos que sabemos la probabilidad de que la prueba dé positiva (+) si una persona tiene la enfermedad; o sea, la P(+/E) y que también sabemos la probabilidad de que la prueba dé positiva si una persona no tiene la enfermedad; o sea, la P(+/NE). Si quisiéramos sabe la probabilidad de que cogiendo una persona al azar en esa población la prueba diera positiva; o sea, la P(+) deberíamos aplicar el Teorema de las probabilidades totales. Si lo que nos planteáramos fuera saber que sabiendo que ha dado positiva la prueba en una persona calcular la probabilidad de que sea una persona con la enfermedad; o sea, P(E/+) deberíamos aplicar el Teorema de Bayes. Veámoslo:

IMG_5115

De hecho, aquí, en este ejemplo, aparecen conceptos de una importancia crucial en Medicina. En cualquier procedimiento diagnóstico a la probabilidad P(+/E) se la denomina Sensibilidad, al valor 1-P(+/NE); o sea, a la P(-/NE) se le denomina Especificidad. Y a la probabilidad P(E/+) se le denomina Valor predictivo positivo. Ver el artículo Sensibilidad, Especificidad, Valor predictivo positivo y Valor predictivo negativo.

2. Supongamos que un índice intenta predecir el síndrome de la muerte súbita con una sensibilidad del 68% y una especificidad del 82%. Calcular el Valor predictivo positivo y el Valor predictivo negativo de este índice si se aplica a una población donde se producen un 0.21% de muertes súbitas sobre el total de nacimientos.

Veamos cómo podemos, a partir de los datos que tenemos, plantear el problema planteado como un caso donde aplicar el Teorema de las probabilidades totales y el Teorema de Bayes:

IMG_5116

Una vez planteada esta información podemos aplicar ambos teoremas. Primero, mediante el Teorema de las probabilidades totales, calcularemos la P(+). Luego, mediante el Teorema de Bayes, calcularesmo el Valor predictivo positivo (VPP) y el Valor predictivo negativo (VPN).

Veamos cómo son estos cálculos:

IMG_5118

Es un ejemplo interesante para ver cómo la sensibilidad y la especificidad no son, muchas veces un criterio suficiente para evaluar el uso de un determinado mecanismo diagnóstico. Hemos visto en el artículo referenciado en el problema anterior que una baja prevalencia en una patología hace bajar mucho el Valor predictivo positivo. Y si este valor es bajo, por mucha sensibilidad y especificidad que tengamos, transforma el procedimiento diagnóstico es inoperante, porque difícilmente nos podremos fiar de un valor positivo.

Problemas de Teorema de las probabilidades totales y Teorema de Bayes

1. Supongamos que tenemos dos urnas (A y B). En la urna A tenemos 2 bolas blancas y 3 bolas negras. En la urna B tenemos 3 bolas blancas y 4 bolas negras. Se toma una de las dos urnas al azar y luego se toma una bola al azar de ella. Sabemos que ha salido una bola negra. Calcular la probabilidad de que sea una bola negra que proceda de la urna B.

Solución:

Vamos a dibujar el problema. Vamos a ver cómo se puede dibujar para que podamos aplicar el Teorema de las probabilidades totales y el Teorema de Bayes y aplicaremos ambos teoremas:

IMG_0722

2. En una urna A tenemos 2 bolas blancas y 3 bolas negras. En una urna B tenemos 3 bolas blancas y 4 negras. Pasamos una bola de A a B sin mirar de qué color es y, después, una de B a A también sin mirar. Posteriormente se extrae una bola de A. Calcular la probabilidad de que la bola que hemos pasado primero de A a B sea negra si sabemos que la bola que hemos extraído al final de A ha sido negra.

Solución:

Como siempre un problema de probabilidades es muy conveniente dibujarlo. Y ver cómo se adapta a un problema de aplicación del Teorema de las probabilidades totales y del Teorema de Bayes.

Veamos cómo se dibujaría este problema:

IMG_0693

Y si aplicamos los dos teoremas tenemos el siguiente resultado:

IMG_0694

 

3. Sabemos que entre las personas que sufren sordera congénita 1 de cada 50 son, además de sordos, también invidentes. Se estima, también, además, que la probabilidad de que un sordo no invidente adquiera el lenguaje oral es de 0.1, mientras que esta probabilidad baja a 0.01 en caso de sordos invidentes. Se pide:

a. Una estimación del porcentaje de sordos congénitos que adquieren el lenguaje oral.

b. Sabiendo que un sordo congénito que sabemos que ha adquirido el lenguaje oral calcular la probabilidad de que sea invidente.

Solución:

Utilizaremos la nomenclatura:

SNI=Sordo no invidente

SI=Sordo invidente

LO=Lenguaje oral

Como hemos visto la clave de este tipo de problemas es dibujarlo. El dibujo recogiendo los datos del problema es el siguiente:

IMG_0769

La primera pregunta pide P(LO) y hace falta aplicar el Teorema de las probabilidades totales.

La segunda pregunta pide P(SI/LO) y hace falta aplicar el Teorema de Bayes.

Las respuestas son las siguientes:

IMG_0770

 

4. Los ejemplares de la  especie bacteriana Escherichia coli pueden mutar y adquirir resistencia a los antibióticos. En un experimento consideramos 3 variedades (serotipos concretos) de E. coli, llamados, para abreviar, V1, V2 y V3, y, consideramos también, la resistencia a 2 antibióticos frecuentemente utilizados: A y B.

En presencia de un cierto compuesto mutagénico estas 3 variedades de E. coli tienen probabilidades diferentes a la hora de adquirir resistencia respecte a A y a B. A continuación se indica la probabilidad de que un individuo presente alguna de las diferentes combinaciones de resistencia en función de si pertenece a una u otra variedad de E.coli:

Si es V1:

p(«no resiste ni A ni B»)=0.94, p(«resiste sólo a A»)=0.02, p(«resiste a A y a B»)=0.01.

Si es V2:

p(«no resiste ni A ni B»)=0.97, p(«resiste sólo a A»)=0.02, p(«resiste a A y a B»)=0

Si es V3:

p(«no resiste ni A ni B»)=0.91, p(«resiste sólo a  A»)=0.05, p(«resiste a A y a B»)=0.03.

Se prepara una solución con el compuesto mutagénico y una mezcla de individuos no resistentes de los que un 40% de bacterias son V1, un 30% son V2 i un 30% son V3. Asumiendo que ha transcurrido el tiempo necesario para que aparezcan mutaciones y que la aparición de resistencias se ha producido de acuerdo a las probabilidades descritas anteriormente, calcular:

a.¿Cuál es la probabilidad de que una bacteria cualquiera de la solución no presente resistencia a ninguno de los dos antibióticos?

b. Si una bacteria presenta resistencia sólo al antibiótico A, ¿cuál es la probabilidad de que sea de la variedad 3?

Solución:

a. Es importante siempre en este tipo de problemas dibujarlo. Veamos en primer lugar las probabilidades de resistencias distintas en cada variedad de E. coli:

IMG_5238

Y ahora veamos cómo se dibujaría lo preguntado en la primera pregunta:

IMG_5239

La aplicación del Teorema de las probabilidades totales es clara en este caso, tenemos la información adecuada para ello. Tenemos una partición y un conjunto solapado con todos los elementos de la partición, tenemos también las probabilidades de cada elemento de la partición y las probabilidades condicionadas correspondientes. El conjunto solapado con la partición es, en este caso, el formado por los ejemplares que no han generado resistencia a ninguno de los dos antibióticos, que es el conjunto complementario al formado por la unión de A y B, como se expresa en el gráfico. Los cálculos necesarios, pues, para responder a la primera pregunta son:

IMG_5240

b. Para resolver este segundo apartado el dibujo que hay que hacer es otro, es el siguiente:

IMG_5241

Ahora el conjunto que está inmerso en la partición es el conjunto A-B, que representa lo que hay en A que no comparte con B; o sea, los ejemplares que presentan resistencia únicamente al antibiótico A, como nos plantea el problema. Lo he dibujado pequeño porque las probabilidades son pequeñas.

Ahora debemos aplicar el Teorema de Bayes, porque sabemos que se ha producido el suceso A-B y queremos calcular la probabilidad de que se trate de la variedad V3. Los cálculos son los siguientes:

IMG_5242

 

Solución Situación 166

1.

2. La curva de riesgo de la nueva especie va por debajo de la curva de riesgo de la especie anterior y, por lo tanto, la curva de supervivencia irá por encima, sobreviven más tiempo. Por lo tanto, si dibujáramos la curva de supervivencia de la nueva especie, respecto de la anterior, la deberíamos dibujar por encima de la que tenemos representada en el apartado anterior.

3. Si hemos catalogado como 1 la reproducción y como 0 la no reproducción, la especie A ejerce un efecto favorable a la mayor probabilidad de reproducción. La especie B ejerce un efecto inhibidor de la reproducción de nuestra especie de ave. La especie C no ejerce ninguna influencia puesto que se trata de una OR no estadísticamente significativa..

4. Se trata del individuo a. Es claro que el a y el b están más a la derecha por tratarse de individuos con valores altos de las variables con coeficiente positivo y bajo de la variable con coeficiente negativo, en la primera componente. La a carga más el valor en la variable con coeficiente negativo que en la variable con coeficiente positivo, en la segunta componente.

5. La tenencia de la tierra, la Marginación en el año 1995,  los Cambios de la marginación 1995-2010, la Aptitud agrológica del suelo y la Pendiente, como tienen coeficientes distintos de cero  tendrán Odds ratio distintas de 1. En concreto, al ser los coeficientes mayores que 0 la OR será, en todos los casos, mayor que 1. Pero hay un claro problema: no nos dan la significación estadística, ni en forma de un p-valor ni mediante un intervalo de confianza. Esto es un claro problema de este estudio. Además, es mucho más habitual expresar la relación medidante la OR y no mediante los coeficientes. Esto último es un problema menor, comparado con lo anterior, evidentemente.

 

Situación 166: Examen (Temas 11, 17, 21 y 22)

1. Construir el estimador Kaplan-Meier de la siguiente muestra de tiempos hasta la muerte de árboles reimplantados en una zona previamente quemada, en un seguimiento hasta 12 meses. El valor de 12c indica que al final del estudio estaban en situación de viabilidad:

(3, 3, 4, 4, 4, 4, 8, 10, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c)

2. En el problema anterior se establece una comparación entre dos especies de árboles distintas. Nos dicen que la Hazard ratio de la nueva especie respecto a la del problema anterior es HR=0.56; IC95% (0.23, 0.92). Explicar brevemente qué es lo que podemos afirmar con esta información que se nos proporciona. Dibuja cómo podría ser la nueva curva de supervivencia respecto a la dibujada en el problema anterior.

3. En un estudio para evaluar los factores que se asocian a la reproducción o no de una especie de ave en un ambiente determinado se ha aplicado una Regresión logística. Se afirma que el número de ejemplares de la especie A presente en la zona tiene una OR=1.78 IC95%: (1.45, 2.04) respecto a la reproducción de nuestra especie de ave. El número de ejemplares de la especie B presenta una OR=0.56 IC95%: (0.33, 0.84) respecto a la reproducción de nuestra especie de ave. Y la especie C presenta una OR=0.93 IC95%: (0.58, 1.44) también respecto a la reproducción de nuestra especie de ave. Explica brevemente qué conclusiones se pueden deducir de estos resultados.

4. Indica cuál es el punto marcado con el número 5 en un Análisis de Componentes Principales con las dos siguientes primeras componentes principales:

Y1=0.5X1+0.5X2-0.5X3+0.5X4 

Y2=0.01X1+0.5X2+0.01X3-0.5X4 

a.(5, 4, 2, 5)

b.(4, 5, 2, 4)

c.(2, 2, 6, 1)

d.(2, 1, 6, 2)

5.En una región de Méjico se realizó un estudio del riesgo de degradación-deforestación. Para ello se analizaron, en unas zonas puntuales de esa región, una serie de variables con potencialidad para estar en relación causal con esta consecuencia ambiental. En esa muestra había puntos ya degradados o deforestados y puntos que no. Se realizó una regresión logística y a partir de ese modelo se hizo una predicción de todo el territorio. El mapa que se realizó es el siguiente:

La tabla de las variables estudiadas que los investigadores aportan es la siguiente:

Comenta, brevemente estos resultados. Di que variables te parecen relevantes. Di, también, qué problemas ves en esta tabla de datos.

El artículo se puede consultar en https://www.researchgate.net/publication/322149238_AREAS_PROBABLES_DE_DEGRADACION-DEFORESTACION_DE_LA_CUBIERTA_VEGETAL_EN_CHIHUAHUA_MEXICO_UNA_EXPLORACION_MEDIANTE_REGRESION_LOGISTICA_PARA_EL_PERIODO_1985-2013.