Archivo de la categoría: PROBLEMAS

Solución Situación 168

1.

a.Se trata de tres factores cruzados. Uno fijo y dos aleatorios. Sistema de desinfección es un factor fijo a dos niveles. Sala hospitalaria es un factor aleatorio a tres niveles. Analista es un factor aleatorio a tres niveles.

b.Habra 7 efectos. Para ver los cocientes que habrá que realizar para efectuar los contrastes de hipótesis ver el modelo en ANOVA de tres factores.

c.

2.

3.

a. Una regresión logística puesto que estamos evaluando la viabilidad o no a cinco años.

b. Una regresión de Cox puesto que estamos relacionando las diferentes curvas de supervivencia que podemos tener al ir cambiando los valores de la variable pendiente del terreno.

Situación 168: Examen (ANOVA, Regresión logística, Análisis de superviviencia y Regresión de Cox)

1. Se quiere estudiar el grado de eficacia en la desinfección hospitalaria de dos mecanismos diferentes. Para ello se toma al azar tres salas de un hospital de tercer nivel. Se quiere evaluar la variabilidad en la respuesta de estos mecanismos de desinfección en las diferentes salas de un hospital. En dos viernes sucesivos se ensaya, en cada de las salas elegidas los dos mecanismos de desinfección diferentes. Cada una de las muestras obtenidas es analizada por tres analistas diferentes puesto que se quiere también evaluar la variabilidad que pueda haber entre analistas, realizando cada uno de ellos dos réplicas de cada análisis.

a. Escribe el modelo.

b. Escribe los efectos y los cocientes de cuadrados medios que deberían realizarse para sus respectivos contrastes de hipótesis.

c. Construye una tabla de datos factibles simulados en la que sean significativos todos los factores implicados. Comenta brevemente la elección realizada.

2. Comprobar si hay diferencias estadísticamente significativas entre las dos siguientes curvas de supervivencia en las que se ha analizado los tiempos de muerte de dos especies de árboles reimplantados en zona previamente quemada, en un seguimiento hasta 24 meses. Los 24c indica que al final del estudio estaban en situación de viabilidad:

Especie A: (1, 2, 3, 3, 3, 5, 10, 19, 24c, 24c)

Especie B: (12, 15, 16, 17, 22, 24c, 24c, 24c)

3. En un estudio de reforestación se pretende realizar dos subestudios concretos:

a. Analizar la viabilidad o no a los cinco años de una especie reimplantada en función de la variable horas de insolación anual.

b. Evaluar la relación de la curva de supervivencia hasta los dos años de esa especie implantada en función de la pendiente del terreno en el lugar de implante.

Indicar brevemente cuál sería la técnica estadística adecuada para cada uno de los dos objetivos del estudio. 

Solución Situación 167

1.

a.Se trata de tres factores cruzados, dos fijos y uno aleatorio. Sistema de desinfección es un factor fijo a dos niveles. Sala hospitalaria es un factor fijo a tres niveles. Analista es un factor aleatorio a tres niveles.

b.Habra 7 efectos. Para ver los cocientes que habrá que realizar para efectuar los contrastes de hipótesis ver el modelo en ANOVA de tres factores.

c.

2.

3.Supongamos que codificamos la no viabilidad como 1 y la viabilidad como 0:

Humedad: OR=0.78; IC95%: (0.56, 0.96): Se trata de un factor significativo y protector. Mayor humedad mayor viabilidad.

Concentración de Fósforo del suelo: OR=1.08; IC95%: (0.86, 1.39). No se trata de un factor significativo porque el 1 está dentro del intervalo.

Actividad de agua del suelo: OR=0.55; IC95%: (0.26, 0.77): Se trata de un factor significativo y protector. A mayor actividad de agua mayor viabilidad.

Distancia media a otro a los cinco arbustos más próximos: OR=1.76; IC95%: (1.28, 2.56): Se trata de un factor significativo y factor de riesgo. A mayor distancia menor viabilidad.

 

Situación 167: Examen (ANOVA, Regresión logística y Análisis de supervivencia)

1. Se quiere estudiar el grado de eficacia en la desinfección hospitalaria de dos mecanismos diferentes. Para ello se toma una sala de traumatología, una de ginecología y una con enfermos covid-19, puesto que se quiere ver la eficacia en estos tres tipos de salas bien diferenciadas en cuanto al nivel de contaminación ambiental. En dos viernes sucesivos se ensaya, en cada, sala los dos mecanismos de desinfección diferentes. Cada una de las muestras obtenidas es analizada por tres analistas diferentes puesto que se quiere también evaluar la variabilidad que pueda haber entre analistas, realizando cada uno de ellos dos réplicas de cada análisis.

a. Escribe el modelo.

b. Escribe los efectos y los cocientes de cuadrados medios que deberían realizarse para sus respectivos contrastes de hipótesis.

c. Construye una tabla de datos factibles simulados en la que sean significativos todos los factores implicados. Comenta brevemente la elección realizada.

2. Comprobar si hay diferencias estadísticamente significativas entre las dos siguientes curvas de supervivencia en las que se ha analizado los tiempos de muerte de dos especies de árboles reimplantados en zona previamente quemada, en un seguimiento hasta 24 meses. Los 24c indica que al final del estudio estaban en situación de viabilidad:

Especie A: (1, 2, 3, 3, 3, 5, 10, 19, 24c, 24c)

Especie B: (6, 7, 8, 9, 12, 15, 20, 24c, 24c, 24c)

3. Se ha analizado la relación con la viabilidad o no al año de una especie reimplantada en bosques de una serie de variables. Tenemos los siguientes resultados:

Humedad: OR=0.78; IC95%: (0.56, 0.96)

Concentración de Fósforo del suelo: OR=1.08; IC95%: (0.86, 1.39)

Actividad de agua del suelo: OR=0.55; IC95%: (0.26, 0.77)

Distancia media a otro a los cinco arbustos más próximos: OR=1.76; IC95%: (1.28, 2.56)

Comenta brevemente estos resultados (Supongamos que codificamos la no viabilidad como 1 y la viabilidad como 0).

Problemas de Sensibilidad, Especificidad, Valor predictivo positivo y Valor predictivo negativo

1. Supongamos que estamos estudiando una enfermedad en una población que sabemos que tiene una prevalencia de 0.3 (o, en porcentaje, del 30%). La población queda partida en dos grupos: Enfermos (E) y No enfermos (NE). La probabilidad de E es 0.3 y la de NE es 0.7. Supongamos también que podemos aplicar una técnica diagnóstica para ver si una persona tiene o no tiene esa enfermedad. Supongamos que sabemos la probabilidad de que la prueba dé positiva (+) si una persona tiene la enfermedad; o sea, la P(+/E) y que también sabemos la probabilidad de que la prueba dé positiva si una persona no tiene la enfermedad; o sea, la P(+/NE). Si quisiéramos sabe la probabilidad de que cogiendo una persona al azar en esa población la prueba diera positiva; o sea, la P(+) deberíamos aplicar el Teorema de las probabilidades totales. Si lo que nos planteáramos fuera saber que sabiendo que ha dado positiva la prueba en una persona calcular la probabilidad de que sea una persona con la enfermedad; o sea, P(E/+) deberíamos aplicar el Teorema de Bayes. Veámoslo:

IMG_5115

De hecho, aquí, en este ejemplo, aparecen conceptos de una importancia crucial en Medicina. En cualquier procedimiento diagnóstico a la probabilidad P(+/E) se la denomina Sensibilidad, al valor 1-P(+/NE); o sea, a la P(-/NE) se le denomina Especificidad. Y a la probabilidad P(E/+) se le denomina Valor predictivo positivo. Ver el artículo Sensibilidad, Especificidad, Valor predictivo positivo y Valor predictivo negativo.

2. Supongamos que un índice intenta predecir el síndrome de la muerte súbita con una sensibilidad del 68% y una especificidad del 82%. Calcular el Valor predictivo positivo y el Valor predictivo negativo de este índice si se aplica a una población donde se producen un 0.21% de muertes súbitas sobre el total de nacimientos.

Veamos cómo podemos, a partir de los datos que tenemos, plantear el problema planteado como un caso donde aplicar el Teorema de las probabilidades totales y el Teorema de Bayes:

IMG_5116

Una vez planteada esta información podemos aplicar ambos teoremas. Primero, mediante el Teorema de las probabilidades totales, calcularemos la P(+). Luego, mediante el Teorema de Bayes, calcularesmo el Valor predictivo positivo (VPP) y el Valor predictivo negativo (VPN).

Veamos cómo son estos cálculos:

IMG_5118

Es un ejemplo interesante para ver cómo la sensibilidad y la especificidad no son, muchas veces un criterio suficiente para evaluar el uso de un determinado mecanismo diagnóstico. Hemos visto en el artículo referenciado en el problema anterior que una baja prevalencia en una patología hace bajar mucho el Valor predictivo positivo. Y si este valor es bajo, por mucha sensibilidad y especificidad que tengamos, transforma el procedimiento diagnóstico es inoperante, porque difícilmente nos podremos fiar de un valor positivo.

Problemas de Teorema de las probabilidades totales y Teorema de Bayes

1. Supongamos que tenemos dos urnas (A y B). En la urna A tenemos 2 bolas blancas y 3 bolas negras. En la urna B tenemos 3 bolas blancas y 4 bolas negras. Se toma una de las dos urnas al azar y luego se toma una bola al azar de ella. Sabemos que ha salido una bola negra. Calcular la probabilidad de que sea una bola negra que proceda de la urna B.

Solución:

Vamos a dibujar el problema. Vamos a ver cómo se puede dibujar para que podamos aplicar el Teorema de las probabilidades totales y el Teorema de Bayes y aplicaremos ambos teoremas:

IMG_0722

2. En una urna A tenemos 2 bolas blancas y 3 bolas negras. En una urna B tenemos 3 bolas blancas y 4 negras. Pasamos una bola de A a B sin mirar de qué color es y, después, una de B a A también sin mirar. Posteriormente se extrae una bola de A. Calcular la probabilidad de que la bola que hemos pasado primero de A a B sea negra si sabemos que la bola que hemos extraído al final de A ha sido negra.

Solución:

Como siempre un problema de probabilidades es muy conveniente dibujarlo. Y ver cómo se adapta a un problema de aplicación del Teorema de las probabilidades totales y del Teorema de Bayes.

Veamos cómo se dibujaría este problema:

IMG_0693

Y si aplicamos los dos teoremas tenemos el siguiente resultado:

IMG_0694

 

3. Sabemos que entre las personas que sufren sordera congénita 1 de cada 50 son, además de sordos, también invidentes. Se estima, también, además, que la probabilidad de que un sordo no invidente adquiera el lenguaje oral es de 0.1, mientras que esta probabilidad baja a 0.01 en caso de sordos invidentes. Se pide:

a. Una estimación del porcentaje de sordos congénitos que adquieren el lenguaje oral.

b. Sabiendo que un sordo congénito que sabemos que ha adquirido el lenguaje oral calcular la probabilidad de que sea invidente.

Solución:

Utilizaremos la nomenclatura:

SNI=Sordo no invidente

SI=Sordo invidente

LO=Lenguaje oral

Como hemos visto la clave de este tipo de problemas es dibujarlo. El dibujo recogiendo los datos del problema es el siguiente:

IMG_0769

La primera pregunta pide P(LO) y hace falta aplicar el Teorema de las probabilidades totales.

La segunda pregunta pide P(SI/LO) y hace falta aplicar el Teorema de Bayes.

Las respuestas son las siguientes:

IMG_0770

 

4. Los ejemplares de la  especie bacteriana Escherichia coli pueden mutar y adquirir resistencia a los antibióticos. En un experimento consideramos 3 variedades (serotipos concretos) de E. coli, llamados, para abreviar, V1, V2 y V3, y, consideramos también, la resistencia a 2 antibióticos frecuentemente utilizados: A y B.

En presencia de un cierto compuesto mutagénico estas 3 variedades de E. coli tienen probabilidades diferentes a la hora de adquirir resistencia respecte a A y a B. A continuación se indica la probabilidad de que un individuo presente alguna de las diferentes combinaciones de resistencia en función de si pertenece a una u otra variedad de E.coli:

Si es V1:

p(“no resiste ni A ni B”)=0.94, p(“resiste sólo a A”)=0.02, p(“resiste a A y a B”)=0.01.

Si es V2:

p(“no resiste ni A ni B”)=0.97, p(“resiste sólo a A”)=0.02, p(“resiste a A y a B”)=0

Si es V3:

p(“no resiste ni A ni B”)=0.91, p(“resiste sólo a  A”)=0.05, p(“resiste a A y a B”)=0.03.

Se prepara una solución con el compuesto mutagénico y una mezcla de individuos no resistentes de los que un 40% de bacterias son V1, un 30% son V2 i un 30% son V3. Asumiendo que ha transcurrido el tiempo necesario para que aparezcan mutaciones y que la aparición de resistencias se ha producido de acuerdo a las probabilidades descritas anteriormente, calcular:

a.¿Cuál es la probabilidad de que una bacteria cualquiera de la solución no presente resistencia a ninguno de los dos antibióticos?

b. Si una bacteria presenta resistencia sólo al antibiótico A, ¿cuál es la probabilidad de que sea de la variedad 3?

Solución:

a. Es importante siempre en este tipo de problemas dibujarlo. Veamos en primer lugar las probabilidades de resistencias distintas en cada variedad de E. coli:

IMG_5238

Y ahora veamos cómo se dibujaría lo preguntado en la primera pregunta:

IMG_5239

La aplicación del Teorema de las probabilidades totales es clara en este caso, tenemos la información adecuada para ello. Tenemos una partición y un conjunto solapado con todos los elementos de la partición, tenemos también las probabilidades de cada elemento de la partición y las probabilidades condicionadas correspondientes. El conjunto solapado con la partición es, en este caso, el formado por los ejemplares que no han generado resistencia a ninguno de los dos antibióticos, que es el conjunto complementario al formado por la unión de A y B, como se expresa en el gráfico. Los cálculos necesarios, pues, para responder a la primera pregunta son:

IMG_5240

b. Para resolver este segundo apartado el dibujo que hay que hacer es otro, es el siguiente:

IMG_5241

Ahora el conjunto que está inmerso en la partición es el conjunto A-B, que representa lo que hay en A que no comparte con B; o sea, los ejemplares que presentan resistencia únicamente al antibiótico A, como nos plantea el problema. Lo he dibujado pequeño porque las probabilidades son pequeñas.

Ahora debemos aplicar el Teorema de Bayes, porque sabemos que se ha producido el suceso A-B y queremos calcular la probabilidad de que se trate de la variedad V3. Los cálculos son los siguientes:

IMG_5242

 

Solución Situación 166

1.

2. La curva de riesgo de la nueva especie va por debajo de la curva de riesgo de la especie anterior y, por lo tanto, la curva de supervivencia irá por encima, sobreviven más tiempo. Por lo tanto, si dibujáramos la curva de supervivencia de la nueva especie, respecto de la anterior, la deberíamos dibujar por encima de la que tenemos representada en el apartado anterior.

3. Si hemos catalogado como 1 la reproducción y como 0 la no reproducción, la especie A ejerce un efecto favorable a la mayor probabilidad de reproducción. La especie B ejerce un efecto inhibidor de la reproducción de nuestra especie de ave. La especie C no ejerce ninguna influencia puesto que se trata de una OR no estadísticamente significativa..

4. Se trata del individuo a. Es claro que el a y el b están más a la derecha por tratarse de individuos con valores altos de las variables con coeficiente positivo y bajo de la variable con coeficiente negativo, en la primera componente. La a carga más el valor en la variable con coeficiente negativo que en la variable con coeficiente positivo, en la segunta componente.

5. La tenencia de la tierra, la Marginación en el año 1995,  los Cambios de la marginación 1995-2010, la Aptitud agrológica del suelo y la Pendiente, como tienen coeficientes distintos de cero  tendrán Odds ratio distintas de 1. En concreto, al ser los coeficientes mayores que 0 la OR será, en todos los casos, mayor que 1. Pero hay un claro problema: no nos dan la significación estadística, ni en forma de un p-valor ni mediante un intervalo de confianza. Esto es un claro problema de este estudio. Además, es mucho más habitual expresar la relación medidante la OR y no mediante los coeficientes. Esto último es un problema menor, comparado con lo anterior, evidentemente.

 

Situación 166: Examen (Temas 11, 17, 21 y 22)

1. Construir el estimador Kaplan-Meier de la siguiente muestra de tiempos hasta la muerte de árboles reimplantados en una zona previamente quemada, en un seguimiento hasta 12 meses. El valor de 12c indica que al final del estudio estaban en situación de viabilidad:

(3, 3, 4, 4, 4, 4, 8, 10, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c, 12c)

2. En el problema anterior se establece una comparación entre dos especies de árboles distintas. Nos dicen que la Hazard ratio de la nueva especie respecto a la del problema anterior es HR=0.56; IC95% (0.23, 0.92). Explicar brevemente qué es lo que podemos afirmar con esta información que se nos proporciona. Dibuja cómo podría ser la nueva curva de supervivencia respecto a la dibujada en el problema anterior.

3. En un estudio para evaluar los factores que se asocian a la reproducción o no de una especie de ave en un ambiente determinado se ha aplicado una Regresión logística. Se afirma que el número de ejemplares de la especie A presente en la zona tiene una OR=1.78 IC95%: (1.45, 2.04) respecto a la reproducción de nuestra especie de ave. El número de ejemplares de la especie B presenta una OR=0.56 IC95%: (0.33, 0.84) respecto a la reproducción de nuestra especie de ave. Y la especie C presenta una OR=0.93 IC95%: (0.58, 1.44) también respecto a la reproducción de nuestra especie de ave. Explica brevemente qué conclusiones se pueden deducir de estos resultados.

4. Indica cuál es el punto marcado con el número 5 en un Análisis de Componentes Principales con las dos siguientes primeras componentes principales:

Y1=0.5X1+0.5X2-0.5X3+0.5X4 

Y2=0.01X1+0.5X2+0.01X3-0.5X4 

a.(5, 4, 2, 5)

b.(4, 5, 2, 4)

c.(2, 2, 6, 1)

d.(2, 1, 6, 2)

5.En una región de Méjico se realizó un estudio del riesgo de degradación-deforestación. Para ello se analizaron, en unas zonas puntuales de esa región, una serie de variables con potencialidad para estar en relación causal con esta consecuencia ambiental. En esa muestra había puntos ya degradados o deforestados y puntos que no. Se realizó una regresión logística y a partir de ese modelo se hizo una predicción de todo el territorio. El mapa que se realizó es el siguiente:

La tabla de las variables estudiadas que los investigadores aportan es la siguiente:

Comenta, brevemente estos resultados. Di que variables te parecen relevantes. Di, también, qué problemas ves en esta tabla de datos.

El artículo se puede consultar en https://www.researchgate.net/publication/322149238_AREAS_PROBABLES_DE_DEGRADACION-DEFORESTACION_DE_LA_CUBIERTA_VEGETAL_EN_CHIHUAHUA_MEXICO_UNA_EXPLORACION_MEDIANTE_REGRESION_LOGISTICA_PARA_EL_PERIODO_1985-2013.

Situación 164: Examen (Tema 19: Análisis clúster)

1.Tenemos en un estudio de Alzhéimer tenemos cinco pacientes: a, b, c, d, e, a los cuales medimos seis variables. Con los siguientes valores:

a:(10, 2, 25, 5, 15, 8)

b:(10, 3, 24, 6, 16, 7)

c:(9, 2, 23, 5, 15, 5)

d:(10, 1, 21, 18, 15, 1)

e:(9, 1, 23, 6, 16, 6)

¿Qué afirmación es cierta?

a.En un Análisis clúster el paciente que se agrupará en última posición respecto a los demás es el paciente a.

b.En un Análisis clúster el paciente que se agrupará en última posición respecto a los demás es el paciente b.

c.En un Análisis clúster el paciente que se agrupará en última posición respecto a los demás es el paciente c.

d.En un Análisis clúster el paciente que se agrupará en última posición respecto a los demás es el paciente d.

 

2.Hemos realizado un análisis clúster a una base de datos donde tenemos una única variable y el dendrograma obtenido es el siguiente:

¿Cuál es la base de datos que tenemos? Los individuos están por orden alfabético dentro del paréntesis.

a.(1, 2, 5, 15, 25)

b.(1, 2, 2, 7, 8)

c.(1, 2, 5, 18, 19)

d.(1, 5, 8, 9, 12)

 

3.Hemos realizado un análisis clúster a una base de datos donde tenemos dos variables y el dendrograma obtenido es el siguiente:

¿Cuál es la base de datos que tenemos? Los individuos están por orden alfabético y en cada paréntesis tenemos primero el valor de la variable X y segundo el valor de la variable Y.

a.(1,2), (2,1), (4,3), (12,13), (13,12)

b.(1,2), (1,2), (1,3), (12,13), (12,17)

c.(1,2), (2,1), (4,3), (12,13), (22,23)

c.(1,2), (1,2), (4,3), (12,13), (22,23)

4.Hemos realizado un análisis clúster a una base de datos donde tenemos dos variables y el dendrograma obtenido es el siguiente:

¿Cuál es la base de datos que tenemos? Los individuos están por orden alfabético y en cada paréntesis tenemos primero el valor de la variable X y segundo el valor de la variable Y.

a.(1,2), (2,1), (4,3), (12,13), (13,12)

b.(1,2), (1,2), (1,3), (12,13), (12,17)

c.(1,2), (2,1), (7,8), (8,7), (10,9)

d.(1,2), (2,1), (2,1), (19,20), (20,19)

 

5.¿Cuál de los siguientes repertorios de puntos, de un espacio de tres dimensiones, va asociado al siguiente dendograma?

a.(1, 2, 3), (1, 2, 4), (7, 8, 9), (6, 2, 8), (1, 1, 2)

b.(1, 1, 1), (1, 2, 2), (1, 2, 2), (5, 5, 5), (1, 1, 2)

c.(1, 2, 3), (1, 2, 4), (6, 2, 7), (6, 2, 8), (6, 1, 9)

d.(1, 2, 3), (1, 2, 4), (1, 3, 5), (1, 4, 7), (7, 7, 9)

 

6.¿Cuál de los siguientes repertorios de puntos, de un espacio de cinco dimensiones, va asociado al siguiente dendrograma?

a.(4, 4, 4, 4, 1), (4, 4, 7, 7, 3), (4, 4, 6, 6, 2), (1, 3, 5, 5, 6), (1, 3, 5, 6, 5)

b.(1, 3, 5, 6, 5), (4, 4, 4, 4, 1), (4, 4, 7, 7, 3), (4, 4, 6, 6, 2), (1, 3, 5, 5, 6)

c.(1, 3, 5, 5, 6), (1, 3, 5, 6, 5), (1, 3, 4, 4, 1),  (4, 4, 7, 7, 3), (4, 4, 6, 6, 2)

d.(1, 3, 5, 6, 5), (1, 3, 5, 5, 5), (4, 5, 7, 7, 6), (4, 4, 5, 5, 1), (4, 4, 6, 6, 2)