Archivos Mensuales: enero 2021

Solución Situación 165

1.

Peso en Ambiente 1:

Peso en Ambiente 2:

%Proteína en Ambiente 1:

%Proteína en Ambiente 2:

2.

Al trabajar la variable en la muestra global de los dos ambientes vemos con el Sesgo (Asimetría) y Curtosis estandarizadas (ambos valores están dentro del intervalo (-2, 2)) que la muestra se ajusta suficientemente a la distribución normal, por lo que se puede representar con la media más menos la desviación estándar:

21.44+-3.3464

3.

Existe una correlación estadísticamente significativa (p<0.001) y una R2 del 81.79%. Suficiente, pues, capacidad predictiva. Podemos construir un modelo de Regresión lineal simple:

4.

Al tratarse de dos variables dicotómica podemos aplicar una ji-cuadrado:

Como si lo enfocamos como una comparación de dos poblaciones con una variable dicotómica y muestras independientes, al ser un tamaño de muestra por grupo inferior a 30, deberíamos aplicar un test exacto de Fisher, podemos también, y tal vez sea más adecuado, aplicar este test:

 

5.

Como se trata de dos poblaciones, variables continuas y muestra independientes, lo primero será comprobar la normalidad:

Como podemos aceptar la normalidad de ambas muestra, aplicamos el test de igualdad de varianzas:

Al ser las varianzas iguales aplicamos un test de la t de Student de varianzas iguales:

6.

Como se trata de dos poblaciones, variables continuas y muestra independientes, lo primero será comprobar la normalidad:

Como se trata de dos muestras que no se ajustan a la normal aplicaremos un test de Mann-Whitney:

Solución Situación 169

1c. Todos los cambios implican bajada de la potencia.

2c. Porque el IC del 95% incluye al 0.

3b. Si aplicamos la fórmula del tema 3 para un IC del 95% de una proporción obtenemos estos valores.

4a. El error estándar es 1. Por lo tanto, la Desviación estándar de la muestra es 5, para que al dividirla por la raíz cuadrada de 25 nos dé el valor de error estándar.

5d. En esta muestra el primer cuartil es 1 y el tercero es 3. Luego, el rango intercuartílico es 2.

6b. Tenemos un p-valor de no significación y un IC del 95% que incluye al cero.

7d. Ambos cambios propuestos van en la dirección de bajar el p-valor.

8b. Si se aplica la fórmula de la determinación del tamaño de muestra del tema 16 se obtiene este valor.

9d. Si en la tabla de la ji-cuadrado se busca el valor de 14.86 en la fila de los cuatro grados de libertad ((3-1)x(3-1)), se observa que a su derecha tenemos un área de 0.005. Este área es el p-valor.

10d. La variable estudiada es dicotómica y la muestra es relacionada puesto que se aplica a cada una de las 50 observaciones los dos tratamientos. El test de McNemar es el apropiado.

11a. Si se observa la tabla de la ji-cuadrado es el único caso que concuerda el valor de la ji-cuadrado y el p-valor correspondiente (área a la derecha de la curva de la distribución ji-cuadrado)

12d. Como 17.8 es el tercer cuartil, podemos hacer esta afirmación coherentemente.

13b. Los dos intervalos de confianza de la media claramente no se solapan. Esto lleva a la conclusión de que se trata de diferencias estadísticamente significativas.

14c. La ji-cuadrado es un test que permite valorar la significación de la V de Crámer.

15a. Claramente hay diferencias y las comparaciones múltiples nos dará que hay tres grupos y no cuatro en este estudio.

16a. Zona es significativo. Posición respecto a la termoclina no. Hay interacción porque la zona 1 y 2 están cruzadas.

17b. No hay normalidad en una de las dos muestras. Luego, debemos aplicar el test de Mann-Whitney.

18c. El 25 está dentro del IC del 95 por lo que la hipótesis nula no la rechazaremos. Hay dos p-valores que marcan que no hay significación. Pero el p-valor 1 solo saldría si coincidieran la media de la hipótesis y la media muestral, cosa que no sucede. Cosa que pasaría si la hipótesis fuera que la media poblacional es 26.

19c. Porque el intervalo no contiene al 0.

20d. Concordancia entre dos operadores o de un operador consigo mismo tiene una matriz en la que la mayor parte de valores se sitúan en la diagonal principal.

 

 

Situación 169: Examen (Temas 1-16)

1)Tenemos dos muestras de tamaño 20 obtenidas de dos poblaciones en las que queremos comparar sus medias poblacionales. Las dos medias muestrales son 100 y 106 y la desviación estándar muestral en ambas muestras es de 5. Evaluamos con el GRANMO la potencia del estudio realizado obteniendo la siguiente tabla:

¿qué respuesta es correcta?

a.Con estos datos no encontraremos diferencias estadísticamente significativas porque la potencia es menor al 95%.

b.Si aumentáramos el tamaño de muestra, la diferencia de medias se mantuviera y la desviación estándar subiera, entonces la potencia bajaría.

c.Si disminuyéramos el tamaño de muestra, la diferencia de medias bajara y la desviación estándar aumentara, entonces la potencia bajaría.

d.Si aumentáramos el tamaño de muestra, la diferencia de medias subiera y la desviación estándar se mantuviera igual, entonces la potencia bajaría.

 

2)En un artículo donde se compara la temperatura media del agua entre dos zonas marítimas distintas se nos da la siguiente información: La diferencia de medias poblacionales tiene un intervalo de confianza del 95% de (-0.8, 1.05). ¿Cuál de las siguientes afirmaciones es cierta?

a.Como no tenemos un p-valor no podemos decir nada sobre esa comparación de temperaturas.

b.Necesitaríamos saber qué técnica de comparación se ha aplicado.

c.Podemos decir que no hay diferencias de temperatura estadísticamente significativas.

d.Necesitamos conocer cómo es la descriptiva de cada una de las dos muestras para tomar una decisión.

 

3)En un estudio donde hemos analizado 100 muestras recogidas en el mar mediterráneo en 23 se ha superado un umbral de un contaminante. Calcular un intervalo de confianza del 95%:

a.(10.38, 35.62)

b.(14.58, 31.42)

c.(18.79, 27.21)

d.(20.90, 25.10)

 

4)En un estudio vemos que nos dan el siguiente intervalo de confianza del 95% de la media: (48.0, 52.0). Leemos que el tamaño de muestra ha sido 25. ¿Cuál es el intervalo de confianza del 95% descriptivo de la variable o, también denominado, intervalo de valores individuales de esa variable?

a.(40, 60)

b.(35, 65)

c.(30, 70)

d.(45, 55)

 

5)¿En cuál de las siguientes muestras el rango intercuartílico es 2?

a.(1, 1, 2, 4, 6, 8, 10, 11)

b.(1, 4, 5, 12)

c.(1, 2, 4, 8)

d.(1, 1, 3, 3, 5)

 

6)De las siguientes afirmaciones cuál es cierta:

a.En una Regresión es compatible una pendiente con p=0.33 con un IC de confianza del 95% de la correlación de (0.5, 0.9)

b.En una comparación de proporciones es compatible un p-valor de 0.24 con un intervalo de confianza del 95% de la diferencia de proporciones de (-0.13, 0.22).

c.En una V de Crámer si el valor es superior a 0.5 se trata de una relación estadísticamente significativa.

d.En una técnica de comparación de medias es compatible un p-valor de 0.004 con un intervalo de confianza del 95% de la diferencia de medias de (-1, 5)

 

7)Si en una comparación de dos poblaciones al aplicar el test adecuado al caso el p-valor final es 0.22 es cierto lo siguiente:

a.Si aumentamos el tamaño de muestra y disminuimos la desviación estándar el p-valor pasará a ser significativo.

b.Si aumentamos la desviación estándar y disminuimos la diferencia de medias el p-valor bajará.

c.Si disminuimos la diferencia de medias y disminuimos la desviación estándar el p-valor subirá.

d.Si aumentamos el tamaño de muestra y aumentamos la diferencia de medias el p-valor bajará.

 

8)Se quiere hacer un pronóstico del porcentaje de playas ante población de más de 10.000 habitantes en las que tenemos la presencia de una determinada especie de zooplancton. Se pretende tener un radio del intervalo del 1%, en un intervalo del 95%. Por la información previa que manejamos se piensa que el valor debe estar en torno al 10%. ¿Cuál es el tamaño de muestra recomendable en base a esta información:

a.6400.

b.3600.

c.1000.

d.8800.

 

9)Se estudia la sangre de 1000 ejemplares de una especie de pez tomados en una expedición y se compara la frecuencia en cuanto a tres variedades (A, B, C) y respecto a tres niveles cualitativos de peso (1, 2, 3). Realizamos un test de la ji-cuadrado obteniendo un valor de ji-cuadrado de 14.86.

a.El p-valor será 0.05.

b.El p-valor será 0.001.

c.El p-valor será 0.1.

d.El p-valor será 0.005.

 

10)Se ensayan dos tratamientos (A y B) a aguas residuales procedentes de una muestra de 50 depuradoras, con la finalidad de eliminar gran parte de un contaminante concreto. Cada muestra se homogeniza y se divide en dos y se aplica a cada una de ellas uno de los dos tratamientos. Se estudia la variable siguiente: Se ha superado o no el umbral de un contaminante tras el tratamiento. Para comparar si esta diferencia es estadísticamente significativa el test adecuado es:

a.El Test de proporciones.

b.El Test exacto de Fisher.

c.El Test de Mann-Whitney.

d.El Test de McNemar.

 

11).¿Cuál de estas cuatro informaciones es coherente?

a.Ji-cuadrado=12.01 de una tabla 8X2 y p-valor de 0.10

b.Ji-cuadrado=7.37 de una tabla 3X2 y p-valor de 0.005

c.Ji-cuadrado=20.51 de una tabla 6×2 y p-valor de 0.01

d.Ji-cuadrado=24.10 de una tabla 4X3 y p-valor de 0.005

 

12)En un estudio de distribución de la temperatura marina nos dan la siguiente información sobre la temperatura de una muestra de tamaño 100: 17.3 (13.5-17.8). ¿Cuál de las siguientes informaciones es coherente?

a.La media muestral es 17.3.

b.La desviación estándar es 4.5.

c.Si hiciéramos, en lugar de 100 medidas, 1000, unas 250 aproximadamente serían temperaturas por debajo de 17.3.

d.El 75% de las temperaturas en esta zona están por debajo de 17.8.

 

13)En un estudio de comparación de la salinidad marina de dos zonas tenemos la siguiente información:

Zona 1: Media muestral= 35.1; Desviación estándar=1;n=100

Zona 2: Media muestral= 35.6; Desviación estándar=1;n=100

Si queremos hacer una comparación de medias de ambos grupos, ¿cuál de las siguientes afirmaciones es cierta?

a.Habrá diferencias significativas porque las dos medias son distintas.

b.Habrá diferencias significativas porque los dos intervalos de confianza de la media no se solapan.

c.No habrá diferencias significativas porque los intervalos de confianza descriptivos de ambas muestras se solapan.

d.No habrá diferencias porque no tenemos información sobre la aplicación del test de la t de Student de varianzas iguales.

 

14)¿Cuál de las siguientes afirmaciones es cierta?

a.Un intervalo de confianza del 95% de la diferencia de proporciones de dos muestras de (0.12, 0.23) indica que no hay diferencia estadísticamente significativa entre las proporciones de ambas poblaciones.

b.Una correlación de Pearson de 0.9 con un intervalo de confianza del 95% que no contenga al uno es estadísticamente significativa.

c.Una V de Crámer de 0.9 con una ji-cuadrado con un p-valor de 0.15 implica que no hay relación significativa entre las variables cualitativas relacionadas.

d.Una R2 superior al 50% implica que la regresión lineal simple es estadísticamente significativa.

 

15)Tenemos la siguiente tabla de resultados en un estudio donde comparamos la cantidad de ejemplares de una especie de pez en cuatro zonas concretas del mediterráneo. En cada zona se toma una muestra de tamaño 5. Los resultados, en cuanto al número de ejemplares de esa especie de pez contadas en cada muestra y zona, son los siguientes:

Elige la respuesta correcta del resultado que obtendríamos con un ANOVA de un factor:

a.Factor Zona: p<0.05. Tres grupos homogéneos

b.Factor Zona: p<0.05. Cuatro grupos homogéneos

c.Factor Zona: p<0.05. Dos grupos homogéneos

d.Factor Zona: p>0.05. Una zona homogénea.

 

16)Tenemos la siguiente tabla de resultados en un estudio donde comparamos el porcentaje de una especie de zooplancton en tres zonas concretas del mediterráneo. También, en cada zona, se ha diferenciado entre muestras tomadas sobre la termoclina o por debajo de ella. Los resultados de porcentaje obtenidos son los siguientes:

En un ANOVA de dos factores, ¿cuáles son los resultados que obtendríamos?

a.Factor Zona: p<0.05. Factor Situación respecto a la termoclina: p>0.05. Interacción: p<0.05.

b.Factor Zona: p<0.05. Factor Situación respecto a la termoclina: p>0.05. Interacción: p>0.05.

c.Factor Zona: p<0.05. Factor Situación respecto a la termoclina: p<0.05. Interacción: p<0.05.

d.Factor Zona: p>0.05. Factor Situación respecto a la termoclina: p<0.05. Interacción: p>0.05.

 

17)Hemos recogido 50 muestras de un litro de agua en dos playas en las que queremos comparar la cantidad de un determinado contaminante. Después de obtener los resultados analíticos hemos aplicado primero el test de Fisher-Snedecor y proporciona un p-valor de 0.001. Luego hemos aplicado el test de Shapiro-Wilk aplicado y la primera muestra nos da un p-valor de 0.33 y la segunda un p-valor de 0.01. ¿Qué test de comparación hemos de utilizar?

a.El test de la t de Student de varianzas iguales

b.El test de Mann-Whitney

c.El test de la t de Student de varianzas diferentes

d.El test de la t de Student de datos apareados

 

18)Tenemos una muestra en la que medimos el porcentaje de la abundancia de una especie de fitoplancton en el conjunto de la biomasa. A partir de esa muestra obtenemos el intervalo de confianza del 95% de la media siguiente: (23.5, 28.5). Queremos realizar el contraste de hipótesis sobre la media de una población. Nuestra hipótesis nula es que la media poblacional el 25 y la hipótesis alternativa que la media poblacional es distinta de 25. ¿Cuál de los siguientes p-valores te parece podríamos haber obtenido?

a.0.001

b.0

c.0.43

d.1

 

19)En una Regresión lineal simple es cierto:

a.Si la pendiente tiene un intervalo de confianza del 95% de (0.23, 1.12) no es estadísticamente significativa por contener al 1.

b.Si la R2 es inferior al 5% tenemos una relación que no es estadísticamente significativa entre las variables de la regresión.

c.Si el intervalo de confianza del 95% de la diferencia de medias de dos poblaciones es (0.125, 0.199) podemos decir que hay una diferencia de medias estadísticamente significativa.

d.Una pendiente estadísticamente significativa no puede tener una R2 menor del 50%.

 

20)¿Qué afirmación entre las siguientes es cierta?

a.En una concordancia entre dos operadores si un operador tiene una kappa de 0.2 y el otro tiene una kappa de 0.8 es que concuerdan muy poco.

b.En una concordancia entre dos operadores si un operador tiene una kappa de 0.8 y el otro tiene una kappa de 0.8 es que concuerdan mucho.

c.En una concordancia de un operador consigo mismo si un operador tiene una kappa de 0.1 indica que este operador es muy coherente en sus respuestas.

d.En una concordancia de un operador consigo mismo si un operador tiene una kappa de 0.9 es que en la diagonal principal de la tabla de contingencias están la mayor parte de valores.

Solución Situación 168

1.

a.Se trata de tres factores cruzados. Uno fijo y dos aleatorios. Sistema de desinfección es un factor fijo a dos niveles. Sala hospitalaria es un factor aleatorio a tres niveles. Analista es un factor aleatorio a tres niveles.

b.Habra 7 efectos. Para ver los cocientes que habrá que realizar para efectuar los contrastes de hipótesis ver el modelo en ANOVA de tres factores.

c.

2.

3.

a. Una regresión logística puesto que estamos evaluando la viabilidad o no a cinco años.

b. Una regresión de Cox puesto que estamos relacionando las diferentes curvas de supervivencia que podemos tener al ir cambiando los valores de la variable pendiente del terreno.

Situación 168: Examen (ANOVA, Regresión logística, Análisis de superviviencia y Regresión de Cox)

1. Se quiere estudiar el grado de eficacia en la desinfección hospitalaria de dos mecanismos diferentes. Para ello se toma al azar tres salas de un hospital de tercer nivel. Se quiere evaluar la variabilidad en la respuesta de estos mecanismos de desinfección en las diferentes salas de un hospital. En dos viernes sucesivos se ensaya, en cada de las salas elegidas los dos mecanismos de desinfección diferentes. Cada una de las muestras obtenidas es analizada por tres analistas diferentes puesto que se quiere también evaluar la variabilidad que pueda haber entre analistas, realizando cada uno de ellos dos réplicas de cada análisis.

a. Escribe el modelo.

b. Escribe los efectos y los cocientes de cuadrados medios que deberían realizarse para sus respectivos contrastes de hipótesis.

c. Construye una tabla de datos factibles simulados en la que sean significativos todos los factores implicados. Comenta brevemente la elección realizada.

2. Comprobar si hay diferencias estadísticamente significativas entre las dos siguientes curvas de supervivencia en las que se ha analizado los tiempos de muerte de dos especies de árboles reimplantados en zona previamente quemada, en un seguimiento hasta 24 meses. Los 24c indica que al final del estudio estaban en situación de viabilidad:

Especie A: (1, 2, 3, 3, 3, 5, 10, 19, 24c, 24c)

Especie B: (12, 15, 16, 17, 22, 24c, 24c, 24c)

3. En un estudio de reforestación se pretende realizar dos subestudios concretos:

a. Analizar la viabilidad o no a los cinco años de una especie reimplantada en función de la variable horas de insolación anual.

b. Evaluar la relación de la curva de supervivencia hasta los dos años de esa especie implantada en función de la pendiente del terreno en el lugar de implante.

Indicar brevemente cuál sería la técnica estadística adecuada para cada uno de los dos objetivos del estudio. 

Solución Situación 167

1.

a.Se trata de tres factores cruzados, dos fijos y uno aleatorio. Sistema de desinfección es un factor fijo a dos niveles. Sala hospitalaria es un factor fijo a tres niveles. Analista es un factor aleatorio a tres niveles.

b.Habra 7 efectos. Para ver los cocientes que habrá que realizar para efectuar los contrastes de hipótesis ver el modelo en ANOVA de tres factores.

c.

2.

3.Supongamos que codificamos la no viabilidad como 1 y la viabilidad como 0:

Humedad: OR=0.78; IC95%: (0.56, 0.96): Se trata de un factor significativo y protector. Mayor humedad mayor viabilidad.

Concentración de Fósforo del suelo: OR=1.08; IC95%: (0.86, 1.39). No se trata de un factor significativo porque el 1 está dentro del intervalo.

Actividad de agua del suelo: OR=0.55; IC95%: (0.26, 0.77): Se trata de un factor significativo y protector. A mayor actividad de agua mayor viabilidad.

Distancia media a otro a los cinco arbustos más próximos: OR=1.76; IC95%: (1.28, 2.56): Se trata de un factor significativo y factor de riesgo. A mayor distancia menor viabilidad.

 

Situación 167: Examen (ANOVA, Regresión logística y Análisis de supervivencia)

1. Se quiere estudiar el grado de eficacia en la desinfección hospitalaria de dos mecanismos diferentes. Para ello se toma una sala de traumatología, una de ginecología y una con enfermos covid-19, puesto que se quiere ver la eficacia en estos tres tipos de salas bien diferenciadas en cuanto al nivel de contaminación ambiental. En dos viernes sucesivos se ensaya, en cada, sala los dos mecanismos de desinfección diferentes. Cada una de las muestras obtenidas es analizada por tres analistas diferentes puesto que se quiere también evaluar la variabilidad que pueda haber entre analistas, realizando cada uno de ellos dos réplicas de cada análisis.

a. Escribe el modelo.

b. Escribe los efectos y los cocientes de cuadrados medios que deberían realizarse para sus respectivos contrastes de hipótesis.

c. Construye una tabla de datos factibles simulados en la que sean significativos todos los factores implicados. Comenta brevemente la elección realizada.

2. Comprobar si hay diferencias estadísticamente significativas entre las dos siguientes curvas de supervivencia en las que se ha analizado los tiempos de muerte de dos especies de árboles reimplantados en zona previamente quemada, en un seguimiento hasta 24 meses. Los 24c indica que al final del estudio estaban en situación de viabilidad:

Especie A: (1, 2, 3, 3, 3, 5, 10, 19, 24c, 24c)

Especie B: (6, 7, 8, 9, 12, 15, 20, 24c, 24c, 24c)

3. Se ha analizado la relación con la viabilidad o no al año de una especie reimplantada en bosques de una serie de variables. Tenemos los siguientes resultados:

Humedad: OR=0.78; IC95%: (0.56, 0.96)

Concentración de Fósforo del suelo: OR=1.08; IC95%: (0.86, 1.39)

Actividad de agua del suelo: OR=0.55; IC95%: (0.26, 0.77)

Distancia media a otro a los cinco arbustos más próximos: OR=1.76; IC95%: (1.28, 2.56)

Comenta brevemente estos resultados (Supongamos que codificamos la no viabilidad como 1 y la viabilidad como 0).

Problemas de Sensibilidad, Especificidad, Valor predictivo positivo y Valor predictivo negativo

1. Supongamos que estamos estudiando una enfermedad en una población que sabemos que tiene una prevalencia de 0.3 (o, en porcentaje, del 30%). La población queda partida en dos grupos: Enfermos (E) y No enfermos (NE). La probabilidad de E es 0.3 y la de NE es 0.7. Supongamos también que podemos aplicar una técnica diagnóstica para ver si una persona tiene o no tiene esa enfermedad. Supongamos que sabemos la probabilidad de que la prueba dé positiva (+) si una persona tiene la enfermedad; o sea, la P(+/E) y que también sabemos la probabilidad de que la prueba dé positiva si una persona no tiene la enfermedad; o sea, la P(+/NE). Si quisiéramos sabe la probabilidad de que cogiendo una persona al azar en esa población la prueba diera positiva; o sea, la P(+) deberíamos aplicar el Teorema de las probabilidades totales. Si lo que nos planteáramos fuera saber que sabiendo que ha dado positiva la prueba en una persona calcular la probabilidad de que sea una persona con la enfermedad; o sea, P(E/+) deberíamos aplicar el Teorema de Bayes. Veámoslo:

IMG_5115

De hecho, aquí, en este ejemplo, aparecen conceptos de una importancia crucial en Medicina. En cualquier procedimiento diagnóstico a la probabilidad P(+/E) se la denomina Sensibilidad, al valor 1-P(+/NE); o sea, a la P(-/NE) se le denomina Especificidad. Y a la probabilidad P(E/+) se le denomina Valor predictivo positivo. Ver el artículo Sensibilidad, Especificidad, Valor predictivo positivo y Valor predictivo negativo.

2. Supongamos que un índice intenta predecir el síndrome de la muerte súbita con una sensibilidad del 68% y una especificidad del 82%. Calcular el Valor predictivo positivo y el Valor predictivo negativo de este índice si se aplica a una población donde se producen un 0.21% de muertes súbitas sobre el total de nacimientos.

Veamos cómo podemos, a partir de los datos que tenemos, plantear el problema planteado como un caso donde aplicar el Teorema de las probabilidades totales y el Teorema de Bayes:

IMG_5116

Una vez planteada esta información podemos aplicar ambos teoremas. Primero, mediante el Teorema de las probabilidades totales, calcularemos la P(+). Luego, mediante el Teorema de Bayes, calcularesmo el Valor predictivo positivo (VPP) y el Valor predictivo negativo (VPN).

Veamos cómo son estos cálculos:

IMG_5118

Es un ejemplo interesante para ver cómo la sensibilidad y la especificidad no son, muchas veces un criterio suficiente para evaluar el uso de un determinado mecanismo diagnóstico. Hemos visto en el artículo referenciado en el problema anterior que una baja prevalencia en una patología hace bajar mucho el Valor predictivo positivo. Y si este valor es bajo, por mucha sensibilidad y especificidad que tengamos, transforma el procedimiento diagnóstico es inoperante, porque difícilmente nos podremos fiar de un valor positivo.

Problemas de Teorema de las probabilidades totales y Teorema de Bayes

1. Supongamos que tenemos dos urnas (A y B). En la urna A tenemos 2 bolas blancas y 3 bolas negras. En la urna B tenemos 3 bolas blancas y 4 bolas negras. Se toma una de las dos urnas al azar y luego se toma una bola al azar de ella. Sabemos que ha salido una bola negra. Calcular la probabilidad de que sea una bola negra que proceda de la urna B.

Solución:

Vamos a dibujar el problema. Vamos a ver cómo se puede dibujar para que podamos aplicar el Teorema de las probabilidades totales y el Teorema de Bayes y aplicaremos ambos teoremas:

IMG_0722

2. En una urna A tenemos 2 bolas blancas y 3 bolas negras. En una urna B tenemos 3 bolas blancas y 4 negras. Pasamos una bola de A a B sin mirar de qué color es y, después, una de B a A también sin mirar. Posteriormente se extrae una bola de A. Calcular la probabilidad de que la bola que hemos pasado primero de A a B sea negra si sabemos que la bola que hemos extraído al final de A ha sido negra.

Solución:

Como siempre un problema de probabilidades es muy conveniente dibujarlo. Y ver cómo se adapta a un problema de aplicación del Teorema de las probabilidades totales y del Teorema de Bayes.

Veamos cómo se dibujaría este problema:

IMG_0693

Y si aplicamos los dos teoremas tenemos el siguiente resultado:

IMG_0694

 

3. Sabemos que entre las personas que sufren sordera congénita 1 de cada 50 son, además de sordos, también invidentes. Se estima, también, además, que la probabilidad de que un sordo no invidente adquiera el lenguaje oral es de 0.1, mientras que esta probabilidad baja a 0.01 en caso de sordos invidentes. Se pide:

a. Una estimación del porcentaje de sordos congénitos que adquieren el lenguaje oral.

b. Sabiendo que un sordo congénito que sabemos que ha adquirido el lenguaje oral calcular la probabilidad de que sea invidente.

Solución:

Utilizaremos la nomenclatura:

SNI=Sordo no invidente

SI=Sordo invidente

LO=Lenguaje oral

Como hemos visto la clave de este tipo de problemas es dibujarlo. El dibujo recogiendo los datos del problema es el siguiente:

IMG_0769

La primera pregunta pide P(LO) y hace falta aplicar el Teorema de las probabilidades totales.

La segunda pregunta pide P(SI/LO) y hace falta aplicar el Teorema de Bayes.

Las respuestas son las siguientes:

IMG_0770

 

4. Los ejemplares de la  especie bacteriana Escherichia coli pueden mutar y adquirir resistencia a los antibióticos. En un experimento consideramos 3 variedades (serotipos concretos) de E. coli, llamados, para abreviar, V1, V2 y V3, y, consideramos también, la resistencia a 2 antibióticos frecuentemente utilizados: A y B.

En presencia de un cierto compuesto mutagénico estas 3 variedades de E. coli tienen probabilidades diferentes a la hora de adquirir resistencia respecte a A y a B. A continuación se indica la probabilidad de que un individuo presente alguna de las diferentes combinaciones de resistencia en función de si pertenece a una u otra variedad de E.coli:

Si es V1:

p(“no resiste ni A ni B”)=0.94, p(“resiste sólo a A”)=0.02, p(“resiste a A y a B”)=0.01.

Si es V2:

p(“no resiste ni A ni B”)=0.97, p(“resiste sólo a A”)=0.02, p(“resiste a A y a B”)=0

Si es V3:

p(“no resiste ni A ni B”)=0.91, p(“resiste sólo a  A”)=0.05, p(“resiste a A y a B”)=0.03.

Se prepara una solución con el compuesto mutagénico y una mezcla de individuos no resistentes de los que un 40% de bacterias son V1, un 30% son V2 i un 30% son V3. Asumiendo que ha transcurrido el tiempo necesario para que aparezcan mutaciones y que la aparición de resistencias se ha producido de acuerdo a las probabilidades descritas anteriormente, calcular:

a.¿Cuál es la probabilidad de que una bacteria cualquiera de la solución no presente resistencia a ninguno de los dos antibióticos?

b. Si una bacteria presenta resistencia sólo al antibiótico A, ¿cuál es la probabilidad de que sea de la variedad 3?

Solución:

a. Es importante siempre en este tipo de problemas dibujarlo. Veamos en primer lugar las probabilidades de resistencias distintas en cada variedad de E. coli:

IMG_5238

Y ahora veamos cómo se dibujaría lo preguntado en la primera pregunta:

IMG_5239

La aplicación del Teorema de las probabilidades totales es clara en este caso, tenemos la información adecuada para ello. Tenemos una partición y un conjunto solapado con todos los elementos de la partición, tenemos también las probabilidades de cada elemento de la partición y las probabilidades condicionadas correspondientes. El conjunto solapado con la partición es, en este caso, el formado por los ejemplares que no han generado resistencia a ninguno de los dos antibióticos, que es el conjunto complementario al formado por la unión de A y B, como se expresa en el gráfico. Los cálculos necesarios, pues, para responder a la primera pregunta son:

IMG_5240

b. Para resolver este segundo apartado el dibujo que hay que hacer es otro, es el siguiente:

IMG_5241

Ahora el conjunto que está inmerso en la partición es el conjunto A-B, que representa lo que hay en A que no comparte con B; o sea, los ejemplares que presentan resistencia únicamente al antibiótico A, como nos plantea el problema. Lo he dibujado pequeño porque las probabilidades son pequeñas.

Ahora debemos aplicar el Teorema de Bayes, porque sabemos que se ha producido el suceso A-B y queremos calcular la probabilidad de que se trate de la variedad V3. Los cálculos son los siguientes:

IMG_5242