Archivo de la categoría: PROBLEMAS

Situación 20: Teorema de las probabilidades totales y Teorema de Bayes

Por los síntomas observados en un enfermo, y según la experiencia acumulada en un gran número de situaciones similares, se deduce que ha podido coger la enfermedad A con probabilidad 1/3 o la enfermedad B con probabilidad 2/3. Para precisar el diagnóstico se hace un análisis clínico al enfermo con dos resultados posibles: positivo o negativo. Se sabe, también por la experiencia, que en los pacientes que tienen la enfermedad A el análisis es positivo con 0.99 y en los que padecen la enfermedad B lo es con probabilidad 0.06.

a) ¿Cuál es la probabilidad que el análisis dé un resultado negativo?

b) Si el resultado ha sido positivo, ¿cuál es la probabilidad que el paciente padezca la enfermedad A? ¿Y la probabilidad que padezca la enfermedad B?

Solución

Situación 19: Teorema de las probabilidades totales y Teorema de Bayes

Un laboratorio produce un determinado kit que puede tener defectos con probabilidad 0.1. Cada kit fabricado pasa por un verificador de calidad que detecta defectos de fabricación con probabilidad 0.95. Si el verificador ve un defecto, el kit se declara defectuoso. Además, el verificador puede declarar defectuoso, per error, un kit apto, lo cual sucede con probabilidad 0.07.

Calcular:


(a) La probabilidad que un kit defectuoso sea declarado apto.

(b) La probabilidad que un kit sea declarado defectuoso.

(c) Si un kit ha sido declarado apto por el verificador, ¿cuál es la probabilidad que realmente sea apto?

Solución

Situación 18: Determinación del tamaño de muestra

Queremos comparar la resistencia de dos materiales en una prueba de laboratorio. El estudio consiste en someter al material a un proceso y después de un tiempo ver si se rompe o no. Queremos ver si el porcentaje de roturas es el mismo o es distinto entre ambos materiales.

Sabemos, por la literatura, que normalmente la rotura de estos tipos de materiales, al someterlos a las condiciones que los vamos a someter, suele ser aproximadamente del 25%.

Determinar el tamaño de muestra necesario si queremos ver una diferencia mínima de un 10% para considerar una diferencia relevante; o sea, que si un material tiene un 25% de roturas el otro tenga un 35% o más de roturas o un 15% o menos. La forma de plantear estas afirmaciones es importante precisarla bien siempre porque suele llevar a confusión. Observemos que hemos hablado del 10% en términos absolutos, pero hubiéramos podido decirlo en términos relativos y entonces hubiéramos tenido que decir, para que fuera equivalente a lo anterior, que la diferencia mínima a detectar debería ser del 40% porque 10 es un 40% de 25.

Con una potencia del 80% tenemos suficiente para esta determinación del tamaño de muestra necesario. Respecto del error de tipo 1 como, casi siempre, podemos considerar el valor de 0.05.

Solución

Situación 17: Determinación de la potencia estadística

Hemos hecho un estudio comparando dos tratamientos para ver si hay diferencia entre ellos. La media de la muestra de un grupo ha sido 150 y la del otro ha sido 160. Realmente desde el punto de vista de diferencia nos parece una diferencia relevante, pero nuestro test de hipótesis nos dice que las diferencias no son significativas.

Los tamaños muestrales de cada una de las dos muestras es 5. La desviación estándar de las dos muestras es 8.

Queremos saber la potencia del estudio.

Solución

Situación 16: Determinación del tamaño de muestra

Queremos ensayar un nuevo fármaco respecto a un placebo con la finalidad de conseguir elevar la concentración, a nivel sanguíneo, de una determinada molécula. En los pacientes de una determinada patología esa molécula tiene una concentración media de 35 con una desviación estándar de 3.

Queremos decidir el tamaño de muestra del estudio teniendo en cuenta que el uso de este fármaco únicamente se justificaría si pudiéramos elevar la concentración de esa molécula, como mínimo, a una media de 40.

Queremos trabajar con un error pequeño, por lo que queremos que el error de tipo 1 sea del 5% y el error de tipo 2 también sea muy bajo, el 5%: o sea, que queremos tener una potencia del 95%.

Sabemos que en este tipo de estudio, además, como es de larga duración, acostumbran a abandonar por iniciativa propia un 10% de los que comienzan.

¿Qué tamaño mínimo es necesario para si se da tal diferencia mínima en el estudio encontremos que la Estadística nos dice que se trata de una diferencia significativa?

Solución

Solución Situación 15

IMG_4919IMG_4905

Explicaciones:

1. Una correlación incluso tan grande como 0.9 podría no ser significativa si el tamaño de muestra fuera muy pequeño. El Error estándar es una desviación estándar. Es la desviación estándar de una predicción. Y la Odds ratio es una medida de la relación entre dos variables cualitativas o entre una cualitativa y una cuantitativa.

2. Una Odds ratio nunca es menor que cero. La pendiente de una recta de regresión puede ser, evidentemente, positiva o negativa. Si el intervalo de confianza del 95% de una Odds ratio contiene al 1 se trata, entonces de una Odds ratio no significativa. Y una Odds ratio de 1 indica una no relación entre la variables que estemos relacionando.

3.El Kappa es un índice para evaluar el grado de concordancia entre dos observadores, no es una media del grado de relación entre variables cuantitativas. Si la r es significativa y positiva va asociada a una pendiente positiva, nunca a una pendiente negativa.Una r singnificativa puede ir asociada tanto a una pendiente positiva como negativa. Si un intervalo de confianza del 95% de la pendiente de una Regresión lineal simple no contiene al 0, como ocurre en el intervalo (0.5, 1.9) indica que la pendiente es significativa y si tenemos una pendiente significativa es porque tenemos una correlación r significativa.

4. El área desde -7 a -1 la podemos desglosar en dos zonas: Desde -7 hasta -3 se trata de la Media más menos 2 DE, que es 68.5. A esto hay que sumar el área que hay desde -3 hasta -1 que es 0.1575-0.025=0.1325, porque a la derecha de -3 el área es 0.1575 pero hay que restarle el área que hay a la derecha de -1, que es 0.025. Al final si sumamos 0.685 y 0.1325 tenemos un área de 0.8175, que con tres decimales es 0.817.

5.El Error estándar es 5/raiz(25) que es 1. Entonces la media más menos dos Errores estándar da el intervalo (48, 52).

6. Si se revisa el Tema que introduce a las técnicas de comparación queda claro que cuanta mayor dispersión tengamos en un estudio más dificultad tendremos para detectar diferencias. En cambio, con un mayor tamaño y con mayor diferencia entre las medias muestrales más posibilidades tendremos de detectar diferencias.

7. Si nuestro p-valor es igual a 0.0001 rechazamos la Hipótesis nula, no la aceptamos. La pregunta especifica que este p-valor es de un contraste cualquiera, ello no implica que no haya normalidad. Únicamente indicaría eso si el contraste fuera sobre la normalidad, pero no en general. Y ese valor de 0.001 no indica la probabilidad de equivocarnos al aceptar la Hipótesis alternativa. La probabilidad de equivocarnos aceptando la Hipótesis alternativa queda concretada por el nivel de significación elegido, para el contraste, inicialmente, antes de empezar el estudio, por ejemplo: 0.05. El p-valor nos sirve únicamente par ver si estamos por encima o por debajo de ese nivel de significación, no es una probabilidad de error. Si el contraste es sobre la Odds ratio y el p-valor es 0.0001 efectivamente rechazaremos la Hipótesis nula de que la Odds ratio poblacional es 1.

8.Si son variables continuas, como sucede en nuestro caso, si son muestras independientes, como evidentemente sucede también en nuestro caso y una de las dos muestras no es normal hay que hacer un Test de Mann-Withney para comparar dos poblaciones.

9.Si tenemos muestras, en Estadística, nunca podemos asegurar que una es mayor que otra, siempre hay una probabilidad de error, pero es que menos en nuestro caso donde no tenemos una diferencia significativa. La diferencia no es significativa, por lo tanto, nada de decir que la media B es mayor que la de A. Tampoco podemos decir que la media de B sea superior a la de A pero que nos falta tamaño muestral para confirmarlo. Falta tamaño muestral pero no para confirmar nada, sino para ver cuál es mayor porque en este momento no podemos decir nada. La afirmación correcta es decir que prácticamente seguro que serán diferentes pero con la información de que disponemos todavía no podemos decir cuál es mayor a nivel poblacional, porque la diferencia que vemos ahora es muestral y no es una diferencia significativa, como marca este p-valor de 0.45.

10. Un valor muestral y un valor poblacional tienen digamos naturaleza completamente distinta. El muestral es cambiante, cambia según la muestra, el poblacional es fijo, es un valor desconocido pero fijo. Es verdad que una mediana muestral se aproxima bien a la mediana poblacional si la variable estudiada sigue la distribución normal, y en general de hecho, pero esto no quiere decir que sean iguales. La normalidad de una variable significa que la mediana de una muestra sea igual a la mediana de la población. Si fuera así la Estadística sería infalible, claro. Tampoco se cumple si la media muestral es la media del primer y tercer cuartil.

Solución Situación 14

IMG_4901

IMG_4902

Explicaciones:

1. La cierta es la c, cuanta mayor correlación hay entre las variables independientes más colinealidad entre ellas y más aumenta el error estándar de las estimaciones (Ver Tema dedicado a la Regresión múltiple).

2. Como la Odds ratio en una Regresión logística es ea, donde a es el coeficiente que multiplica a la variable independiente estudiada, entonces si a<0 entonces  ea<1. Por lo tanto, la respuesta a es la correcta.

3. Una correlación significativa irá asociada a una pendiente positiva o negativa según sea la correlación positiva o negativa. La respuesta c es la correcta.

4. La respuesta correcta es la a. Si el intervalo del coeficiente es (-5, 7) esto indica que la Odds ratio puede tener valores positivos y negativos y que, por lo tanto, un intervalo de confianza de ella incluye al 1.

5. La c es la correcta. Si la correlación es 0.78 con un p-valor inferior a 0.05 evidentemente estamos ante una correlación significativa.

6. La respuesta d es la correcta. Ninguna de las tres es cierta. Ni es válida para la Regresión simple, porque precisamente lo que hace es seleccionar variables cuando tenemos dos o más variables independientes, ni nos da medianas, ni sirve para construir intervalos de confianza de la media.

7. La b es la correcta. Este intervalo de confianza de la Odds ratio incluye al 1, luego estamos ante una Odds ratio no significativa. Mantendremos la Hipótesis nula de OR=1.

8. Un valor de ji-cuadrado de 4.33 si no sabemos ni el tamaño de muestra, ni el número de filas, ni el número de columnas de las tabla de contingencias, no podemos saber si es grande o pequeño, no podemos hablar de significación. Falta información. La d es la correcta.

9. Un intervalo de confianza del 95% de la pendiente no incluye al cero, luego la pendiente es significativa. La pendiente y la correlación en una Regresión lineal simple van de la mano. La significación de una indica la significación de la otra. Estamos, pues, ante una correlación significativa. La respuesta correcta es la c. La b no, porque nos dice que la correlación es significativa, y esto no es así: como la pendiente es positiva la correlación también será positiva.

10. Cuando hablamos de una correlación mayor que otra hablamos siempre, primero, de que sea una correlación significativa, y, luego, en términos de valor absoluto. Observemos que la primera correlación queda descartada porque no es significativa. Entre las otras tres la que tiene un valor absoluto mayor es la correlación -0.56. La respuesta correcta es, pues, la b.