Archivo del Autor: estadisticallopis

Solución Situación 17

Saber la potencia es importante porque nos sitúa en la calidad de unas conclusiones. Si la potencia es baja y no rechazamos la Hipótesis nula podría ser perfectamente porque tenemos baja potencia.

Apliquemos con el calculador GRANMO cuyo link está en el tema 15 y podremos calcular la potencia:

IMG_5108

Solución Situación 25

1d:

No tiene por qué ser la media muestral un valor dentro de ese intervalo. Por ejemplo, en la muestra (30, 30, 30, 50, 50, 50, 50, 1000), la media muestral sale de ese intervalo claramente.

No tiene por qué ser mayor que 50 la media muestral. En esta muestra, por ejemplo, no lo es: (0, 20, 40, 50, 50, 50, 50, 50).

El mínimo de la muestra, evidentemente, no tiene por qué ser 30. La muestra anterior es, de nuevo, un ejemplo.

La media muestral puede ser igual a cero, claramente. Observemos la siguiente muestra: (-310, 20, 40, 50, 50, 50, 50, 50). En ella tenemos una media muestral igual a 0.

2a:

La Sensibilidad es la probabilidad de que la prueba diagnóstica dé positiva si la persona está enferma de la patología que se pretende diagnosticar; o sea, P(+/E). Sabemos que P(-/E) es la probabilidad de tener un falso negativo. Sabemos también, claro, que P(+/E)+P(-/E)=1. Por lo tanto, Sensibilidad+P(Falsos negativos)=1.

La Especificidad es la probabilidad de que la prueba diagnóstica dé negativa si la persona no está enferma de la patología que se pretende diagnosticar; o sea, P(-/NE). Sabemos que P(+/NE) es la probabilidad de tener un falso positivo. Sabemos también, claro, que P(-/NE)+P(+/NE)=1. Por lo tanto, Especificidad+P(Falsos positivos)=1.

La Sensibilidad y la Especificidad pueden ser muy grandes y, sin embargo, tratarse de una técnica no aplicable. Por ejemplo, si la VPP es muy baja. ¿De qué sirve tener mucha Sensibilidad y Especificidad si casi siempre que una persona dé positivo no será enfermo?

El VPP no tiene por qué ser menor que la Sensibilidad. Puede ser mayor, perfectamente. Son conceptos independientes.

3b:

El máximo menos el mínimo de una muestra siempre es el rango de la muestra, por definición.

Si la distribución de la muestra se ajusta a una normal la media muestral y la mediana muestral pueden ser diferentes. Perfectamente. Se parecerán, pero no tienen por qué ser iguales.

Y la media muestral, por definición, es la suma de todos los valores muestrales dividido por el tamaño de la muestra.

Pero la mediana muestral es igual, efectivamente, a (v+w)/2, si la muestra está ordenada. Pero, en general, no. Y en el planteamiento del problema en ningún momento se nos dice que la muestra esté ordenada.

4c:

El criterio decisivo es tener valores altos de Sensibilidad, de Especificidad, de VPP y de VPN. Tener sólo valores altos de uno de esos criterios nos sirve de poco si no va acompañado de valores altos de los demás. Todos los criterios son, pues, decisivos, porque todos nos proporcionan una dimensión distinta del método diagnóstico.

El VPP es independiente de la Sensibilidad y de la Especificidad.

La Sensibilidad, como los demás conceptos, no es un criterio único para evaluar la calidad de un método diagnóstico.

Efectivamente el VPN suele ser bajo si la prevalencia de la enfermedad a diagnosticar es muy alta. En estos casos, aunque la Sensibilidad sea muy alta, por el enorme volumen de enfermos que hay los falsos negativos que haya pesarán mucho respecto a los verdaderos negativos que pueda haber, lo que nos llevará a una P(NE/-) baja.

5d:

Si un método diagnóstico cumple que todo enfermo de una determinada patología da positivo, entonces la Sensibilidad es 1. Se desprende de la definición. No hay falsos negativos, luego Sensibilidad=1.

Si un método diagnóstico cumple que toda persona que da positivo está enfermo de una determinada patología, entonces el VPP es 1. También se desprende de la definición. P(E/+)=1.

Si un método diagnóstico cumple que toda persona que da negativo está enfermo de una determinada patología, entonces el VPN es 0. Estamos diciendo que P(E/-)=1. Y sabemos que P(E/-)+P(NE/-)=1. Luego P(NE/-)=0; o sea: VPN=0.

Sin embargo, si un método diagnóstico cumple que todo no enfermo de una determinada patología da negativo, entonces  P(-/NE) =1; o sea, la Especificidad es igual a 1. Entonces 1-Especificidad=0, no igual a 1, por supuesto.

La estimación mediante el método de la máxima verosimilitud

En Estadística se manejan diferentes tipos de modelos para representar una determinada situación real: funciones de distribución, modelos de regresión lineal simple, regresión lineal múltiple, regresión logística, regresión de Cox, anova de un factor, de dos factores, etc. Estos modelos tienen parámetros.

Los parámetros son valores abstractos, por eso se representan mediante letras. Sin embargo, cuando nos enfrentamos a un caso concreto y tenemos una muestra concreta de una realidad, interesa estimar unos valores concretos de esos parámetros. Porque de esta forma el modelo sustituye a la realidad, el modelo se convierte en una maquinaria matemática, en una maqueta matemática de esa realidad.

Los parámetros son como las tallas de camisas o zapatos. Debemos elegir un valor concreto que nos vaya bien a nosotros.

Una vez tenemos un modelo con valores concretos de los parámetros tenemos la realidad representada matemáticamente. Si es, por ejemplo, una función de distribución normal, al calcular la media y la desviación estándar de la muestra y elegir una normal con sus dos parámetros esos dos valores, tenemos entonces una normal concreta que se convierte en una maqueta matemática de la distribución poblacional de la variable estudiada. Si es, por ejemplo, una recta de regresión ocurre lo mismo pero con otros parámetros. Así sucesivamente. Podemos tener modelos con muchos parámetros y necesitaremos muchas estimaciones. Pero el procedimiento siempre es el mismo. Necesitamos estimar los parámetros del modelo, las medidas del modelo que se ajusten a lo que vemos.

El método de estimación de la máxima verosimilitud (en inglés se denomina el maximum-likelihood estimation) es un método universal (universal porque es una filosofía, una forma de hacer aplicable a todos los modelos) de estimar parámetros en un modelo matemático. Es el más utilizado y cotizado.

Es cierto que en muchas ocasiones el estudiante se desmoraliza viendo la complejidad de la nomenclatura del método. Pero la idea es muy sencilla y trivial.

La idea del método es muy sencilla y básica. Es la siguiente: Tenemos una muestra y tenemos que elegir unos valores de los parámetros del modelo. Pues elijamos aquellos valores que hacen máxima la probabilidad de ver lo que estamos viendo en la muestra. Tan sencillo como esto. Ni más ni menos.

Supongamos un caso muy sencillo. Supongamos que queremos ver la prevalencia de una determinada enfermedad en una determinada población. Tomamos una muestra de tamaño 100 y vemos que tenemos 7 personas con tal enfermedad. Un modelo matemático para representar la prevalencia de esa enfermedad en esa población es una distribución Bernouilli que suele escribirse como B(p) (Ver el artículo Funciones de distribución en el apartado de Complementos).

Tomar como modelo concreto la distribución Bernouilli B(0.07) es aplicar, de hecho, el método de la máxima verosimilitud. Porque observemos que si tomamos una muestra de tamaño 100 y observamos 7 enfermos, estamos haciendo, en realidad, una observación de una distribución Binomial y podemos crear, así, la siguiente función de p:

IMG_5380

Y esta es una función de una variable, la variable p. Parece coherente elegir como estimación de p el valor que haga máximo ese valor. Si representáramos esta función veríamos curiosamente que donde se produce el máximo es justo encima del valor 0.07:

IMG_5381

Es por esto que 0.07 es la estimación de máxima verosimilitud en este caso y, en general, en una muestra de una variable dicotómica siempre que calculamos, como estimación del parámetro p, el tanto por uno de observaciones vistas de uno de los dos resultados posibles de la variable, estamos aplicando el estimador de máxima verosimilitud.

Así sucede en todos los modelos. Siempre tenemos un estimador máximo verosímil. Y este método de estimación, esta filosofía de estimación, es la más usual en Estadística.

Situación 24: Distribución binomial y aproximación mediante la normal

Un examen tipo test consta de 100 preguntas con 5 respuestas alternativas cada una. Las posibles calificaciones finales son: no apto si el número de respuestas acertadas es inferior a 65, apto si está entre 65 y 92 (ambos inclusives) y sobresaliente si es superior a 92. No restan las que están mal. Se pregunta:

1. Un alumno está seguro de la respuesta de 50 preguntas y contesta las otras 50 al azar. ¿Cuál es la probabilidad de obtener una nota superior a no apto?

2. Otro alumno está seguro de la respuesta de 87 preguntas y contesta las 13 restantes al azar. ¿Cuál es ahora la probabilidad de obtener un sobresaliente?

Solución

Test de Cochran-Mantel-Haenszel

El Test de Cochran-Mantel-Haenszel es un contraste de hipótesis para contrastar la igualdad de Odds ratio entre k tablas de contingencia 2×2. Es una forma de evaluar la posible influencia que pueda tener, sobre la relación entre esas variables cualitativas dicotómicas, una tercera variable también cualitativa con k valores posibles.

Es un Test usado para comprobar la posible confusión que puede generar una tercera variable en la relación entre dos variables.

El Test es el siguiente:

IMG_5246

Solución Situación 23

1b.

La a no es cierta porque la normalidad de una variable va acompañada de una media y una mediana muestral muy próximas.

La c no es cierta porque tenemos una DE muy amplia para el rango intercuartílico que tenemos. Esto hace pensar en una gran asimetría de los valores.

La d no es cierta porque la única información de la media y la DE no nos informa de ello.

La b es correcta. Porque la media± 0.68×15 construye un intervalo del 50%. Observemos que 0.68×15=10.2 y dos veces 10.2 es 20.4, muy similar a 20 que es el rango intercuartílico. Esta es, sin lugar a dudas, la información que más nos acerca a pensar en la normalidad de la variable.

2a

El Error estándar (EE) es 1, porque el intervalo de la media tiene radio 2 y es del 95%. Por lo tanto, de la fórmula EE=DE/raíz(n), sabemos EE y raíz(n), por lo tanto DE=EExraiz(n)=1×100=100.

3d

La desviación estándar de una muestra siempre se puede calcular. Otra cosa es que nos sirva o no como criterio inferencial.

El rango es 35, no 34.

La mediana es -2, no 0.

El rango intercuartílico es, efectivamente 4.5. Porque el tercer cuartil es 0.5 y el primer cuartil es -4 y 0.5-(-4) es 4.5.

Situación 23: Tres preguntas

1.¿Qué información nos hace pensar en una variable con distribución normal?

a. Media muestral=12 y Mediana muestral=23

b. Rango intercuartílico= 20, Media±DE=50±15

c. Rango intercuartílico= 5, Media±DE=50±25

d. Media±DE=50±15

2. Si la media muestral de una muestra de tamaño 10000 es 25 y un intervalo de confianza del 95% de la media es (23, 27), ¿cuál es la Desviación estándar (DE) muestral?

a. 100.

b. 1.

c. 1000.

d. 10.

3. En la siguiente muestra (-34, -4, -4, -4, 0, 0, 1, 1):

a. La desviación estándar no se puede calcular porque no se ajusta a una distribución normal.

b. El rango es 34.

c. La mediana es 0.

d. El rango intercuartílico es 4.5.

Solución