CURSO ELEMENTAL DE ESTADÍSTICA

Una buena forma de empezar un curso básico de Estadística es haciendo un viaje en autobús turístico por el mundo de la estadística.

Una vez leído este artículo es bueno oír el siguiente vídeo:

Empecemos ya con las técnicas descriptivas:

Una forma de salir de la descriptiva y empezar ya a ver las técnicas inferenciales (relación y comparación) es abordar el complejo concepto, por polisémico, de intervalo de confianza:

Empecemos con las técnicas de relación. Veamos esta introducción:

Veamos las relaciones de dos variables cuantitativas:

Ahora veamos las relaciones entre dos variables cualitativas:

Para practicar con el mecanismo del test os adjunto dos vídeos:

Es importante que veáis las entrañas de la técnica, cómo se decide, el significado de la tabla esperada respecto del de la observada, cómo se busca un umbral dada una tabla de contingencias determinada (según el número de filas y columnas), cómo se decide, cómo se calcula el p-valor.

Mirad en este vídeo dos ejemplos más:

Veamos ahora cómo cuantificar la relación entre variables cuantitativas:

Os cuelgo un vídeo para repasar, de forma sencialla, el concepto de Odds ratio:

Un poco más del índice Kappa:

Un resumen de los temas 8 y 9 del blog:

Vamos a introducir, ahora, las técnicas de comparación:

Para practicar en los conceptos de este tema os recomiendo los siguientes vídeos que resuelven preguntas tipo test del apartado de PROBLEMAS Y EXÁMENES:

Vamos ahora a ver técnicas de comparación de dos poblaciones:

En este primer vídeo veréis las orientaciones a seguir para ver este tema. Veréis que este vídeo os llevará a un texto y a tres vídeos. Veréis el esquema básico de cómo moverse entre estas técnicas, cómo elegir la adecuada a un caso concreto y, también, ejemplos de aplicación que veréis en unos ficheros de COMPLEMENTOS. De momento veremos ejemplos en variables dicotómicas. Más adelante veremos ejemplos en variables cuantitativas continuas (con muchos valores posibles):

Aquí tenéis un vídeo analizando unos problemas en forma de preguntas test:

Si os fijáis en la tabla del artículo del The Lancet el uso de estas técnicas de comparación para variables dicotómicas es el más frecuente en estudios clínicos. Son muchas las variables dicotómicas en estudios clínicos. De hecho, son, de mucho, las más frecuentes. Por lo tanto, es muy importante dominar especialmente las dos posibilidades de uso de comparación de muestras independientes (que es la situación, también, más frecuente). Saber si hay que aplicar un test de proporciones (o una ji-cuadrado, que sería equivalente: pensad que una variable dicotómica con dos grupos a comparar genera una tabla 2×2 de las estudiadas en el tema 8) o un test exacto de Fisher.

Con los vídeos Tema 14: Ejemplos de aplicación (1) y Tema 14: Ejemplos de aplicación (2) hemos visto, pues, ejemplos de comparaciones de variables dicotómicas. Ahora os podéis mirar los vídeos Tema 14: Ejemplos de aplicación (3) y Tema 14: Ejemplos de aplicación (4). En estos dos vídeos veréis cómo llegamos a decidir cuál es la técnica de comparación de dos poblaciones que debemos utilizar en una variable cuantitativa.

El siguiente vídeo os orienta en esta segunda parte del Tema 14:

A continuación ejemplos de más preguntas test sobre este tema 14:

A continuación tenéis un comentario de un artículo sobre la COVID-19 donde podemos ver la problemática de este tema 14:

Os cuelgo una orientación acerca del p-valor:

Una cuestión importante después de haber visto estas técnicas de comparación. Existen técnicas que se suelen denominar de una población que lo que hacen en ver si a partir de una muestra podemos aceptar la hipótesis de que en una población la media es un valor determinado (en una variable cuantitativa) o que hay una proporción determinada de individuos en una variable dicotómica. Me refiero al Test de la t de Student para una población y el Test de proporción de una población. La verdad es que no son tests muy usuales, no se utilizan con mucha frecuencia. Nada que ver con los test de comparación de dos poblaciones que hemos visto en el Tema 14, pero es importante que los conozcáis. El objetivo es, como he dicho antes, comprobar si es razonable pensar que la media poblacional en una variable cuantitativa o la proporción poblacional en una variable dicotómica es un valor determinado prefijado, a la luz de una muestra concreta que tengamos. Por ejemplo: Queremos comprobar si es razonable pensar que en España han pasado la Covid un 10% de personas. Cogemos una muestra, por ejemplo, de 1000 personas y resulta que en ella hay un 8% de personas que la han pasado esta enfermedad. ¿Es razonable mantener esa hipótesis de que en la población hay un 10%? El contraste de hipótesis me proporcionará un p-valor que me dirá si es o no razonable mantener esa hipótesis. Si hiciera un intervalo de confianza del 95% de la proporción poblacional debería ver si en el intervalo está incluido ese 10% o no. Si está incluido mantendría la hipótesis y si no lo está la rechazaría.

Os cuelgo un vídeo explicando brevemente esto que os acabo de escribir:

A la hora de tomar decisiones en Estadística (si hay o no relación, si hay o no diferencias) se toman de dos formas: mediante un contraste de hipótesis o mediante un intervalo de confianza. Son, digamos, equivalentes. Son dos formas de toma de decisiones. Hemos visto en el Tema 5 y en el Tema 8 especialmente el contraste de hipótesis y el p-valor como número que nos orienta en la decisión. Vamos a ver, ahora el otro mecanismo: el intervalo de confianza.

Con todo esto tenemos ya mucho material visto. Os cuelgo a continuación tres vídeos con examen tipo test, que será como os evaluaré en el examen final. Estos tres vídeos os comentan varias preguntas tipo test para que practiquéis. Sin embargo, en el blog, en el apartado de PROBLEMAS Y EXÁMENES tenéis muchas preguntas de este tipo para que practiquéis. A mí siempre me ha gustado la enseñanza de conceptos mediante este tipo de preguntas.

Aquí tenéis los vídeos:

Os añado un vídeo donde os hago un comentario de un artículo publicado recientemente y que os dará una visión práctica de la noción de intervalo de confianza predictivo de una proporción:

Toda predicción tiene una desviación estándar, que solemos denominar Error estándar, para diferenciarla. Por lo tanto, un Error estándar es la desviación estándar de una predicción. En este último vídeo os he hablado del Error estándar de la predicción de una proporción. Las dos predicciones más usuales son la de la media poblacional o la de una proporción poblacional. La forma de construir un intervalo de confianza del 95% de la media poblacional o la de una proporción poblacional es la siguiente:

Observad que se toma el valor de la media muestral o la proporción muestral y se suma y resta dos veces el Error estándar; o sea, la desviación estándar dividida por la raíz cuadrada del tamaño de muestra. En la proporción la desviación estándar es la raíz cuadrada de p multiplicado por 1 menos p. Esta es la desviación estándar de una variable con distribución Bernouilli.

En el ámbito de los intervalos de confianza, debido a esta doble concepción de intervalo de confianza que os he comentado en el tema 3 se cometen muchos errores. Mirad uno de sorprendente. En un artículo que tenéis comentado en el apartado de Artículos de Medicina (el Artículo 5) se maneja la siguiente tabla descriptiva, con sus respectivas comparaciones, de las dos poblaciones que se están comparando: HIV y No HIV:

IMG_0203

Observemos un error que hay en la variable Edad. Nos dicen que se da la media y la Desviación estándar (SD). Es como se suele presentar la descriptiva de una variable continua que se ajuste suficientemente bien a la distribución normal (Ver el artículo La Estadística descriptiva en Medicina).  Evidentemente no puede ser. Es imposible que se trate de la Desviación estándar. Las edades serían muy similares, demasiado similares, dentro de cada grupo. Pensemos que si hay ajuste a la normal sumar y restar dos veces la desviación estándar nos cubriría el 95% de los valores. En el caso de los No HIV deberían tener, prácticamente todos, los 5.621.817 de la muestra, 65 años. Podemos pensar, entonces, que se trata del Error estándar. Suele ser habitual confundir Desviación estándar con Error estándar. Pero, tampoco. Sabiendo el Error estándar y el tamaño de muestra podemos calcular la Desviación estándar, a partir de la relación que conocemos entre esos dos cálculos muestrales:

IMG_0232

Estos valores de Desviación estándar son muy grandes, especialmente en el grupo No HIV. En todo caso, si admitimos que son correctas debemos admitir, entonces, que la variable Edad en absoluto se ajusta a una distribución normal. La hubieran tenido que representar mejor mediante la mediana y el primer y tercer cuartil.

Aquí tenéis más preguntas test comentadas. En el primer vídeo veréis que en la pregunta 4 comento la que tiene mayor capacidad predictiva cuando pide la de menor capacidad predictiva. En el siguiente vídeo comento la confusión. En la pregunta 5 veréis que no hay solución. No lo he borrado porque creo que es útil para aprender los conceptos, como veréis.

Aquí tenéis una explicación de dos calculadoras que os haré llegar. Una para calcular el intervalo de confianza de una proporción y el otro para calcular la Odds ratio y su intervalo de confianza:

Ahora tenéis dos vídeos para penetrar con un poco de detalle en cómo funciona por dentro el contraste de hipótesis que hacemos en el Test de la t de Student de dos muestras independientes y varianzas iguales:

A continuación tenéis un vídeo que comenta la noticia de que se va a efectuar un muestreo en España para saber cuántas personas están inmunizadas de la Covid-19:

Os cuelgo un vídeo comentando un tema sobre la Covid-19 y un estudio sobre la influencia de los grupos sanguíneos sobre esta patogenia que nos permite ver una variante del test de la ji-cuadrado de ajuste a unos datos teóricos:

Un repaso de lo que hemos hecho hasta ahora:

Más ejercicios resueltos:

Y ahora ya el último tema del curso: La determinación del tamaño de muestra. Escuchad estos dos vídeos que explican el Tema 16 del blog:

Ahora tenéis un vídeo que os explica una calculadora del tamaño de muestra “on line” muy buena:

Un ejemplo de aplicación:

Y un comentario de la parte de determinación del tamaño de muestra de un artículo médico:

Aquí tenéis ejercicios test, resueltos y comentados, del tema 16:

Aquí tenéis exámenes test comentados para repasar conceptos:

A continuación os cuelgo unos vídeos con el examen de junio comentado: