CURSO DE ESTADÍSTICA (CIENCIAS DEL MAR)

Una buena forma de empezar un curso de Estadística es haciendo un viaje en autobús turistico por el mundo de la Estadística, un viaje para ver, de momento muy superficialmente, qué paisaje nos vamos encontrar a lo largo de este curso:

Es importante esta introducción porque nos proporciona un primer recorrido por todo lo que hemos de ver. Ahora ya empezaremos a bajar del autobús y ver con detalle las diferentes técnicas estadísticas que nos permitirán ver cómo es este proceso de decisión que incorporan para hablar de POBLACIONES a través de MUESTRAS.

Empecemos con el tema 1. Es, de nuevo, una introducción. Más corta, pero que nos sitúa ya de lleno en los tres tipos de técnicas estadísticas que formarán la columna vertebral del curso.

Empecemos ya con el primer grupo de técnicas: las técnicas descriptivas:

En el texto del Tema 2 que tenéis en el blog veréis que se habla al final de la curva de Lorenz y el Coeficiente de Gini. Esto os lo podéis mirar, pero no forma parte de este curso porque es un tema utilizado exclusivamente en el mundo de la Economía.

Una forma de salir de la descriptiva y empezar ya a ver las técnicas inferenciales (relación y comparación) es abordar el complejo concepto, por polisémico, de intervalo de confianza. Sin embargo, con este tema estamos en la frontera de la descripción y de la indiferencia:

Os añado un vídeo donde os hago un comentario de un artículo publicado sobre la Covid-19 y que os dará una visión práctica de la noción de intervalo de confianza predictivo de una proporción:

Toda predicción tiene una desviación estándar, que solemos denominar Error estándar, para diferenciarla de su uso como medida de dispersión de una variable empírica. Por lo tanto, un Error estándar es la desviación estándar de una predicción. En este último vídeo os he hablado del Error estándar de la predicción de una proporción. Las dos predicciones más usuales son la de la media poblacional o la de una proporción poblacional. En otros momentos del curso veremos otras predicciones también usuales. La forma de construir un intervalo de confianza del 95% de la media poblacional o la de una proporción poblacional es la siguiente:

Observad que se toma el valor de la media muestral o la proporción muestral y se suma y resta dos veces el Error estándar; o sea, la desviación estándar dividida por la raíz cuadrada del tamaño de muestra. En la proporción la desviación estándar es la raíz cuadrada de p multiplicado por 1 menos p. Esta es la desviación estándar de una variable con distribución Bernouilli.

En el ámbito de los intervalos de confianza, debido a esta doble concepción de intervalo de confianza que os he comentado en el tema 3 se cometen muchos errores. Mirad uno de sorprendente. En un artículo que tenéis comentado en el apartado de Artículos de Medicina (el Artículo 5) se maneja la siguiente tabla descriptiva, con sus respectivas comparaciones, de las dos poblaciones que se están comparando: HIV y No HIV:

IMG_0203

Observemos un error que hay en la variable Edad. Nos dicen que se da la media y la Desviación estándar (SD). Es como se suele presentar la descriptiva de una variable continua que se ajuste suficientemente bien a la distribución normal.  Evidentemente no puede ser. Es imposible que se trate de la Desviación estándar. Las edades serían muy similares, demasiado similares, dentro de cada grupo. Pensemos que si hay ajuste a la normal sumar y restar dos veces la desviación estándar nos cubriría el 95% de los valores individuales. En el caso de los No HIV deberían tener, prácticamente todos, los 5.621.817 de la muestra, 65 años. Podemos pensar, entonces, pues, que se trata del Error estándar. Suele ser habitual confundir Desviación estándar con Error estándar. Conociendo el Error estándar y el tamaño de muestra podemos calcular la Desviación estándar, a partir de la relación que conocemos entre esos dos cálculos muestrales:

IMG_0232

Estos valores de Desviación estándar, no obstante, son muy grandes, especialmente en el grupo No HIV. En todo caso, si admitimos que son correctos debemos admitir, entonces, que la variable Edad en absoluto se ajusta a una distribución normal. La hubieran tenido que representar mejor, pues, mediante la mediana y el primer y tercer cuartil.

A continuación tenéis un vídeo con ejercicios comentados de los temas 2 y 3:

Vamos a empezar ahora ya con el segundo grupo de técnicas: las técnicas de relación. Para ello veremos un vídeo que nos va a introducir en el ámbito de esas técnicas:

Vamos a ver ahora las técnicas de relación entre dos variables cuantitativas. El concepto esencial en estas técnicas es el de Correlación. Vamos a ver en los dos vídeos siguientes la técnica de la correlación de Pearson. Es una técnica muy importante. Nos va a permitir introducirnos ya en la noción de contraste de hipótesis y en la de significación estadística:

Empecemos con la Regresión. La Regresión es un mundo amplísimo. Nosotros vamos a ver un mapa general de la Regresión y después veremos únicamente un tipo de Regresión, de los muchos que hay, el más sencillo pero el más utilizado en la práctica.

Veamos la introducción a la Regresión:

Y ahora veamos el único tipo de Regresión que veremos en este curso: la Regresión lineal simple:

Vamos a empezar ahora el tema 8. Vamos a ver la relación entre las variables cualitativas:

Y ahora el tema 9. El vídeo os explica tres medidas: la V de Crámer, el índice Kappa y la Odds ratio. Esta tercera medida es de utilidad especialmente en medicina. En oceanografía no se utiliza mucho. Os la explico pero no entra a examen ni en los trabajos prácticos:

Me habéis preguntado algunos por el índice Kappa, mirad este vídeo que trata de aclararlo. Habla sobre medicina, pero si el ejemplo de diagnosticar a unos pacientes entre tres posibles patologías lo cambiais por un oceanógrafo que trata de clasificar a unos ejemplares de copépodos entre tres posibles especies distintas, tenéis una situación paralela aplicada a un campo distinto. Es importante que os acostumbréis a hacer este paso de una especialidad a otra, os ayudará a captar la esencia de una técnica estadística. Aquí tenéis el vídeo:

Un resumen de estos dos temas anteriores:

Vamos a empezar con las técnicas de comparación. El tema 13 nos introduce en ellas:

Para practicar en los conceptos de este tema os recomiendo los siguientes vídeos que resuelven preguntas tipo test del apartado de PROBLEMAS Y EXÁMENES:

Vamos ahora a ver técnicas de comparación de dos poblaciones:

Aquí tenéis ejercicios sobre el tema 14:

A continuación tenéis un comentario de un artículo sobre la COVID-19 donde podemos ver la problemática de este tema 14:

Una cuestión importante después de haber visto estas técnicas de comparación. Existen técnicas que se suelen denominar de una población que lo que hacen en ver si a partir de una muestra podemos aceptar la hipótesis de que en una población la media es un valor determinado (en una variable cuantitativa) o que hay una proporción determinada de individuos en una variable dicotómica. Me refiero al Test de la t de Student para una población y el Test de proporción de una población. La verdad es que no son tests muy usuales, no se utilizan con mucha frecuencia. Nada que ver con los test de comparación de dos poblaciones que hemos visto en el Tema 14, pero es importante que los conozcáis. El objetivo es, como he dicho antes, comprobar si es razonable pensar que la media poblacional en una variable cuantitativa o la proporción poblacional en una variable dicotómica es un valor determinado prefijado, a la luz de una muestra concreta que tengamos. Por ejemplo: Queremos comprobar si es razonable pensar que en España han pasado la Covid un 10% de personas. Cogemos una muestra, por ejemplo, de 1000 personas y resulta que en ella hay un 8% de personas que la han pasado esta enfermedad. ¿Es razonable mantener esa hipótesis de que en la población hay un 10%? El contraste de hipótesis me proporcionará un p-valor que me dirá si es o no razonable mantener esa hipótesis. Si hiciera un intervalo de confianza del 95% de la proporción poblacional debería ver si en el intervalo está incluido ese 10% o no. Si está incluido mantendría la hipótesis y si no lo está la rechazaría.

Os cuelgo un vídeo explicando brevemente esto que os acabo de escribir:

Recordemos siempre que a la hora de tomar decisiones en Estadística (si hay o no relación, si hay o no diferencias) se toman de dos formas: mediante un contraste de hipótesis o mediante un intervalo de confianza. Son, digamos, equivalentes. Son dos formas de toma de decisiones. Muy importante no olvidarlo.

Empezamos con el tema 15, dedicado a la técnica de comparación ANOVA.

Aquí tenéis dos vídeos dedicados a la explicación básica del tema:

Y ahora unos ejemplos:

Un repaso de lo esencial en ANOVA:

Ejercicios de ANOVA:

Y ahora ya el último tema del curso: La determinación del tamaño de muestra. Los vídeos siguientes explican el Tema 16 del blog:

Ahora tenéis un vídeo que os explica una calculadora del tamaño de muestra “on line” muy buena:

Un ejemplo de aplicación:

Y un comentario de la parte de determinación del tamaño de muestra de un artículo médico:

Aquí tenéis ejercicios test, resueltos y comentados, del tema 16:

A partir de ahora colgaré exámenes comentados. Si en alguno de estos vídeos se comenta una pregunta de los temas 17 y 19, que no hemos explicado en este curso, saltad, si queréis, esa explicación, pero la inmensa mayoría de preguntas son de los temas que entran en nuestro programa: