CURSO DE ESTADÍSTICA (CIENCIAS DEL MAR)

Una buena forma de empezar un curso de Estadística es haciendo un viaje en autobús turistico por el mundo de la Estadística, un viaje para ver, de momento muy superficialmente, qué paisaje nos vamos encontrar a lo largo de este curso:

Es importante esta introducción porque nos proporciona un primer recorrido por todo lo que hemos de ver. Ahora ya empezaremos a bajar del autobús y ver con detalle las diferentes técnicas estadísticas que nos permitirán ver cómo es este proceso de decisión que incorporan para hablar de POBLACIONES a través de MUESTRAS.

Empecemos con el tema 1. Es, de nuevo, una introducción. Más corta, pero que nos sitúa ya de lleno en los tres tipos de técnicas estadísticas que formarán la columna vertebral del curso.

Empecemos ya con el primer grupo de técnicas: las técnicas descriptivas:

En el texto del Tema 2 que tenéis en el blog veréis que se habla al final de la curva de Lorenz y el Coeficiente de Gini. Esto os lo podéis mirar, pero no forma parte de este curso porque es un tema utilizado exclusivamente en el mundo de la Economía.

Una forma de salir de la descriptiva y empezar ya a ver las técnicas inferenciales (relación y comparación) es abordar el complejo concepto, por polisémico, de intervalo de confianza. Sin embargo, con este tema estamos en la frontera de la descripción y de la indiferencia:

Os añado un vídeo donde os hago un comentario de un artículo publicado sobre la Covid-19 y que os dará una visión práctica de la noción de intervalo de confianza predictivo de una proporción:

Toda predicción tiene una desviación estándar, que solemos denominar Error estándar, para diferenciarla de su uso como medida de dispersión de una variable empírica. Por lo tanto, un Error estándar es la desviación estándar de una predicción. En este último vídeo os he hablado del Error estándar de la predicción de una proporción. Las dos predicciones más usuales son la de la media poblacional o la de una proporción poblacional. En otros momentos del curso veremos otras predicciones también usuales. La forma de construir un intervalo de confianza del 95% de la media poblacional o la de una proporción poblacional es la siguiente:

Observad que se toma el valor de la media muestral o la proporción muestral y se suma y resta dos veces el Error estándar; o sea, la desviación estándar dividida por la raíz cuadrada del tamaño de muestra. En la proporción la desviación estándar es la raíz cuadrada de p multiplicado por 1 menos p. Esta es la desviación estándar de una variable con distribución Bernouilli.

En el ámbito de los intervalos de confianza, debido a esta doble concepción de intervalo de confianza que os he comentado en el tema 3 se cometen muchos errores. Mirad uno de sorprendente. En un artículo que tenéis comentado en el apartado de Artículos de Medicina (el Artículo 5) se maneja la siguiente tabla descriptiva, con sus respectivas comparaciones, de las dos poblaciones que se están comparando: HIV y No HIV:

IMG_0203

Observemos un error que hay en la variable Edad. Nos dicen que se da la media y la Desviación estándar (SD). Es como se suele presentar la descriptiva de una variable continua que se ajuste suficientemente bien a la distribución normal.  Evidentemente no puede ser. Es imposible que se trate de la Desviación estándar. Las edades serían muy similares, demasiado similares, dentro de cada grupo. Pensemos que si hay ajuste a la normal sumar y restar dos veces la desviación estándar nos cubriría el 95% de los valores individuales. En el caso de los No HIV deberían tener, prácticamente todos, los 5.621.817 de la muestra, 65 años. Podemos pensar, entonces, pues, que se trata del Error estándar. Suele ser habitual confundir Desviación estándar con Error estándar. Conociendo el Error estándar y el tamaño de muestra podemos calcular la Desviación estándar, a partir de la relación que conocemos entre esos dos cálculos muestrales:

IMG_0232

Estos valores de Desviación estándar, no obstante, son muy grandes, especialmente en el grupo No HIV. En todo caso, si admitimos que son correctos debemos admitir, entonces, que la variable Edad en absoluto se ajusta a una distribución normal. La hubieran tenido que representar mejor, pues, mediante la mediana y el primer y tercer cuartil.

A continuación tenéis un vídeo con ejercicios comentados de los temas 2 y 3:

Vamos a empezar ahora ya con el segundo grupo de técnicas: las técnicas de relación. Para ello veremos un vídeo que nos va a introducir en el ámbito de esas técnicas:

Vamos a ver ahora las técnicas de relación entre dos variables cuantitativas. El concepto esencial en estas técnicas es el de Correlación. Vamos a ver en los dos vídeos siguientes la técnica de la correlación de Pearson. Es una técnica muy importante. Nos va a permitir introducirnos ya en la noción de contraste de hipótesis y en la de significación estadística:

Empecemos con la Regresión. La Regresión es un mundo amplísimo. Nosotros vamos a ver un mapa general de la Regresión y después veremos únicamente un tipo de Regresión, de los muchos que hay, el más sencillo pero el más utilizado en la práctica.

Veamos la introducción a la Regresión:

Y ahora veamos el único tipo de Regresión que veremos en este curso: la Regresión lineal simple: