Curso 0 de Estadística

Este es un curso de Estadística pensado para preparar para el inicio posterior de un curso universitario de Estadística. Por eso lo llamo «Curso 0». Intenta, mediante un lenguaje sencillo, introducir el lenguaje y los problemas fundamentales que aborda la Estadística.

Podéis seguir, también, si queréis, la explicación con los siguientes vídeos:

Empecemos, pues:

La Estadística es una técnica de decisión, una técnica para la toma de decisiones. Una técnica de decisión basada en procedimientos matemáticos. Una técnica que se basa en la utilización de información que tenemos o que podemos obtener.

La Estadística es la ciencia con la que, a partir de MUESTRAS, decimos cosas (tomamos decisiones) sobre POBLACIONES.

Vamos a ver, en primer lugar, pues, qué entendemos por Poblaciones y por Muestras en Estadística.

Una POBLACIÓN es un conjunto, generalmente muy grande, de personas, de seres vivos, de cosas, etc.

Ejemplos:

  1. La población de todos los menores de 14 años en España.
  2. La población de todos los enfermos de Alzheimer de España.
  3. La población de todos los colegios de Barcelona.
  4. La población de todos los estudiantes de sexto de primaria de Cataluña.
  5. La población de todos los pokémons.
  6. La población de todas las ciudades del mundo.
  7. La población de todos los perros de España.

Una MUESTRA es una parte, generalmente pequeña, de una POBLACIÓN.

Ejemplos:

  1. Hemos seleccionado al azar 100 niños menores de 14 años en España.
  2. Hemos seleccionado, también al azar, 50 personas con Alzheimer en España.
  3. Hemos seleccionada al azar 20 colegios de Barcelona.
  4. Hemos seleccionado 70 estudiantes de sexto de primaria de Cataluña.
  5. Hemos seleccionado al azar 20 pokémons.
  6. Hemos seleccionado al azar 1000 ciudades del mundo.
  7. Hemos seleccionado al azar 200 perros de España.

Observa que la estructura de la relación entre POBLACIÓN y MUESTRA es siempre la que se ve en el siguiente dibujo:

img_3824

Siempre una MUESTRA es una parte de una POBLACIÓN. Y el objetivo de la Estadística es, precisamente, a partir de lo que podremos saber de esta MUESTRA, a base de estudiarla, de calcular cosas con ella, intentar decir cosas de cómo es la POBLACIÓN que no tenemos.

Evidentemente, no toda MUESTRA tiene la misma calidad. Hay muestras más representativas de la POBLACIÓN que otras. A la hora de elegir la muestra se trata de hacerlo con el máximo de coherencia para tratar que la MUESTRA sea lo más parecido a la POBLACIÓN  pero en miniatura. De momento, en este curso 0, basta con saber esto, pero, parece claro que la elección de la muestra es un paso fundamental puesto que, como ya hemos dicho, la Estadística pretende decir cosas de las POBLACIONES a partir del estudio de MUESTRAS. Si la elección de ésta es incoherente mala ciencia estaremos haciendo.

Esto es, pues, la Estadística: Intentar saber cómo es un todo (una POBLACIÓN) que no tienes a partir del estudio de una parte (una MUESTRA) que sí que tienes.

Por lo tanto, estos dos conceptos (MUESTRA y POBLACIÓN) están siempre presentes en la Estadística.

A las personas, seres vivos o cosas de las muestras que tenemos las analizamos para obtener de ellos alguna característica. A estas características las llamamos VARIABLES.

Ejemplos (Observa que cada punto está constituido por los elementos de las POBLACIONES y MUESTRAS vistas en la lección anterior):

  1. La presión arterial de niños menores de 14 años.
  2. El valor del Mini-Mental (es una prueba con una serie de preguntas que finalmente da una puntuación que marca el nivel de gravedad de la enfermedad) que tiene un enfermo con Alzheimer.
  3. La cantidad de alumnos matriculados en un colegio.
  4. La nota de matemáticas de estudiantes de sexto de primaria.
  5. La velocidad de un pokémon.
  6. El número de habitantes en una ciudad.
  7. Si un perro lleva o no un chip identificativo.

Observa que hemos definido una VARIABLE en cada caso pero podríamos escoger otras. Para que lo veas puedo tomar una POBLACIÓN de donde podríamos tener una MUESTRA y definir una larga lista de VARIABLES distintas. Un ejemplo, con los alumnos de sexto de primaria:

  1. Nota de sociales.
  2. Días que no han ido al colegio en el curso pasado.
  3. Nota promedio de quinto.
  4. Nota que le pondría él al tutor que ha tenido.
  5. Si prefiere un hombre o una mujer como tutor.
  6. A qué distancia vive de su escuela.
  7. Si ha repetido o no anteriormente un curso.
  8. Deberá o no repetir quinto.

Observemos, pues, que hasta ahora hemos visto tres conceptos en Estadística que son nucleares y que están siempre presentes en cualquier estudio realizado en cualquier ciencia:

  1. POBLACIÓN.
  2. MUESTRA.
  3. VARIABLE.

Es muy importante, siempre, situar bien cada uno de estos tres conceptos cuando se hace un estudio.

Veamos un ejemplo práctico:

Se quiere ver, en personas que tienen una enfermedad, si un nuevo medicamento que se quiere probar consigue más, menos o igual número de curaciones que el medicamento que se utiliza actualmente.

Llamemos al medicamento habitual como A y al nuevo como B.

Tenemos la POBLACIÓN de todos los enfermos de esa patología. Que pueden ser miles y miles.

El medicamento A lo damos a 100 personas con esa enfermedad y a los que seguiremos con detalle para ver si se curan o no. Estas 100 personas son una MUESTRA de la POBLACIÓN de todos los enfermos.

El medicamento B lo damos a otras 100 personas con esa enfermedad. Evidentemente, personas diferentes a las anteriores. Personas que también seguiremos detalladamente para ver si se curan o no con ese tratamiento. Estas 100 personas son una MUESTRA de la misma POBLACIÓN anterior, la POBLACIÓN de todos los enfermos de esa enfermedad.

La VARIABLE en este estudio es si el enfermo se cura o no con el tratamiento.

Veamos todo el planteamiento del estudio con un dibujo:

img_3832

Unos resultados que podríamos obtener finalmente del estudio podrían ser los siguientes:

Medicamento A:

70 se curan.

30 no se curan.

Medicamento B:

90 se curan.

10 no se curan.

Observa que entre las dos MUESTRAS hay diferencias. Con el medicamento B se curan más personas que con el medicamento A. Es muy claro. De las 100 personas tratadas con el medicamento B se han curado 90. Esto lo expresamos así: un 90 por 100 (lo solemos escribir así: 90%). Sin embargo, con el medicamento A se han curado sólo 70: un 70 por 100 (70%).

Pero, algo muy importante: esto que vemos lo vemos en las MUESTRAS. ¿Pasaría lo mismo si estos tratamientos se aplicaran a la POBLACIÓN entera, a todos los enfermos? Observemos que esto no lo podremos decir hasta que no lo apliquemos. Pero sería interesante predecir si las diferencias que vemos en esas MUESTRAS las veríamos también si cada uno de esos medicamentos se aplicara a toda la POBLACIÓN.

Pues éste es el papel de la Estadística. A eso nos dedicamos los estadísticos y para saber hacer este paso de las MUESTRAS a las POBLACIONES todos los científicos estudian Estadística.

Ya veremos que el gran problema de la Estadística será saber cuándo podemos decir que lo que vemos en las MUESTRAS es lo que veríamos, también, en las POBLACIONES. Cuando decimos, en Estadística, que lo que vemos es ESTADÍSTICAMENTE SIGNIFICATIVO es porque, con muchas posibilidades de no equivocarnos, lo que vemos en las MUESTRAS es lo que veríamos, también, en las POBLACIONES. Pero esto ya lo veremos más adelante. Sigamos, poco a poco.

Veamos ahora un poco más en detalle el tercero de esos tres conceptos que estamos viendo como nucleares en Estadística: el concepto de VARIABLE.

Hay dos tipos básicos de VARIABLES (esas características que medimos o evaluamos a las personas, seres vivos o cosas de una muestra o de una población): las variables cuantitativas y las variables cualitativas.

Las variables cuantitativas son variables que miden una cantidad. Nos dan un número a cada individuo de la muestra que tengamos.

Las variables cualitativas, también llamadas variables nominales, nos valoran una cualidad. Por eso se les llama también nominales, porque los valores de cada individuo son nombres.

Observemos las variables que listábamos antes en referencia a alumnos de sexto de primaria:

  1. Nota de sociales.
  2. Días que no han ido al colegio en el curso pasado.
  3. Nota promedio de quinto.
  4. Nota que le pondría él al tutor que ha tenido.
  5. Si prefiere un hombre o una mujer como tutor.
  6. A qué distancia vive de su escuela.
  7. Si ha repetido o no anteriormente un curso.
  8. Deberá o no repetir quinto.

Las variables 1, 2, 3, 4, 6 son variables cuantitativas. Son o una nota (una nota entre 0 y 10, suponemos) o un número de días o una distancia (en metros o kilómetros). Sin embargo, las variables 5, 7 y 8 son cualitativas. No son una cantidad numérica, sino una cualidad: prefiere un hombre o una mujer como tutor, ha repetido o no anteriormente un curso, debe o no repetir quinto.

Observemos que podríamos definir muchas más variables, tanto de cualitativas como de cuantitativas.

Veamos más ejemplos de variables cualitativas, en esa misma muestra de estudiantes de sexto de primaria:

  1. El sexo del alumno: niño o niña.
  2. El grupo sanguíneo: A, B, AB, O.
  3. Ciudad donde nació.
  4. Tiene o no ordenador en la habitación.

Veamos más ejemplos de variables cuantitativas:

  1. Altura.
  2. Peso.
  3. Metros cuadrados del piso donde vive.
  4. Número de hermanos que tiene.

Ya tenemos los elementos básicos con los que se trabaja, siempre, en Estadística: POBLACIONES, MUESTRAS y VARIABLES.

Ahora vamos a empezar a manejarlos.

La Estadística es una ciencia que actúa manejando Técnica analíticas. Con ellas es como hace este proceso de decir cosas de POBLACIONES a partir de las MUESTRAS.

Existen tres tipos de técnicas en Estadística. Técnicas descriptivas, de relación y de comparación. Vamos a dividir el resto de este curso 0 en tres apartados: uno para cada uno de estos tres tipos de técnicas.

  1. Técnicas descriptivas:

Con las técnicas descriptivas pretendemos resumir nuestras muestras. Hacer una síntesis de la inmensa cantidad de información que hay en ellas.

Lo primero que podemos hacer con una muestra es, siempre, hacer una descripción, un resumen de ella, que es lo que llamamos habitualmente: Estadística descriptiva.

Veamos las principales técnicas descriptivas que se engloban en la llamada Estadística descriptiva.

Con estas técnicas descriptivas conseguiremos una serie de valores que nos proporcionan una serie de rasgos característicos de la MUESTRA que podremos generalizar a la POBLACIÓN, si es que esta MUESTRA es representativa de la POBLACIÓN. Ya sabemos que este es el objetivo de la Estadística como ciencia.

Supongamos que tenemos una muestra de 10 alumnos de sexto de primaria y tenemos los siguientes valores de dos variables: Sexo (niño o niña) y nota de matemáticas:

Alumno Sexo Nota
1 h 3
2 m 5
3 m 2
4 m 8
5 h 4
6 h 6
7 h 5
8 m 7
9 m 9
10 h 4

Las técnicas descriptivas que tenemos son distintas según las variables sean cualitativas o cuantitativas.

En las cualitativas suele hacerse únicamente un recuento de cada uno de los valores. Consiste, simplemente, en contar cuántos individuos hay de cada una de las diferentes cualidades. En nuestro caso la variable Sexo sólo tiene dos valores posibles: hombres y mujeres. En nuestro caso: 5 hombres y 5 mujeres. Suele también expresarse en porcentaje. En nuestro caso: 50% de hombres y 50% de mujeres. Si se dan los valores sin porcentaje se dice que se dan las frecuencias absolutas, si se dan en porcentaje se dice que se dan las frecuencias relativas.

También se suele acompañar de un gráfico con diagramas de frecuencias o con un diagrama pastel.  A continuación veréis cómo quedarían estos gráficos:

Captura de pantalla 2016-09-01 a las 18.48.06

Captura de pantalla 2016-09-01 a las 18.44.58

Con las variables cuantitativas las posibilidades son mucho mayores. Suelen calcularse diferentes valores que resuman la muestra, respecto a un determinado aspecto. Es muy habitual dar la media y la desviación estándar. En la variable Nota, de nuestro ejemplo, estos dos valores serían:

Captura de pantalla 2016-09-01 a las 18.50.57

La media (Mean) y la desviación estándar (Std. Dev.) son las que ahora nos interesan. La media es el centro de gravedad de los valores de la muestra. La desviación estándar es una medida de dispersión de los valores de la muestra. Son dos valores muy importantes que se estudian con mucho detalle en un curso de Estadística. Ahora, de momento, nos basta tener en cuenta que son dos valores que se usan con mucha frecuencia para resumir numéricamente una variable cuantitativa.

Basta saber, de momento, que la media es la suma de todos los valores de la muestra dividido por el tamaño muestral, y que la desviación estándar es un valor que va de 0 hacia arriba y que cuanta más dispersión de valores mayor es su valor.

Por ejemplo, la muestra: (5, 5, 5, 5) tiene desviación estándar 0. Y la muestra (0, 5, 5, 10) tiene mayor desviación estándar que la muestra (4, 5, 5, 6). También es bueno saber que la muestra (10, 11, 11, 12) tiene la misma desviación estándar que esta última y que la siguiente: (105, 106, 106, 107). Es muy importante, de momento, tener muy claro todo esto.

También en las variables cuantitativas es muy importante el denominado Box-Plot. En la variable Nota el Box-Plot es el siguiente:

Captura de pantalla 2016-09-01 a las 18.54.19

Este gráfico es muy importante. Pero para entenderlo bien es mejor verlo en otra muestra.

El valor extremo de la izquierda es el valor mínimo de la muestra, el valor extremo de la derecha es el valor máximo. El punto donde empieza la caja es el primer cuartil o percentil 25. Donde acaba la caja es el tercer cuartil o percentil 75. La línea que fragmenta la caja en dos rectángulos es el segundo cuartil, percentil 50 ó Mediana (esta última denominación es la más habitual).

Para ver cómo se calculan esos importantes valores resumen de la muestra, veamos un caso de una muestra un poco más sencilla de manejar.

Supongamos la siguiente muestra: (1, 3, 5, 7, 9, 15, 17, 20). El Box-Plot sería el siguiente:

Captura de pantalla 2016-09-01 a las 19.03.37

Lo primero que hay que hacer para realizar estos cálculos es ordenar la muestra de menor a mayor. El mínimo y el máximo de la muestra es claro cómo se obtienen. El primer cuartil o percentil 25 es aquel valor que divide la muestra es un 25% de valores a la izquierda y un 75% de valores a la derecha. El tercer cuartil o percentil 75 es aquel valor que divide la muestra es un 75% de valores a la izquierda y un 25% de valores a la derecha. La mediana es aquel valor que divide la muestra es un 50% de valores a la izquierda y un 50% de valores a la derecha.

Veamos el cálculo del primer cuartil: Si nos situamos entre el 3 y el 5 tenemos un 25% de valores a la izquierda y un 75% de valores a la derecha. En este caso se hace el promedio de estos dos valores para tener el primer cuartil, que es 4.

Veamos el cálculo del tercer cuartil: Si nos situamos entre el 15 y el 17 tenemos un 75% de valores a la izquierda y un 25% de valores a la derecha. En este caso se hace el promedio de estos dos valores para tener el tercer cuartil, que es 16.

Veamos el cálculo de la mediana: Si nos situamos entre el 7 y el 9 tenemos un 50% de valores a la izquierda y un 50% de valores a la derecha. En este caso se hace el promedio de estos dos valores para tener la mediana, que es, en este caso: 8.

A veces el primer o tercer cuartil o la mediana no se sitúa entre dos valores sino que es un valor mismo de la muestra. Un ejemplo: En la muestra (2, 5, 7, 9, 20) la mediana es 7. Observemos que a la izquierda de 7 tenemos el 50% de valores y a su derecha tenemos, también, un 50% de valores.

Encontraréis Box-Plots en muchos artículos de cualquier ciencia, pero mirad a continuación un ejemplo muy sorprendente. Raramente veréis un Box-Plots con los valores muestrales superpuestos:

img_4605

2. Técnicas de relación

Con las técnicas de relación, como dice bien su nombre, tratamos de detectar relación entre diferentes variables de nuestra muestra. Como siempre, el objetivo será ver si las relaciones que detectamos en la MUESTRA son generalizables a la POBLACIÓN. Esto siempre está presente porque, como ya hemos dicho desde el principio, este es el objetivo de la Estadística como ciencia.

Detectar relación entre variables es muy importante en cualquier ciencia. Detectar si hay o no relación y, si la hay, mirar de cuantificarla, mirar de ver su intensidad. Porque hay grados distintos de relación.

Un ejemplo sencillo: la variable altura y peso en humanos tiene relación. Personas altas pesan más y personas bajas pesan menos. Esto indica que hay relación entre esas dos variables. Pero entre altura y número de pie hay mucha más relación. Y entre altura y longitud del fémur aún hay más relación. A esto nos referimos al decir que hay que detectar relación, primero, y, después, ver qué cantidad de relación tenemos.

Las dos técnicas más importantes y más usadas para detectar y cuantificar la relación entre dos variables son: la correlación de Pearson y la Odds ratio.

La correlación de Pearson cuantifica la relación entre dos variables cuantitativas.

La Odds ratio cuantifica la relación entre dos variables cualitativas dicotómicas (una variable dicotómica es una variable con sólo dos valores posibles).

En este curso 0 para introducirnos en el mundo de las técnicas de relación vamos a centrarnos en la Odds ratio, que es una medida extraordinariamente importante, especialmente en el ámbito de las ciencias de la salud.

Lo vamos a hacer viendo una serie de artículos de este blog que están pensados especialmente para introducirnos en esta importante técnica estadística. Los artículos son los siguientes:

La Odds ratio para estudiantes de primaria

Introducción a la Odds ratio para estudiantes de ESO (1): Planteamiento de una situación

Introducción a la Odds ratio para estudiantes de ESO (2): Solución de la situación

3. Técnicas de comparación

Con las técnicas de comparación tratamos de comparar los valores de una variable en diferentes muestras. El objetivo será, evidentemente, como siempre, ver si las diferencias que detectamos en las MUESTRAS son generalizables a las POBLACIONES que hay detrás de ellas. Esto siempre está presente porque, no lo olvidemos, de nuevo, este es el objetivo de la Estadística como ciencia.

Hay que distinguir, a la hora de realizar una comparación estadística, varias situaciones distintas muy importantes:

a. Comparación de dos poblaciones/Comparación de más de dos poblaciones.

b. Comparación de una variable dicotómica/Comparación de una variable cuantitativa.

c. Comparación de muestras independientes/Comparación de muestras relacionadas.

d. Comparación de variables cuantitativas normales/Comparación de variables cuantitativas no normales.

e. Comparación de proporciones/Comparación de medias/Comparación de medianas/Comparación de distribuciones/Comparación de correlaciones/Comparación de Odds ratio.

Y todo esto porque así como en las técnicas de relación hay realmente un listado pequeño de técnicas analíticas (la correlación de Pearson y la Odds ratio son muy mayoritarias), en las técnicas de comparación son muchísimas las técnicas de comparación que se aplicar en la realidad. Y es en función de estos conceptos vistos cómo van delimitándose cuáles son las técnica a aplicar en un momento determinado.

2 comentarios en “Curso 0 de Estadística

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s