Archivo del Autor: estadisticallopis

Tema 5: CORRELACIÓN

Los siguientes vídeos explican el tema:

 

1. Una vez introducidas las técnicas de relación vamos a ver el elemento nuclear en torno al cual gira la valoración de la relación entre variables cuantitativas: la correlación.

2. También la correlación es usada para variables ordinales; o sea, variables cuyos valores son posiciones de orden: primero, segundo, etc.

3. La correlación más usada para variables cuantitativas es la correlación de Pearson. Es especialmente apropiada cuando la distribución de las variables es la normal.

4. Para las variables ordinales las correlaciones más usadas son la correlación de Spearman o la correlación de Kendall. Sin embargo, estas dos correlaciones pueden aplicarse a variables cuantitativas, especialmente es recomendable usarlas si las variables no siguen la distribución normal.

5. En este tema hablaremos de la correlación en general aunque la mayor parte de ejemplos y comentarios se centrarán en la correlación de Pearson, pero todo lo que digamos aquí acerca de la noción de esta correlación es válido para explicar esas otras dos correlaciones.

6. Repito, porque es muy importante: Las diferencias fundamentales entre estas tres correlaciones son las siguientes: La correlación de Pearson funciona bien con variables cuantitativas y que sigan bien la distribución normal. Las otras dos correlaciones funcionan especialmente bien con variables cuantitativas que no sigan la distribución normal o con variables de las que lo único que tengamos sean posiciones de orden (variables ordinales).

7. Cuando hablamos de variables cuantitativas estamos hablando de variables como: altura, peso, renta, goles de un equipo en una temporada, número de empleados de una empresa, etc. De la comprobación de la normalidad ya hemos hablado en el tema de los intervalos de confianza y hablaremos con más detalle en temas futuros.

8. La correlación de Pearson es tan universal, es tan usada, que ha quedado implementada en prácticamente todas las máquinas de calcular. Pero se usa indiscriminadamente y en muchas ocasiones sería más apropiado usar alguna de las otras dos correlaciones: Spearman o Kendall.

9. Hay tres elementos básicos a tener en cuenta al analizar una correlación: signo, magnitud y significación. Veamos cada uno de estos elementos con detalle.

10. La correlación, como cuantificación del grado de relación que hay entre dos variables, es un valor entre -1 y +1, pasando, claro, por el cero.

11. Hay, por lo tanto, correlaciones positivas y negativas. El signo es, pues, el primer elemento básico a tener en cuenta.

12. Correlación positiva significa que las variables tienen una relación directa.

13. En este caso, valores pequeños de una variable van asociados a valores también pequeños de la otra; y, paralelamente, valores grandes de una van asociados a valores grandes de la otra. Pe: La altura y la longitud del pie.

14. Más ejemplos de correlación positiva: Goles a favor y puntos de un equipo de fútbol. Asistencias y puntos de 3 en básquet.

15. Número de oficinas y número de empleados en entidades financieras también tiene una correlación positiva.

16. La correlación negativa la tienen, por el contrario, variables con una relación inversa.

17. En este caso, valores pequeños de una variable van asociados, ahora, a valores grandes de la otra; y, equivalentemente, valores grandes de una van asociados a valores pequeños de la otra.

18. Pe: Goles a favor y Goles en contra en una liga de fútbol. Asistencias y rebotes. Valores altos de una variable van con bajos de la otra.

19. La correlación suele abreviarse con una r. Por lo tanto, r=0,7 es una correlación positiva y r=-0,9 es una correlación negativa.

20. Observemos, gráficamente, cómo se distribuyen los valores de dos variables con correlación negativa y de dos variables con correlación positiva:

IMG_7070

21. Lo segundo a tener en cuenta en la correlación es la magnitud. Y esto lo marca el valor absoluto de la correlación.

22. En la magnitud se valora se valora la correlación sin el signo, valorando la magnitud del número puro.

23. Esto significa que cuanto más cerca estemos de los extremos del intervalo de valores posibles: -1 y +1, más correlación tenemos. Por eso, r=-0,9 es más correlación que r=0,8, porque 0,9 es más grande que 0,8.

24. Respecto a la magnitud de la correlación hemos de matizar un poco su significado. El valor de las cosas en euros y en pesetas tiene r=1.

25. En este caso estamos en la situación de máxima magnitud de correlación. Se trata de un caso de total dependencia entre dos variables.

26. Al saber el valor en euros de un producto sabes el valor en pesetas. Aquí no hay incertidumbre. Otra cosa es la relación entre la altura y el pie.

27. La correlación posiblemente sea próxima a 0,9. Ahora medir 1,80 no determina exactamente el pie que calzas. Hay una cierta variación.

28. Entre altura y peso posiblemente tengamos una r=0,6. Claro que hay una correlación positiva, pero de menor magnitud.

29. Si sabemos la altura de una persona las longitudes de pie que esta persona pueda tener tienen menos dispersión que los pesos que pueda tener. Los pesos posibles varían más las alturas posibles.

30. Mayor magnitud de la correlación significa, pues, mayor dependencia, mayor proximidad a la relación que tienen pesetas y euros.

31. Observemos en el gráfico adjunto cómo cambia la disposición de los valores de dos variables en función tanto del signo como de la magnitud de la correlación entre ellas:

IMG_4122

32. Decíamos antes que hay tres elementos a tener en cuenta en la correlación: signo, magnitud y significación. Hemos visto hasta ahora signo y magnitud.

33. Vamos a ver ahora el más complejo: la significación. Este es un concepto nuclear en Estadística, como iremos viendo.

34. De hecho, la noción de significación es nuclear en Estadística. Se podría decir, en realidad, que la Estadística, en buena parte, es la ciencia que estudia la significación. Ya iremos viendo realmente, en este curso, la trascendencia que tiene este concepto en la Estadística.

35. Significación en Estadística significa algo así como fiabilidad. Un resultado significativo es un resultado por el que podemos apostar.

36. Ante una afirmación estadísticamente significativa podemos pensar que si volviésemos a hacer lo mismo, en las mismas circunstancias, pero con otra muestra, acabaríamos diciendo algo similar, algo equivalente.

37. Podemos pensar, pues, que estamos ante una muestra tipo, ante una buena muestra de muestras, ante una muestra que es representativa del conjunto de todas las muestras que hubiéramos podido tener.

38. Por lo tanto, lo que estamos calculando a la muestra que tenemos es un valor fiable, un valor que no cambiaría mucho con otra muestra tomada en las mismas circunstancias. Por lo tanto, nos acercamos mucho al valor poblacional.

39. Una afirmación si es estadísticamente significativa representa que la Estadística cree que aquel resultado es muy poco probable que sea fruto del azar de un muestreo.

40. Si una técnica estadística duda de la representatividad de un muestreo dice: «no significativo». Es muy precavida, muy prudente. La ciencia tiene que ser así, evidentemente.

41. La significación estadística se mide mediante el p-valor. Éste es un valor que va del 0 al 1, con dos zonas, dentro de este intervalo, bien diferenciados.

42. Estas dos zonas son: del 0 al 0,05 y del 0,05 al 1. Una metáfora posible es la de las notas: En nuestro sistema educativo las notas van del 0 al 10.

43. Y en este intervalos del 0 al 10 es bien distinta la zona de notas que va del 0 al 5 que la que va del 5 al 10. Esto mismo sucede con el p-valor.

44. La frontera del 0,05 en el p-valor es, en cierto modo, equivalente al 5 en las notas. Pero cuidado: 0,05, no 0,5.

45. Una correlación será significativa si su p-valor es inferior a 0,05. Si no es significativa hemos de presuponer que, entonces, r=0.

46. Siguiendo la metáfora de las notas, es como si se examinara la afirmación r=0. Si el p-valor es igual o superior a 0,05, entonces esta afirmación aprueba. En este caso, mantenemos la afirmación de no correlación entre las variables estudiadas.

47. Pero si, por el contrario, el p-valor es inferior a 0,05 tal afirmación entonces suspende y decidimos que la r no es 0 y nos quedamos con el signo y la magnitud de la r calculada.

48. Observemos que el margen de la afirmación r=0 es muy amplio: va del 0,05 al 1; o sea, es una longitud de 0,95 sobre 1. Esto es lo que permite hablar de «significativo» cuando suspende.

49. Si la hipótesis examinada teniendo tanto margen, suspende, es que podemos rechazarla con un buen nivel de confianza de que no nos estamos equivocando al hacerlo.

50. De esta forma podemos decir que una r=0,8 con un p-valor de 0,26 es, en realidad, una correlación más baja que una r=0,4 con p=0,001.

51. Porque, en este caso, la r=0,8, al no ser significativa, no podemos fiarnos de ella. Puede ser un efecto del azar del muestreo.

52. De la misma forma que en esta muestra hemos calculado una r=0,8 en otra muestra tomada en las mismas condiciones podríamos tener r=-0,8. Por lo tanto, este 0,8 no es fiable.

53. Por eso ante esta posibilidad la técnica estadística nos dice: Ante la duda mejor afirmar que no hay relación; o sea, que r es igual a 0.

54. Veamos en el gráfico que sigue cómo serían los valores de dos muestras donde se pudieran ver estas dos situaciones planteadas. Si se observa en la muestra con la correlación r=0,8 la fiabilidad de esta correlación es baja. Al estar basado el cálculo en una muestra muy pequeña no tenemos la garantía de que al aumentar la muestra se mantendrá este nivel de correlación. Sin embargo, en el caso de la correlación r=0,4, no se trata de una gran correlación pero sí es fiable. Parece que a la luz de lo que vemos en la muestra, si aumentamos el tamaño de muestra no es previsible que cambie mucho el nivel de correlación. Podemos decir, pues, que la correlación r=0,8 es inestable, con el nivel de información que tenemos, está poco solidificada. En cambio, la correlación r=0,4 es una correlación sólida, fiable:

IMG_6957

Si las variables x e y realmente fueran independientes, si tuvieran r=0, a nivel poblacional tendríamos algo así:

IMG_6956

Observemos a continuación los datos muestrales de antes pero sobre este fondo:

IMG_6960

Observemos que en el gráfico de la izquierda tener una población así y obtener una muestra así es muy poco probable. Por eso descartamos la posibilidad de la independencia entre las variables, descartamos que la correlación poblacional r sea 0. Sin embargo, en el de la derecha, tener una población como la que tenemos en el fondo y obtener una muestra así es muy probable, como también sería muy probable ver una muestra incluso con una correlación negativa. En este caso no podemos descartar que la r sea 0 porque es posible ver lo que vemos y que a nivel poblacional no exista, en realidad, relación entre esas variables.

55. Es fundamental entender esto. Ver que la significación es algo distinto a la magnitud de una correlación es importantísimo para entender el peculiar lenguaje de la Estadística.

56. La significación tiene mucho que ver, evidentemente, con el tamaño de muestra. Si ese tamaño es pequeño es difícil que la Estadística se fíe de ella.

57. Las muestras de tamaño pequeño son muy imprevisibles porque las diferentes muestras posibles son muy diversas entre ellas.

58. En muestras grandes hay mucha homogeneidad entre las diferentes muestras posibles. Por eso será más fiable lo que una de ellas diga.

59. La metáfora de las notas, del aprobado y suspenso para explicar el contraste de hipótesis y el p-valor tal vez habrá que explicarla un poco más, por la importancia que tiene.

60. La correlación es significativa si el p-valor es inferior a 0,05.

61. El p-valor se mueve entre 0 y 1. Si éste es mayor o igual que 0,05 decimos entonces que no hay correlación; o sea, que no tenemos ningún argumento firme para dudar de la afirmación: r=0.

62. Por eso digo que se puede ver como si quien se examinara fuera r=0 y que el p-valor fuera como la nota de ese examen.

63. Si es menor que 0,05 suspende r=0 y hablamos, pues, de correlación significativa; y si es mayor o igual que 0,05 entonces r=0 no suspende. Se mantiene tal afirmación. De momento ésta no se contradice con lo que sabemos, con lo que vemos.

64. Decimos entonces que no tenemos pruebas que nos permitan afirmar, de forma fiable, que hay correlación entre esas variables.

65. No tenemos pruebas suficientes para afirmar cuál debe ser el signo y la magnitud de la correlación a nivel poblacional. Pensemos que estamos intentando sacar conclusiones poblacionales a partir de una información puramente muestral. Esto es un elemento que está siempre presente en Estadística.

66. Al basarse la decisión en un número entre 0 y 1 y en una frontera (0,05), el paralelismo con la enseñanza es claro.

67. En España, las notas son un número que va del 0 al 10, con una frontera muy clara en el 5.

68. Como puede verse la frontera establecida en el p-valor sugiere realmente un trato de favor para el aprobado. Esto es para que cuando suspenda r=0 tengamos muy pocas posibilidades de errar.

69. Por eso hablamos de correlación significativa cuando el p-valor traspasa ese límite.

70. Le hemos dado mucho margen a r=0 y acabamos viendo, en ese caso, si el p-valor es menor que 0,05, que no es coherente mantener esta afirmación a la luz de lo que estamos viendo en la muestra que tenemos.

71. Entender este razonamiento es fundamental en Estadística. Estamos abordando, con esto, en realidad, el núcleo básico de la Estadística.

72. En Estadística a todo esto que estamos viendo le denominamos «Contraste de hipótesis». Vamos a ver, ahora, la terminología que usamos.

73. En Contraste de hipótesis se habla de Hipótesis nula: H0, y de Hipótesis alternativa: H1. Y de que hemos de decidirnos por una u otra.

74. La decisión no es como cuando compramos una camisa poniendo una al lado de la otra para ver cuál nos gusta más.

75. La H0 parte como cierta y sólo nos decantaremos por la H1 si la H0 es absurdo mantenerla viendo lo que vemos en la muestra.

76. Por eso H1 se le denomina alternativa, porque es la alternativa de la nula cuando no es lógico mantenerla tras analizar la muestra.

77. En todo lo visto con la correlación podemos ahora conectar: H0 es r=0 y H1 es r distinta de 0.

78. El p-valor es el criterio objetivo basado en el análisis de la muestra que nos permite decidirnos por mantener H0 o pasarnos a la H1.

79. Esta lógica de funcionamiento va a ser el tema nuclear de casi todas las técnicas que iremos viendo a lo largo de este curso.

80. Siempre digo que la estructura de la Estadística es como la del Bolero de Ravel: un mismo tema que va repitiéndose machaconamente.

81. El tema machacón del Bolero de Ravel de la Estadística es esta noción de contraste de hipótesis y el p-valor como criterio de decisión.

82. Pero volvamos a la correlación: Ésta se calcula por dos razones básicas: 1) Para cuantificar el grado de relación entre las dos variables.

83. 2) Para crear una función matemática que modelice la relación entre esas variables. A esto segundo se le denomina «Regresión». Será el siguiente tema.

84. Un último apunte: En ocasiones el contraste de hipótesis; o sea, la decisión de si estamos antes una correlación significativa o no, se realiza mediante un intervalo de confianza del 95%. Pensemos que una correlación muestral es, en realidad, una predicción de una correlación poblacional. Si el intervalo de confianza incluye al 0 significa que es posible tener, en la población, una correlación de 0; o sea, no haber correlación entre las variables. Sin embargo, si ese intervalo no incluye al 0 es muy poco probable pensar, a la luz de lo que vemos, que la correlación poblacional sea 0. Por eso, diremos, en estas circunstancias, que la correlación es estadísticamente significativa.

85. Ejemplo: Si tenemos un intervalo de confianza del 95% de una correlación poblacional así: (-0.12, 0.24), esto es equivalente a un contraste de hipótesis sobre la correlación con un p-valor superior a 0.05. Por el contrario, si el intervalo es (0.13, 0.45), esto es equivalente a un p-valor inferior a 0.05.

Tema 3: INTERVALOS DE CONFIANZA

Los siguientes vídeos explican el tema:

 

1. Una buena forma de empezar la Inferencia estadística es hacerlo mediante los Intervalos de confianza, porque aunque sean procedimientos inferenciales, mantienen una importante conexión con la descriptiva. Por esto lo planteo en este capítulo a modo de bisagra entre la Estadística descriptiva y la Estadística inferencial.

2. En una buena parte de muestras, sabiendo la media y la Desviación estándar podemos deducir todos los demás cálculos que podemos hacer a una muestra. Por esto es tan habitual resumir una variable cuantitativa mediante estos dos descriptores.

3. Cuanto más forma de campana de Gauss siga la distribución de los valores de la muestra más será cierto lo dicho en el punto anterior.

4. Una muestra se distribuye de forma normal, o según una campana de Gauss, básicamente cuando se cumplen dos condiciones: 1) Cerca de la media está la mayoría de valores. 2) De forma progresiva y simétrica va disminuyendo la densidad de valores al alejarse, por ambos lados, de la media de la muestra. Hay formas precisas para comprobar la normalidad de una muestra (como veremos en el Tema 14: Comparación de dos poblaciones), y hay formas más aproximadas como son que la Asimetría estandarizada y la Curtosis estandarizada de la muestra sean, ambos, valores que estén entre -2 y 2, como hemos visto en el Tema 2.

5. La muestra (1, 4, 6, 6, 7, 7, 7, 8, 9, 11, 13) sigue bien el carácter de normalidad. La muestra (3, 3, 3, 4, 11, 12, 12, 123) no lo sigue.

6. En la primera está claro que la mayor parte de valores están cercanos al valor central de la muestra y a derecha e izquierda de ese valor central hay más o menos el mismo número de valores; o sea, que hay simetría entre ambos lados.

7. En la segunda, sin embargo, esto no es así. Observemos que hay como tres focos en la muestra: uno próximo a 3, otro próximo a 12 y otro en torno a 123. Esto no se ajusta al ritmo de la campana de Gauss.

8. Ante toda muestra que sigue bien una distribución normal podemos hacer unas importantes afirmaciones acerca de la población:

9. Dentro del intervalo que va de la media menos una Desviación estándar (DE) hasta la media más una DE tenemos aproximadamente el 68.5% de los valores.

10. Esto lo escribimos normalmente así: M±DE. También escribiremos: (M-DE, M+DE).

11. Ejemplo: Supongamos una muestra de alturas de personas, que sigue bien una distribución normal, y que tiene una media de 170 y una DE de 8.

12. En esta población el 68.5% de las personas mide entre 162 y 178 cm, o sea, dentro del intervalo (170-8, 170+8)= (162, 178).

13. De la misma forma, la media más menos dos DE cubre el 95% y la media más menos tres DE cubre aproximadamente el 99.5%.

14. En el intervalo (154, 186) tenemos el 95% de individuos de la población y en (146, 194) el 99.5%.

15. Media más menos una DE, más menos dos DE y más menos tres DE, cubren, pues, el 68.5, el 95 y el 99.5%, respectivamente, de la población.

16. Muestra: (1, 2, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 10, 11, 15). Sigue la distribución normal. La media es 6.75, la DE es 3.

17. Podemos decir que la población de donde hemos tomado esta muestra es una Normal de media 6.75 y DE 3. Escrito así: N(6.75, 3).

18. Esta población queda modelizada por esa distribución. Lo que calculemos a la N(6.75, 3) es como si le calculásemos a la población.

19. Por eso es un modelo, porque sustituye a una realidad, porque la aproxima, porque la representa, porque, en cierto sentido, puede ocupar su lugar.

20. La distribución normal, como modelo de la realidad, es muy usual porque muchas variables se distribuyen de esta forma.

21. Gauss creó una maquinaria matemática (la campana de Gauss) que es una buena maqueta de la variabilidad de muchas variables.

22. De Campanas de Gauss tenemos infinitas. El símbolo general de una de ellas es N(μ, σ). ¿Qué significan la μ y la σ?

23. La μ y la σ son los llamados parámetros de la normal, son como las tallas. Como cuando pedimos unos zapatos del 42.

24. Pero aquí pedimos dos números. Como si para los zapatos necesitáramos pedir mediante dos números: uno para la longitud y otro para la anchura.

25. La μ es el punto más alto de la campana de Gauss y la σ es una medida del grosor de la campana, de su estilización.

26. He escrito ahora N(μ, σ) pero antes he usado la expresión N(M, DE), ¿por qué?

27. Porque la media M, de una muestra, estima la media de la población que, matemáticamente, es representada por la μ de la normal.

28. La DE de una muestra estima la σ, que es una medida de la dispersión poblacional. Por eso M es a μ lo que DE es a σ.

29. Cuando decimos que utilizaremos una N(μ, σ) es como decir que queremos comprar un determinado modelo de zapato.

30. Cuando decimos que utilizamos una N(M, DE) es como cuando pedimos el número 42 de un determinado modelo de zapato, porque la M y la DE siempre serán dos números concretos calculados a la muestra que tengamos.

31. La M y la DE calculada a una muestra que se ajusta a una normal nos eligen la talla de la campana de Gauss que se ajusta mejor a nuestro caso.

32. Una vez tenemos una normal concreta como modelo de una población lo que calculemos al modelo es como si, en realidad, lo calculásemos a la población.

33. Esta es la ventaja de tener modelos en ciencia: sustituyen a la realidad, son maquetas matemáticas que podemos manejar.

34. Maquetas a las que les podemos preguntar cosas: lo que ellas nos respondan es, aproximadamente, lo que nos respondería la población modelizada.

35. Lo de media más menos una, dos y tres DE y los porcentajes vistos son ejemplos de esas preguntas posibles.

36. Modelizar, crear modelos, sirve, pues, para representar una realidad con piezas de otros materiales. Piezas y materiales que son mucho más fácilmente manejables, a los que se les puede alterar cosas y ver su comportamiento, su respuesta.

37. En matemáticas a los modelos se les puede calcular cosas con mucha facilidad. En Estadística un modelo representa, dibuja una realidad determinada, una población, por lo tanto, estos cálculos que hagamos en él son como si les hiciésemos a estas poblaciones.

38. Al calcularle cosas al modelo es como si estuviéramos calculándole cosas a algo que en realidad no tenemos. Este juego es importante entenderlo bien. Es clave para comprender el proceder de la Estadística.

39. Veamos, ahora, un dibujo de la campana de Gauss y de los tres intervalos (media más menos una, dos y tres desviaciones estándar) asociados a los tres números (68.5%, 95% y 99.5%), respectivamente; números que ya no debemos olvidar nunca para poder manejar con propiedad estos dos básicos descriptores de una muestra que son la media y la desviación estándar:

40. Si no hay ajuste a la distribución normal es más recomendable, entonces, usar la mediana y el rango intercuartílico porque al usar la media y la desviación estándar, con el más y el menos entre ellas, resulta una invitación a una inferencia que en absoluto es correcta. Incluso pueden resultar muy incorrectas las inferencias que hagamos a partir de estos dos valores. Ver el importante artículo ¿La media y la desviación estándar o la mediana y el rango intercuartílico? para aclarar cuándo resumir una variable de una u otra forma.

41. Veamos, ahora, otra cuestión que lleva a muchos errores. Una de las confusiones más frecuentes que cometen los usuarios de la Estadística se da entre dos nociones de intervalo de confianza bien distintas que pueden usarse y que, si no están claramente perfiladas, es fácil intercambiar y mezclar. Vamos a intentar clarificar estas dos nociones de intervalo de confianza porque hasta ahora hemos visto únicamente una de ellas:

42. Supongamos que un estudio dice que un intervalo del 95% de la media de la altura de adultos en una población es (169, 171). ¿Significa esto que el 95% de la gente de esa población mide entre 169 y 171?

43. Supongamos dos equipos de investigación que estudian las alturas de una misma población: el equipo A y el equipo B.

44. El equipo A toma una muestra de tamaño 100 de esta población y la media resulta que es 170 y la desviación estándar (DE) es 10.

45. El equipo B toma una muestra de tamaño 400 de la misma población y resulta que al calcular la media y la DE obtiene los mismos valores: 170 y 10.

46. El que la media y la DE den lo mismo es porque estamos teorizando y me va bien que sea así, pero no sería extraño que dieran valores muy parecidos.

47. Pensemos que ambos equipos están estudiando la misma población. Es lógico que no haya mucha diferencia entre los descriptores calculados a sus muestras.

48. Ambos equipos dirán que entre 150 y 190 tenemos el 95% de alturas poblacionales, por todo lo dicho antes.

49. Para decir eso ambos equipos miran primero la normalidad de la muestra y toman, luego, la media y le suman y restan dos veces la DE.

50. Estarían aplicando, ambos equipos, esta regla general que en toda distribución normal la media más menos dos desviaciones estándar cubren el 95% de los valores individuales.

51. Pero si ambos equipos nos dieran un intervalo del 95% de la media sería: (168, 172) el del equipo A y (169, 171) el del equipo B.

52. Porque el intervalo es ahora «de la media». Este intervalo no significa que el 95% de alturas están entre sus límites.

53. Significa que tenemos una confianza del 95% de que la verdadera media poblacional esté dentro del intervalo.

54. Y en este tipo de intervalo de la media el tamaño de la muestra es determinante porque marca la precisión que tenemos para hacer una predicción.

55. Cuanto mayor sea el tamaño de la muestra más precisión y, por lo tanto, más estrecho será el intervalo.

56. Para entender esto hay que profundizar en la noción de variable en Estadística.

57. Una variable cuantitativa es una medida que podemos evaluar a unas entidades determinadas. El peso, la altura, la renta en 2010 son variables que podemos medir a personas.

58. El número de sílabas es una variable que podemos medir a toda palabra del castellano. El número de trabajadores lo es para empresas, etc.

59. Pues bien, algo muy importante: la media muestral es una variable que se puede medir a toda muestra de un tamaño n en una población. Esto es muy importante. Esta noción de media muestral, con su dualidad (el ser un número para una muestra y el ser una variable para el conjunto de todas las muestras posibles), es realmente uno de los temas esenciales de la Estadística.

60. Cuando tomamos una muestra de una población la muestra que tenemos es una de las muchísimas muestras que podríamos tener.

61. Claro que nosotros únicamente tenemos una, pero el número de muestras que hubiéramos podido tener y no tenemos es enorme.

62. Es sorprendente pero en Estadística para sacarle provecho a una muestra debemos pensar no únicamente en ella sino en todo el repertorio de muestras que hubiéramos podido tener y no tenemos. Es como si el significado de lo que tenemos quedara explicitado por todo lo que no tenemos pero que hubiéramos podido tener.

63. Por lo tanto, la media muestral como variable que es tiene media y DE. Si la media muestral es una variable, como toda variable tiene media y desviación estándar, también las tendrá, evidentemente, la media muestral o cualquier estadístico, cualquier descriptor, cualquier estimador que calculemos a una muestra.

64. Media y DE que nunca tendremos realmente pero sí idealmente, teóricamente, conceptualmente; que significa, en Estadística, algo así como aproximadamente. Y no tendremos todas las muestras posibles nunca porque para tenerlas necesitaríamos tener toda la población y si tuviéramos toda la población, evidentemente, no nos haría falta para nada la Estadística.

65. Pues aquí va un concepto muy importante: Si una variable sigue la N(M, DE) la media de esta variable también es una normal.

66. Una normal también con su media y su desviación estándar. Su media es, exactamente, la misma que la de la variable original; o sea: M.

67. Su DE es la de la variable original dividido por la raíz cuadrada del tamaño de muestra: DE/raíz(n).

68. O sea, si una variable sigue una distribución N(M, DE) la media muestral sigue una distribución N(M, DE/raíz(n)).

69. De ahí que la precisión a la hora de construir intervalos de confianza de la media dependa del tamaño de muestra.

70. Cuanto mayor es el tamaño de la muestra, como la n está en el denominador, el cociente DE/raíz(n) es menor.

71. Por lo tanto, los intervalos construidos a partir de esta desviación estándar serán, así, más estrechos, más precisos.

72. Y es muy importante tener en cuenta que ahora el intervalo construido es un intervalo de la media poblacional. Por esto hablamos de intervalo de la media y no de intervalo a secas.

73. Cuando se habla de intervalo sin más, como lo hemos hecho al comienzo de este tema, nos estaremos refiriendo habitualmente a intervalos de valores individuales de la variable estudiada.

74. Es obvio que estamos hablando, pues, de dos tipos de intervalos completamente distintos, aunque, como tales, funcionan igual: creando un intervalo de un determinado nivel de confianza. Pero con objetivos diametralmente distintos, evidentemente.

75. Volvamos al ejemplo de antes. Teníamos dos equipos: el A y el B, estudiando las alturas de una misma población.

76. Los dos equipos trabajaban con distinto tamaño de muestra: el A con tamaño 100 y el B con tamaño 400. Pero los dos tenían igual M y DE.

77. Como las M y las DE son las mismas en ambas muestras, decía antes que el intervalo del 95% de valores que dan es el mismo.

78. Porque ambos equipos modelizan la población de la misma forma: con una distribución normal N(170, 10).

79. Pero veíamos también que el intervalo de confianza del 95% de la media que da cada equipo es distinto: (168, 172) y (169, 171).

80. Veamos cómo calcula cada equipo su intervalo de confianza del 95% de la media.

81. Para el equipo A, DE/raíz(n) vale 10/raíz(100)=10/10=1. Por lo tanto, la media muestral sigue una distribución N(170, 1).

82. Para el equipo B, DE/raíz(n) vale 10/raíz(400)=10/20=0.5. Por lo tanto, la media muestral sigue una distribución N(170, 0.5).

83. Puede entenderse, pues, que si construyen un intervalo de confianza del 95% de la media tomen la media más menos dos DE/raíz(n).

84. El cociente DE/raíz(n) es la DE de la media muestral. A esta DE de la media muestral, vista ésta como variable, se le denomina Error estándar (EE). La relación entre el EE y la DE es la siguiente:

IMG_6927

85. El Error estándar es, por lo tanto, una Desviación estándar, pero se le denomina así para singularizarla. Es una Desviación estándar pero de una predicción: en nuestro caso de la media poblacional, pero podría ser de otro valor poblacional.

86. A toda Desviación estándar de una predicción se le denomina Error estándar. Y lo que tienen todos esos Errores estándar en común es que se trata de una operación donde en el numerador hay una medida de la Desviación estándar de la variable estudiada y en el denominador está de alguna forma contemplado el tamaño de muestra.

87. Por lo tanto, el tamaño de muestra condiciona completamente la magnitud del Error estándar, en cambio no lo hace así con la Desviación estándar de una variable, la cual se debe a las peculiaridades de la distribución de valores de esa variable en la naturaleza.

88. El error estándar es, pues, una DE, pero una DE de la media muestral, una DE que se construye a partir de la DE de la variable original.

89. Se entiende, pues, que el intervalo del 95% del equipo A sea (168, 172) y el del B sea (169, 171), basta con sumar y restar dos errores estándar (EE).

90. El EE que tenía la media muestral del equipo A hemos visto que era 1, de ahí el 170±2: (168, 172).

91. El EE que tenía la media muestral del equipo B hemos visto que era 0.5. Dos veces ese EE nos lleva al intervalo 170±1: (169, 171). A continuación un resumen en forma de tabla de este ejemplo:

IMG_6893

92. Tener muestras más grandes, pues, nos permite construir intervalos más estrechos a la hora de hacer predicciones.

93. Es básico tener en cuenta siempre en Estadística una cosa que es muy importante: Cuando una muestra es grande habrá poca diferencia entre las diferentes muestras que hubiéramos podido obtener pero que no tenemos. Por lo tanto, es más fiable, estamos muy posiblemente más cerca de lo que buscamos, de lo que pretendemos estimar, en estas circunstancia. Por lo tanto, los intervalos que construyamos podrán ser relativamente estrechos.

94. Sin embargo, cuando una muestra es pequeña las diferentes muestras que hubiéramos podido obtener pero que no tenemos son, ahora, muy diversas entre ellas. Evidentemente, lo que calculemos a la que tenemos es, ahora, menos fiable. Es muy posible que estemos considerablemente lejos del valor que queremos pronosticar. Por lo tanto, los intervalos deben ser, en estas circunstancias, mayores, porque tenemos mucha inseguridad en lo que le calculemos a esta muestra.

95. Es, pues, muy importante diferenciar: En ocasiones se dan intervalos de la variación de una variable, como cuando se daba el intervalo (150, 190).

96. En otras ocasiones se dan intervalos de la media como los (168, 172) o (169, 171). Es básico ver esta diferencia. Es fundamental distinguir cuándo tenemos un tipo de intervalo y cuándo tenemos el otro tipo, porque son sustancialmente distintos.

97. Repito: aquí hablo de intervalos de la media, pero deberíamos hablar de intervalos de una predicción. Cualquier predicción va asociada de un tipo de intervalo que representa un intervalo de confianza sobre un determinado valor poblacional y se construye mediante un Error estándar.

98. Iremos viendo, a lo largo de este curso, valores poblacionales que suelen estimarse mediante intervalos de confianza de este tipo: la media, la correlación de dos variables, la Odds ratio, los coeficientes de una regresión entre dos o más variables, etc.

99. Los dos intervalos de confianza más usuales son el de la media y el de una proporción. A continuación vemos cómo se construye un intervalo del 95% de ambos valores poblacionales:

IMG_8047

100. Observemos cómo se aplicaría el segundo de estos intervalos. El primero ya lo hemos visto a lo largo de la exposición del tema. Supongamos que hemos hecho un estudio mediante el cual queremos estimar la prevalencia de la diabetes en España. La muestra, supongamos, que es de tamaño 10000 y que 700 tienen diabetes; o sea, un 7% ó un 0.07, hablando en proporciones, en tanto por uno. Si queremos construir un intervalo de confianza del 95% para estimar la proporción poblacional de diabéticos en España aplicaríamos, entonces, la segunda formulación de la siguiente forma:

IMG_8049

101. Como puede observarse aunque el cálculo se haga en tanto por uno, porque esta es la formulación habitual, al final el intervalo del 95% lo expresamos en términos porcentuales. Estaríamos, pues diciendo que con una confianza del 95% la proporción de diabéticos en España está entre el 6.49% y el 7.51%.

Tema 2: ESTADÍSTICA DESCRIPTIVA

Vídeos que explican el tema:

 

1. La Estadística descriptiva es un importante campo de la Estadística. Su objetivo es, como dice su nombre, describir. Describir la muestra. No pretende ir más allá de la muestra. Se limita a la muestra, a lo que ve.

2. No es una actividad inferencial, no pretende proyectarse más allá de la muestra, no pretende decir cosas de lo que no ve.

3. En las técnicas de comparación y de relación la inferencia, el ir más allá de la muestra sí que será el objetivo básico. En las técnicas de comparación y de relación sí que se tratará de decir cosas poblacionales a través del análisis muestral.

4. La muestra es el punto de partida fundamental de la Estadística, evidentemente. Pero hay dos formas de manejar muestras. Una es ver a la muestra como medio y la otra ver a la muestra como fin.

5. La Estadística descriptiva maneja la noción de muestra como fin. La muestra es aquí la finalidad. La finalidad es calcular descriptores de la muestra, los llamados “estadísticos” (media, mediana, desviación típica, rango, etc).

6. Cada uno de estos descriptores, de estos estadísticos son, pues, cálculos que nos proporcionan perspectivas, miradas, distintas a una muestra.

7. Sin  embargo, en la Estadística que compara y que relaciona, la inferencial, la muestra es un medio. Un medio para ir más allá de ella, para hacer afirmaciones sobre poblaciones, para hacer inferencias acerca de lo que no se ve a partir del análisis de lo que se ve.

8. En la Estadística inferencial se pretende, a partir del análisis de toda la información posible extraída a una muestra, tratar de dibujar elementos poblacionales que se desconocen.

9. Al empezar a plantear los conceptos básicos de Estadística descriptiva es, pues, un paso obligado situar la noción de muestra:

10. Una muestra es un subconjunto de una población. Un subconjunto que, por la forma de tomarla, se pretende que sea representativa.

11. Una muestra es representativa cuando representa a la población a estudiar, cuando es lo más próximo a la población en miniatura.

12. Como la población no la tenemos la representatividad la marca el propio procedimiento seguido para obtener la muestra, su objetividad. La representatividad en Estadística es una noción de representatividad procedimental.

13. La representatividad de una muestra sólo la podemos medir valorando si hemos procedido coherentemente. Evidentemente si pudiéramos decir que una muestra es realmente representativa, que realmente es como la población pero en pequeño, es porque sabemos cómo es la población a la que ella representa. Y si la conociéramos, a la población, no estaríamos haciendo Estadística de ella. Esta es una paradoja que hemos de tener siempre presente al hacer cualquier trabajo estadístico.

14. Es básico utilizar toda la información disponible que nos lleve a una mejor miniaturización de la muestra. Si se sabe, por ejemplo, que en la población hay subpoblaciones, con importantes diferencias entre ellas, la muestra se tomará proporcional.

15. Muestreo proporcional: Dos subpoblaciones de 6000 y 4000 personas. Si se toma una muestra de 100 individuos, se tomarán 60 y 40, respectivamente.

16. Si no se tiene ninguna información de la población a estudiar la opción es coger una muestra al azar. Este es, sin embargo, siempre el último recurso.

17. Una vez se tiene la muestra, se le pueden calcular muchos estadísticos diferentes. Vamos a ir viendo ahora diferentes estadísticos, diferentes descriptores, de una muestra.

18. Cada estadístico, cada cálculo, cada descriptor, capta, numéricamente, un aspecto concreto distinto de la muestra. Empezaremos viendo muestras con valores numéricos (variables cuantitativas) y más tarde veremos lo que podemos hacer con muestras sin valores cuantitativos (variables cualitativas o nominales).

19. La media de una muestra es el descriptor más conocido. Se calcula sumando todos sus valores y dividiendo por el tamaño de muestra.

20. La muestra: (0, 4, 6, 10) tiene una media de 5.

21. La mediana es aquel número que, una vez ordenada la muestra de menor a mayor, la separa en dos partes con el mismo número de valores.

22. En la muestra (0, 4, 6, 10) la mediana es 5. El valor real 5 separa la muestra en dos mitades del mismo tamaño.

23. La media y la mediana pueden ser muy distintas. La muestra (0, 1, 3, 16) tiene una media de 5 y una mediana de 2.

24. En la muestra (0, 1, 2, 6, 50) la mediana es 2. El valor 2 separa a la muestra en dos fragmentos del mismo tamaño.

 25. Si la muestra es de tamaño impar para calcular la mediana se toma el valor central de la muestra ordenada.

26. Si la muestra es de tamaño par la mediana se calcula ordenando la muestra y calculando la media de los dos valores centrales.

27. Ejemplo: (5, 3, 42, 1, 8, 3, 8). La media es 10. Para calcular la mediana se ordena la muestra: (1, 3,  3, 5, 8, 8, 42).  Como es impar se toma el valor central: 5.

28. La mediana es muy usada en medicina. Especialmente al analizar los años de vida después del diagnóstico de un determinado tipo de cáncer.

29. También la mediana es muy usada en economía, al analizar la distribución de la renta de un país.

 30. La muestra: (1, 1, 1, 2, 2, 2, 3, 4, 40, 44) podría ser tanto de años de vida después de padecer un cáncer o de rentas anuales en miles de euros.

31. En la muestra anterior la media es 10 y la mediana es 2. El valor de la mediana refleja aquí mejor un valor de centralidad.

32. La media sufre los efectos de valores extremos, los cuales influyen mucho en su magnitud. La mediana es resistente a esos valores.

33. A la mediana también se le denomina Percentil 50, porque es el valor que divide la muestra en dos fragmentos con el 50% de valores.

34. A partir de esta idea puede construirse un Percentil cualquiera entre 0 y 100.

35. El valor que divide la muestra en dos fragmentos, uno del 25% y otro del 75%, se le denomina Percentil 25.

36. El valor que divide la muestra en un fragmento del 75% y otro del 25% (siempre la muestra ordenada de menor a mayor) es el Percentil 75.

37. Muestra: (1, 3, 5, 9). El Percentil 25 es 2. El 2 separa la muestra en el 25% y el 75%. El Percentil 75 es 7. La mediana, o Percentil 50, es 4.

38. Muestra: (1, 3, 4, 4, 4, 6, 8, 8, 8, 10). El Percentil 10 es 2. El 2 separa la muestra en un 10 y en un 90%. El Percentil 60 es 7. El 90 es 9.

39. Muchas veces más que calcular percentiles a un muestra interesa calcular el percentil de un valor dentro de una muestra.

40. El pediatra cuando mide a un niño les da a los padres el percentil del niño, que es la posición relativa del niño entre los de su edad.

41. Si el niño, en cuanto a la altura, tiene el percentil 67 significa que el 67% de niños de su edad son más bajos que él.

42. Muestra: (3, 5, 7, 11, 15). Alguien que tenga un valor de 8 tiene un percentil de 60. El 60% de la muestra son valores inferiores a 8.

43. La moda de una muestra es el valor que se repite como mínimo dos veces y que ningún otro valor se repite tanto.

44. Si ningún valor se repite o si los que se repiten más veces se repiten el mismo número de veces entonces la muestra no tiene moda.

45. Muestra: (1, 2, 2, 3, 4): La moda es 2. Muestra: (1, 2, 3, 6): No hay moda. Muestra: (1, 2, 2, 3, 3): No hay moda. Debe ser única la moda.

 46. Es cierto que a muestras como la última del apartado anterior a veces se le llama bimodal. Pero lo más habitual es decir que no hay moda.

47. El rango de una muestra es el máximo menos el mínimo. Muestra: (1, 4, 6, 7, 8). El rango es 7.

 48. Al Percentil 25 se le denomina también Primer cuartil. Al Percentil 75, Tercer cuartil.

49. Rango intercuartílico es la diferencia entre el Tercer cuartil y el Primer cuartil.

50. Muestra: (0, 1, 1, 2, 2, 3 ,3, 5). El rango es 5. El rango intercuartílico es 2, porque el Tercer cuartil vale 3 y el Primer cuartil vale 1.

51. El rango es una medida de dispersión, una medida de lo alejados que están los valores de la muestra respecto a la media.

52. El rango como medida de dispersión es pobre, se fija sólo en los valores extremos, no tiene en cuenta al conjunto de la muestra.

53. Veamos dos muestras: (0, 0, 10, 10) y (0, 5, 5, 10). Tienen el mismo rango: 10. Sin embargo, la dispersión de la primera es superior.

54. Necesitamos una medida de dispersión más fina. Uno de los cálculos más importantes de una muestra es la Desviación estándar o Desviación típica.

55. La Desviación estándar (DE) es la medida más fina y la más usada como cuantificación de la dispersión.

56. La DE es la raíz cuadrada del promedio de los cuadradros de las restas de cada valor de la muestra respecto a la media muestral.

57. Esta es la definición de Desviación estándar (DE). A continuación veremos cómo se procede a su cálculo y observaremos cómo este cálculo va reproduciendo la definición pero en orden inverso:

58. Muestra: (0, 5, 5, 10). La media es 5. Las restas de cada valor de la muestra respecto a la media son 0-5=-5, 5-5=0, 5-5=0, 10-5=5. Estas son las desviaciones, respecto a la media, de esta muestra: (-5, 0, 0, 5). Si hiciese la media de estas desviaciones daría 0.

59. Para evitar que la media dé 0 elevamos al cuadrado. En nuestro caso tendríamos: (25, 0, 0, 25). El promedio de estos cuatro valores es 12.5. Este 12.5 es la varianza muestral. La varianza no suele usarse mucho en la práctica. La raíz cuadrada de 12.5 es 3.53. Esta es la DE.

60. Si en lugar de hacer el promedio (dividir por el tamaño de muestra n) de los cuadrados de esas diferencias, dividimos por el tamaño de muestra menos uno (n-1), la DE obtenida se denomina DE corregida. En realidad es la que suele usarse porque tiene mejores propiedades que la DE sin esta corrección.

61. Si se lee, de nuevo, con atención la definición de DE se comprobará que para este cálculo hemos seguido sus pasos.

62. Pero los hemos seguido en orden inverso: primero hemos hecho las restas, luego el cuadrado, luego su promedio (o esta modificación del promedio en la DE corregida) y al final la raíz cuadrada.

63. En la definición de DE el orden es: raíz, promedio, cuadrados, restas. Pero el cálculo es: restas, cuadrados, promedio (o su variante en la DE corregida), raíz.

64. El que se use más la DE que la varianza es porque en la DE al hacerse la raíz cuadrada final volvemos a la escala de nuestros valores.

65. En cambio la varianza, que se queda en el promedio de los cuadrados, es de difícil manejo por el cambio de escala.

66. Cuando tenemos muchos de estos estadísticos, de estos cálculos, de una muestra conocemos mejor cómo se distribuyen sus valores.

67. Si de una muestra tenemos la media, la mediana, diferentes percentiles y la DE sabemos las cosas esenciales de su distribución.

68. De hecho, si sabemos la media y la DE de una muestra, en buena parte sabemos lo esencial de su distribución. Son sus dos descriptores esenciales.

69. Las opciones gráficas también son muy usuales en Estadística descriptiva. Vamos a ver algunas de ellas.

70. Hay un gráfico muy interesante y muy utilizado en Estadística: el Box-Plot. Este gráfico resume muy bien, en poco espacio, unos cuantos estadísticos, unos cuantos descriptores de una muestra.

71. Muestra: (1, 3, 5, 9). El Percentil 25 es 2. El 2 separa la muestra en el 25% y el 75%. El Percentil 75 es 7. La mediana, o Percentil 50, es 4.

72. Los dos extremos del gráfico captan el mínimo (en nuestra muestra: 1) y el máximo (en nuestra muestra: 9) de la muestra. Su resta es el rango (8, en esta muestra). La caja dibujada en el interior empieza en el percentil 25 (en este caso: 2) y acaba en el percentil 75 (en la muestra que nos ocupa: 7). La diferencia entre estos dos valores es el rango intercuartílico (5, en nuestro caso). La línea interior en la caja es la mediana (4, en nuestra muestra). Y el puntito dibujado y resaltado marca la media muestral (en esta muestra es 4.5).

73. Puede comprobarse cómo estos estadísticos calculados a esta muestra se representan bien en el Box-Plot dibujado a continuación:

74. Hay otros gráficos que suelen dibujarse a partir de una muestra. Uno de ellos, muy usual, es el Histograma. Consiste en crear una serie de intervalos en una recta y ver cuántos valores de la muestra caen dentro de cada uno de esos intervalos. Entonces se dibujan rectángulos sobre cada uno de esos intervalos con la base en la propia longitud del intervalo y con una altura tan grande como valores hayan caído en ese intervalo.

75. Otro gráfico de una muestra muy curioso y que es bastante usado, especialmente en Economía y Geografía humana, es la Curva de Lorenz.

76. Se trata de una forma distinta de analizar la dispersión de una muestra. La curva se dibuja en un gráfico de dos dimensiones: en el eje de las abscisas se dibuja el ritmo del acumulado de la cantidad de valores que hay en la muestra y en el eje de las ordenadas el ritmo del acumulado de valores de la variable de la muestra, ordenada ésta previamente de menor a mayor.

77. Para ver cómo es esta curva mejor hacerlo con un ejemplo: Supongamos la muestra: (1, 11, 5, 3). Lo primero que debemos hacer es ordenar la muestra de menor a mayor, quedando entonces: (1, 3, 5, 11).

78. En el eje de las abscisas hemos de ir registrando las cantidades de valores que vamos acumulando en la muestra, en tanto por uno. Con el primer valor tenemos el 25% de los valores muestrales (0.25, en tanto por uno), con el segundo valor tenemos el 50% (0.5, en tanto por uno), con el tercero el 75% (o el 0.75) y, finalmente, con el último valor tenemos ya el 100% (1, en tanto por uno, claro).

79. En el eje de las ordenadas iremos registrando en lugar del tanto por uno de la cantidad de elementos de la muestra, la cantidad acumulada de valor de la variable estudiada. Vemos que la suma de 1, 3, 5 y 11 es 20. Por lo tanto, cuando tengamos el 25% de los primeros valores muestrales; o sea, cuando hayamos acumulado sólo el primer valor, el 1, tendremos acumulado el 5% (0.05, en tanto por uno) de la suma de valores de la variable, porque habremos sumado sólo ese valor de 1, que representa el 5% del total (1 de 20). Cuando tengamos el 50% de valores muestrales habremos acumulado 1+3=4, en cuanto a valores de la variable, que supone un 20% (el 0.2, en tanto por uno) de la cantidad total de la variable (4 de 20). Cuando tengamos el 75% de valores muestrales habremos acumulado 1+3+5=9, en cuanto a valores de la variable, que supone un 45% (0.45, en tanto por uno) de la cantidad total de la variable (9 de 20). Al llegar al 100% de la muestra evidentemente llegamos al 100% (1, en tanto por uno) del total de la variable, por supuesto.

80. Todo esto se expresa, como ya he dicho, tanto en el eje de las abscisas como en el de las ordenadas, en tantos por uno. En el eje de las abscisas se escribe el tanto por uno de cantidad de muestra acumulada y en el de las ordenadas el de la cantidad acumulada de valor de la variable. La curva de Lorenz de esta muestra sería:

81. En la curva de Lorenz suele dibujarse siempre, también, la recta que va del punto (0, 0) al punto (1, 1). Esta sería, en realidad, la hipotética curva de Lorenz que se dibujaría en el caso de que la muestra tuviera todos sus valores iguales; o sea, en el caso de no haber dispersión. En este caso hipotético sería el mismo el ritmo de acumulación de cantidad de valores muestrales y el de acumulación de cantidad de la variable estudiada.

82. Es importante esta curva hipotética porque el área dibujada por esta recta hipotética y la curva de Lorenz de la muestra estudiada, multiplicado por 2, es el famoso Índice de Gini, muy usado en Economía.

83. El Índice de Gini es un valor que va del 0 al 1, que es 0 si todos los valores de la muestra son iguales (si coindice con esa curva hipotética que comentaba antes) y que es 1, el máximo posible, si todos los valores de la muestra son 0 excepto uno. Todo lo acumulado en la variable de la muestra está concentrado en un único valor. En este caso la curva de Lorenz únicamente se levanta al llegar al final de la muestra, se levanta, claro, únicamente al llegar al 100% porque todo está concentrado en el último valor.

84. Como puede verse tanto la curva de Lorenz como el Índice de Gini tienen un uso especialmente dirigido a dibujar y cuantificar aspectos relacionados con la distribución de la renta, de la riqueza, y de aspectos, en definitiva, muy ligados a la Economía. Pero, como casi todo, es perfectamente exportable a otros ámbitos.

85. Hemos visto, pues, que la curva de Lorenz se dibuja con valores en tanto por uno tanto en el eje de las abscisas como en el de las ordenadas y esto es para poder calcular con facilidad el Índice de Gini. Además, en este cálculo hemos visto que se multiplica por 2 el área dibujada por la recta que une el punto (0, 0) y el punto (1, 1) y la curva de Lorenz. Es por este producto por 2 que los valores del índice pueden ir desde el 0 al 1. Pensemos que el área máxima dibujada por la recta y la curva de Lorenz es 0.5 (base 1 multiplicado por altura 1 y dividido por 2).

86. Veamos gráficamente cómo se visualiza el Índice de Gini respecto a la curva de Lorenz:

87. Para acabar, un esquema donde se comparan diferentes muestras. Se trata de muestras muy diferentes entre sí, con muy distinta dispersión. Se ve en él cómo estas muestras quedan representadas por gráficos distintos: Box-Plot y Curva de Lorenz y por descriptores también distintos: Índice de Gini y Desviación estándar.

88. Como puede verse, pues, la Estadística descriptiva consiste en un conjunto de técnicas, de herramientas, que tratan de describir, de resumir, de resaltar aspectos determinados de la disposición de los valores en el interior de una muestra. Aquí va este esquema resumen:

89. Las variables cualitativas o nominales (porque los valores que toma la variable son nombres) tienen poco margen para ser descritas por determinados descriptores. Suele hacerse únicamente un recuento de cada uno de los valores posibles. Este recuento suele hacerse de forma absoluta y de forma relativa; o sea, las veces que aparece en la muestra en total y el porcentaje de veces que aparece en esa muestra.

90. Ejemplo: (hombre, hombre, mujer, mujer, mujer). El valor absoluto de hombre es 2 y el de mujer 3. El valor relativo de hombre es 0.4 ó el 40% y el de mujer es 0.6 ó el 60%. Poco más puede hacerse.

91. El gráfico más usual en variables cualitativas o nominales es el llamado Diagrama de frecuencias. En ocasiones se usa también el llamado Diagrama pastel, donde se observa especialmente el valor relativo puesto que cada valor está representado por una porción del pastel igual al de su valor relativo dentro del conjunto de valores de la muestra.

92. Veamos en el siguiente gráfico un ejemplo de datos posibles de un estudio. Tenemos cuatro variables y 18 individuos. Las cuatro variables son: Sexo, Nacionalidad, Altura y Número de hermanos. Las dos primeras son claramente dos variables cualitativas o nominales. Las otras dos son cuantitativas. Las dos primeras suelen representarse, como puede verse, mediante un Diagrama de frecuencias. La variable Número de hermanos es una variable especial. Es numérica y, por lo tanto, se le puede calcular todo lo que hemos visto para variables cuantitativas: media, desviación estándar, mediana, etc., pero debido a la peculiaridad de tener pocos valores posibles es, digamos, una variables pseudocualitativa y, a veces, este tipo de variables se describen como si fueran cualitativas; o sea, mediante frecuencias absolutas y relativas y mediante Diagramas de frecuencias, como puede verse en el gráfico. Finalmente la variable Altura es una variable que se puede graficar mediante un Box-Plot o mediante un Histograma. Realmente, si se comparan ambos gráficos, puede apreciarse la mayor cantidad de información que porporciona el Box-Plot. El Histograma tiene, además, el problema que dependiendo del número de intervalos que hagamos tendremos formas muy diferentes. Veamos todo esto en el siguiente gráfico:

IMG_5388

93. Finalmente, hay dos medidas de una muestra (la Asimetría estandarizada y la Curtosis estandarizada) que suelen usarse únicamente como formas aproximadas de comprobar la normalidad de la muestra de una variable cuantitativa, como lo veremos en el tema siguiente. Basta ahora decir que si el valor de ambos estadísticos está comprendido entre -2 y 2 podemos suponer que la muestra se ajusta suficientemente bien a la distribución normal.

94. La comprobación del ajuste a la normalidad de una muestra de una variable cuantitativa es importante porque si este ajuste es suficiente dando la media y la desviación estándar estamos dando ya una información definitiva para saber aspectos básicos de la distribución de esa variable. Sin embargo, si este ajuste no es bueno, más que usar la media y la desviación estándar será aconsejable usar la mediana y el rango intercuartílico, como veremos en temas sucesivos.

Tema 1: INTRODUCCIÓN A LA ESTADÍSTICA

1. La Estadística es una ciencia de técnicas. Técnicas analíticas matemáticas, técnicas construidas con material matemático, con el objetivo de ver en unos datos lo que nuestra mirada no es capaz de ver. Con la Estadística aprendemos a ordenar lo que vemos y, además, a dibujar, lo mejor posible, lo que no vemos.

2. En Estadística hay tres tipos de técnicas, que se pueden ver como tres actividades básicas, como tres tipos fundamentales de acciones: Descripción, Relación y Comparación.

3. Descripción: Técnicas donde no se infiere, sólo se mira lo que se tiene: la muestra. A la muestra se le calculan descriptores que capten aspectos relevantes de ella (la media, la mediana, la desviación estándar) y se dibujan, también, gráficos que la resuman. La muestra es el fin, no un medio. No se pretende ir más allá de la muestra.

4. Relación: Técnicas que buscan relaciones entre variables, entre diferentes características medidas a una serie de individuos. Se busca la existencia de relación entre ellas y se pretende establecer relaciones matemáticas que modelicen esa relación.

5. Comparación: Técnicas que comparan poblaciones de individuos. El objetivo es poder hablar de la igualdad o de la diferencia entre esos grupos, entre esas poblaciones.

6. La Relación y la Comparación son técnicas donde se infiere, son técnicas inferenciales. Se pretende ir más allá de la muestra. La muestra ahora es un medio, no un fin. Se pretende desde la muestra sacar conclusiones poblacionales. Tanto en la relación entre variables como en la comparación de dos o más grupos se pretende, partiendo de unas muestras hacer afirmaciones poblacionales, afirmaciones que vayan más allá de lo que se ve, más allá de las muestras que tenemos.

7. En Estadística estamos siempre describiendo, relacionando o comparando. Pero, en realidad, ¿qué hace cualquier científico en su actividad diaria? También describir, relacionar y comparar.

8. Por esto la Estadística puede decirse que es, en buena parte, el lenguaje de la ciencia. Por esto se estudia en prácticamente todas las facultades y escuelas universitarias.

9. Es muy importante situar desde el principio cuál es el papel básico de la Estadística. Y ver la simplicidad que hay detrás de una aparente complejidad.

10. La Estadística es, en realidad, un mundo caracterizado, aunque desde fuera parezca que no, por un paisaje muy homogéneo.

11. Una metáfora musical: Si la Medicina, la Lingüística, la Economía, la Geografía, la Biología, son, cada uno de esos campos del conocimiento, una sinfonía (obras, todas ellas, hechas de movimientos bien distintos), entonces la Estadística es el Bolero de Ravel: un tema que va repitiéndose continuamente, machaconamente. Se van añadiendo nuevos instrumentos, pero el tema es siempre el mismo.

12. Sosteniendo a la Estadística, desde la base, existe un básico paisaje de conceptos del mundo de la probabilidad: especialmente la noción de variable aleatoria, la noción de función de distribución, de modelización matemática. Estos conceptos se verán como complementos de lo que, en realidad, constituye el hilo conductor de la Estadística: la construcción de técnicas para describir lo que vemos en la muestra y para inferir acerca de lo que no vemos en ella; o sea, acerca de la población que hay detrás de la muestra.

13. La Estadística es, también, un trasladar a técnica matemática, un pensar estadístico seguramente tan antiguo como el ser humano. Por eso es un buen camino para comprender esas técnicas, conocer lo que es el pensamiento estadístico.

14. En este curso aprenderemos, pues, a Describir, Relacionar y Comparar, aprenderemos a visualizar un paisaje muy peculiar y muy útil, aprenderemos Estadística.