Archivo del Autor: estadisticallopis

Tema 9: MEDIDAS DE LA RELACIÓN ENTRE VARIABLES CUALITATIVAS

 

1. Cuando hablábamos de la correlación entre variables cuantitativas decíamos que en una correlación hay siempre tres elementos a considerar: el signo, la magnitud y la significación.

2. Al hablar de la relación entre variables cuantitativas poníamos inmediatamente sobre la mesa una medida del grado de esta relación entre esas variables: la correlación. Desde esa medida del grado de relación construíamos toda la visión de esa relación.

3. Sin embargo, al abordar la relación entre variables cualitativas, únicamente hemos hablado de significación. En ningún momento hemos hablado de una medida, de una cuantificación del grado de esa relación.

4. Con las variables cualitativas hemos planteado la técnica de la ji-cuadrado, que es una técnica para valorar la significación de la relación, pero no para medirla, no para cuantificarla. La ji-cuadrado nos dice si hay relación o no, no nos mide la cantidad de relación.

5. En realidad, la ji-cuadrado sí que mide la cantidad de relación entre variables cualitativas, lo que sucede es que lo hace de forma no estandarizada. De una forma que no nos es útil.

6. El cálculo de la ji-cuadrado es un número que es tanto mayor cuanta más relación haya entre las variables y tanto menor, más próximo a cero, cuanto más cerca estemos de la no relación (de la independencia) entre esas variables. Por lo tanto, en este sentido, sí es una medida.

7. Lo que sucede, y esto es importante entenderlo, es que esta medición de la relación no la hace de forma estandarizada. Cada tabla de contingencias tiene, en definitiva, su escala. Cada tabla tiene un ámbito distinto de valores posibles del cálculo de la ji-cuadrado. Y, por lo tanto, nos faltan unas referencias globales que nos valgan para todas las situaciones.

8. El valor del cálculo de la ji-cuadrado en una tabla de contingencias puede oscilar entre 0 y nm, donde “n” es el número total de observaciones en la tabla de contingencias y m = mín (f-1, c-1), siendo “f” el número de filas y “c” el número de columnas y la expresión mín (f-1, c-1) significa que se toma el valor mínimo de los dos incluidos en el intervalo.

9. Por lo tanto, el 0 siempre es el valor mínimo pero el máximo depende tanto del número de observaciones que tengamos como del tipo de tabla de contingencias que tengamos. En una tabla de contingencias de dos filas y dos columnas (2×2) el máximo será, pues, n, porque aquí m vale 1.

10. Usar el valor de la ji-cuadrado, pues, como medidor del grado de relación es como si atendiéramos a la calificación que un profesor pudiera hacer de los puntos que computa a la hora de valorar a un alumno. Un profesor podría valorar en un examen del 0 al 20, otro del 0 al 120, otro del 0 al 78. Según las preguntas que pudiera hacer en un examen.

11. La posible situación planteada nos va bien para entender lo que vamos a explicar a partir de ahora. Porque a pesar de que diferentes profesores puedan puntuar interiormente entre los dos valores que quieran, al final, todos lo transforman a un número del 0 al 10, que es como nos entendemos todos a la hora de valorar las notas.

12. Pues por esto se han introducido diferentes índice que midan de forma estandarizada el grado de relación. Y esto es lo que vamos a explicar a partir de ahora: algunos de los índices propuestos y los criterios seguidos, por cada uno de ellos, para esta estandarización.

13. Observemos, en primer lugar, cómo en las siguientes tablas de contingencias podemos ver cómo de izquierda a derecha va aumentando el grado de relación entre ambas variables cualitativas. Pasamos de una no relación, a la izquierda, a una relación cada vez mayor, hacia la derecha:

IMG_4341

14. Para cuantificar el distinto grado de relación entre variables cualitativas se manejan distintos índices. Pero ninguno ha conseguido alcanzar el nivel de universalidad que ha obtenido el coeficiente de correlación de las variables cuantitativas.

15. Vamos a ver tres de esos índices: la V de Crámer, el Kappa y la Odds ratio. Podríamos ver otros pero estos son los más usados.

16. La V de Crámer:

IMG_5759

17. La V de Crámer cuantifica entre 0 y 1 el grado de relación. Desde la posición de la total independencia entre las variables y la total dependencia, nos movemos entre estos dos números. Observemos, en el gráfico siguiente, cómo es su cálculo, en dos tablas distintas:

IMG_4342

18. Sin embargo, observemos que la V de Crámer no proporciona valores distintos en dos tablas diferentes como las siguientes:

IMG_4345

19. La V de Crámer no distingue estas situaciones. No distingue algo así como un signo en la relación (usando como elemento comparativo el signo de la correlación: el positivo y el negativo, que marca relación directa o inversa entre variables cuantitativas). Cosa que sí hace la Odds ratio, como veremos después extensamente.

20. El índice Kappa es otra medida del grado de relación entre variables cualitativas. Es utilizado para cuantificar el grado de concordancia que hay entre dos observadores. Puede también evaluarse la concordancia de un observador consigo mismo en pruebas denominada Test-retest.

21. Las tablas de contingencias que se dan en estos casos son tablas cuadradas; o sea, con el mismo número de filas y columnas, donde las categorías fila y las categorías columna son las mismas y donde lo que interesa es evaluar que los valores estén lo más articulados en la diagonal donde coinciden las valoraciones de un y otro observador.

22. Veamos en el siguiente gráfico las peculiaridades de este índice. Pensemos que aquí tenemos una única variable con tres categorías, en este caso (A, B y C), y dos observadores. Los valores de las celdas son las frecuencias de las combinaciones de las categorías de uno y otro observador a la hora de asignar valores a la variable cualitativa estudiada a ejemplares distintos:

IMG_4347

23. El índice Kappa calcula el grado de concordancia. Cuanto mayor concordancia más próximo a 1 y cuanta menor concordancia mayor cercanía a 0. En el cálculo usado si la discordancia es muy grande puede dar un índice incluso negativo. En el gráfico anterior es evidente que la tabla de la izquierda muestra dos observadores muy concordados y la de la derecha, por el contrario, muestra dos observadores muy mal concordados. La tabla de la derecha muestra independencia entre los dos observadores. La de la izquierda además de mostrar dependencia marca una buena concordancia. Lo ideal es que todos los valores estén en la diagonal que va de arriba a abajo.

24. Vamos ahora a centrarnos en otro índice para cuantificar la relación entre variables cualitativas. Se trata de un índice muy usado especialmente en Medicina: la Odds ratio (OR). A pesar de ser un índice muy usado en Medicina, en realidad, se trata de un concepto matemático exportable a cualquier ámbito.

25. Vamos a verlo aplicándolo a un tipo de estudios llamados Caso-Control, los cuales analizan individuos que tienen una determinada patología (Casos) y otros que no la tienen (Controles).

26. Supongamos que queremos ver la relación de esa patología con un factor concreto o con la exposición a un determinado riesgo. Para ello se separan cuántos de los casos y de los controles han estado expuestos y cuántos no. Por ejemplo: cáncer de pulmón y exposición al tabaco (fumador).

27. Utilizaré el siguiente código: casos (CA), controles (CO), expuestos (E) y no expuestos (NE).

28. Veamos la siguiente tabla de contingencias:

IMG_4351

29. Observemos primero que si aplicáramos una ji-cuadrado tendríamos un caso de relación significativa: hay relación entre la exposición o no y el ser caso o control.

30. Entre los expuestos tenemos un cociente CA/CO de 50/10; o sea, un cociente de 5. Entre los no expuestos este cociente es (40/80) = 0,5.

31. Esto significa que entre los expuestos hay cinco veces más CA que CO y entre los no expuestos hay la mitad de CA que de CO ó 0,5 veces.

32. Vamos a hacer, ahora, el cociente CA/CO de los expuestos respecto al CA/CO de los no expuestos; o sea: ((CA/CO) de E) / ((CA/CO) de NE). Es posible que nos ayude a ver mejor el cociente de la OR el siguiente gráfico:

IMG_5760

33. Estaremos estimando, así, cuántas veces la relación CA/CO entre los expuestos  (a/b, en este esquema) está contenida en la relación CA/CO entre los no expuestos (c/d, en este esquema.

34. La OR es justo este cociente. Si OR = 1 significa que numerador y denominador son iguales y, por lo tanto, el cociente CA/CO es igual entre los expuestos y los no expuestos.

35. Cuanto más distinto de 1 sea la OR querrá decir que hay más relación; o sea, que el cociente CA/CO es distinto entre expuestos y no expuestos al factor estudiado.

36. Si es mayor que 1 querrá decir que la exposición al riesgo acarrea más proporción de enfermos.

37. Por el contrario, si la OR es menor que 1 tendremos que pensar que esta exposición más bien protege de la adquisición de tal patología. Por lo tanto, como vemos perfectamente, la OR distingue situaciones donde hay inclinación hacia un lado u otro de la tabla de contingencias, cosa que, como hemos visto antes, no distinguía la V de Crámer.

38. Pero observemos esta otra situación:

IMG_4352

39. Observemos que es como la tabla de contingencias anterior pero eliminando un cero en las cuatro situaciones posibles. O sea, tenemos la misma relación entre numerador y denominador del índice OR, pero con una muestra mucho más pequeña.

40. Por lo tanto, la OR será la misma. Calculémosla en ambos casos: En la tabla 1 es (5/0,5)=10. Y ahora, en la tabla 2, es la misma: 10.

41. Pero, ¿cuál es la diferencia? La significación, por supuesto. En la tabla 1 la OR es significativa, en la tabla 2 no es significativa.

42. Si hacemos un contraste de hipótesis lo comprobamos. El contraste es ahora: H0: OR=1, H1: OR<>1. En la muestra de la tabla 1 el p-valor es 0,0005. Por lo tanto, rechazamos la H0 y aceptamos H1, por lo tanto podemos decir que esta OR de 10 es significativa, es fiable, es estable.

43. En la muestra de la tabla 2 el p-valor es 0,067. Ahora la OR a pesar de ser la misma que antes; o sea, 10, no es una OR significativa, con la información de que disponemos se trata de una OR no es fiable, no es un valor estable, está demasiado abierto todavía.

44. El tamaño de muestra es decisivo, como siempre. El tamaño de muestra en Estadística es clave. Es muy importante, es clave a la hora de tomar decisiones en Ciencia.

45. Vamos a recuperar ahora la noción de intervalo de confianza. Una noción muy usada a la hora de hacer predicciones.

46. Recordemos que al hacer una estimación de un valor poblacional a través de un cálculo muestral podemos construir un intervalo de confianza de la estimación.

47. En general, esta estimación, dependerá de dos cosas: de la dispersión y del tamaño de muestra.

48. La dispersión alta crea intervalos amplios y el mayor tamaño muestral crea intervalos más estrechos.

49. La dispersión de una estimación depende siempre de un cociente donde en el numerador tenemos la dispersión de la variable con la que estamos trabajando y en el denominador tenemos, en alguna forma, el tamaño de muestra. Es, recordemos, la noción de Error estándar, siempre presente en la estimación de algún valor poblacional.

50. Recordemos que en el Tema 3 vimos que la Desviación estándar (DE) de la media muestral de una variable normal con una Desviación estándar DE, era DE/raíz(n).

51. En el numerador tenemos la DE de la variable de trabajo y en el denominador una forma del tamaño muestral: su raíz cuadrada.

52. Pues bien, la OR que calculamos a través de una muestra expresada en una tabla de contingencias también tiene su intervalo de confianza.

53. Intervalo que será más estrecho cuanto mayor sea el tamaño muestral. Vamos a calcular un intervalo de confianza de la OR en las dos tablas que estamos manejando.

54. Retomemos la tabla 1. Decíamos que OR=10 y que el p-valor era 0,0005, por lo tanto significativa.

55. En esta tabla un intervalo de confianza del 95% de la OR es el siguiente: (4.59, 21.76).

56. Tenemos una confianza del 95% de acertar. El verdadero valor poblacional de OR está entre 4.59 y 21.76. En cualquier caso, por encima de 1.

57. Por eso es significativa esa OR porque la probabilidad de que el verdadero valor sea 1 o menor que 1 es muy pequeña.

58. Hay, por lo tanto, una sintonía entre el p-valor del contraste de hipótesis y mirar si intervalo de confianza del 95% contiene al 1.

59. Es lógico: si el intervalo contiene al 1 es que este valor es posible que sea el real, luego no es significativa la OR calculada.

60. Tomemos ahora, de nuevo, la tabla 2. La OR era también 10, el p-valor era, recordémoslo, 0,067.

61. O sea, este p-valor nos dice que este valor de 10 de OR no es significativo. Recordemos que la frontera de la significación está en el 0,05 y 0,069>0,05.

62. El intervalo de confianza del 95% de la OR es, ahora, (0.85, 117.02). Muy amplio, claro, porque el tamaño de muestra es muy pequeño.

63. Pero, además, observemos que el intervalo contiene al 1. El valor de OR=1 es posible perfectamente.

64. Por esto, ante una tabla así, aunque la OR sea grande (10 en este caso), se trata de un valor no fiable, que puede ser atribuible al azar del muestreo.

65. De nuevo hay coherencia entre lo que nos dice el p-valor del contraste de hipótesis y lo que nos dice mirar si el 1 está en el intervalo.

66. Obsérvese que la OR funciona un poco como la correlación.

67. Decíamos que de una correlación interesaban tres cosas de ella: signo, magnitud y significación.

68. Pues en la OR, de forma paralela, interesa si es mayor o menor que 1 (porque ya hemos visto que una cosa y la otra tienen significados completamente opuestos), interesa también la magnitud y la significación.

69. Un apunte final: A veces, ante situaciones de este tipo, en lugar de la OR se calcula el Riesgo relativo (RR). Es un cálculo bastante similar, especialmente es muy similar si hablamos de patología con baja prevalencia, con bajo porcentaje de afectados. En todo caso, a continuación incluyo el cálculo de ese RR para poderlo comparar con la OR:

IMG_5761

70. Observemos que ahora lo que se hace es comparar los Casos no respecto a los Controles sino respecto a la suma de los Casos+Controles.

La distribución normal

Gauss, que era un matemático genial, tuvo una extraordinaria intuición: en la naturaleza muchas cosas se distribuyen de forma simétrica respecto a un valor central y cuanto más se alejan de ese centro menos densidad de valores hay. Y creó una función de las más importantes de la historia de las matemáticas: la Distribución normal, o también conocida como campana de Gauss. (Si se quiere ver la situación de la Distribución normal dentro del contexto de otras funciones de distribución consultar el artículo Funciones de distribución).

La Distribución normal tiene una propiedad muy importante: Si a una variable con una Distribución normal cualquiera se le resta su media y se la divide por su desviación estándar se transforma en una Distribución normal con media 0 y con Desviación estándar igual a 1. Es la llamada Distribución normal estándar. Y a este procedimiento, a esta transformación de una normal cualquiera en una única y común distribución, la N(0, 1), se le denomina “estandarización” o “tipificación”.

IMG_4314

Al restar por su media la normal se desplaza, rígidamente, sin cambiar su forma, sin cambiar su dispersión, hasta situarse sobre el cero. Al dividir por la Desviación estándar (DE) lo que hacemos es comprimirla (si la DE de partida es mayor que 1) o expandirla (si la DE de partida es menor que 1). En el gráfico adjunto se pueden ver estos dos actos: el de desplazamiento y el de compresión.

IMG_4260

Esta propiedad de la Distribución normal nos permite calcular el área de cualquier de una de ellas mediante una única tabla, la de la Normal N(0, 1).

¿Y cómo funciona la tabla de N(0, 1)?

Hay de muchos tipos de estas tablas. Todas deben usarse sabiendo dos cosas básicas: Que el área que hay debajo de la campana es 1 y que la distribución de áreas es simétrica respecto al valor donde está el punto medio.

Voy a explicar cómo se utiliza una de estas tablas. La tabla adjunta tiene unos valores referencia en la primera columna y en la primera fila. En la primera columna los valores son 0.0, 0.1, 0.2, y así sucesivamente. En la primera fila son 0.00, 0.01, 0.02, y así sucesivamente. Las áreas en esta tabla se dan siempre hacia la izquierda del número de referencia elegido. Cuando en una N(0, 1) se quiere buscar un número para encontrar el área debe elegirse la combinación de un número de la primera columna con un número de la primera fila, sumándolos.

Practiquemos: Si quiero calcular el área que hay, bajo la campana, a la izquierda de 1.43, debo buscar en la primera columna el 1.4 y en la primera fila el 0.03. De esta forma sumo estos dos valores tengo 1.43. En la celdilla intersección de tal columna con tal fila encontramos el valor de tal área: 0.9236. Esta es el área a la izquierda de 1.43, el área desde menos infinito hasta 1.43 bajo la distribución N(0, 1).

Si quiero calcular, ahora, el área a la izquierda de 0.82 debo buscar en la primera columna el 0.8 y en la primera fila el 0.02, así al sumar tengo 0.82. En la celdilla intersección de tal columna con tal fila encontramos el valor de tal área: 0.7939.

Observemos que los valores empiezan en el punto 0.0. Esto es con finalidad de ahorrar espacio. Porque al ser el área bajo la campana de 1 y a partir de la propiedad de simetría podemos calcular cualquier área. Veámoslo: Supongamos que queremos calcular el área a la izquierda del valor -1.13, debemos buscar el área a la derecha de 1.13 porque es la misma. Y para encontrarla hay que buscar el área a la izquierda de 1.13 y calcular 1 menos esa área. Jugando con esta idea se puede calcular cualquier área.

Si se quiere encontrar el área dentro de un intervalo, por ejemplo entre 0.23 y 1.12, buscamos el área a la izquierda de 1.12, el área a la izquierda de 0.23 y las restamos. Las restamos porque al área a la izquierda de 1.12 hay que restarle el área a la izquierda de 0.23, de esta forma estaremos calculando el área que hay desde 0.23 a 1.12.

Y, así, sabiendo utilizar las propiedades de la Distribución normal comentadas: área 1 y simetría, puede calcularse cualquier área.

Hay un detalle que es importante destacar. Ahora que ya sabemos manejar la tabla de la Normal hemos de decir que cuando decimos aquello de media más menos una Desviación estándar (DE), más menos dos DE o más menos tres DE, cubren el 68.5, 95 y 99.5% podemos comprobar que estos valores son aproximados, no son exactos. Se fijan estos tres números porque son muy próximos y son más fáciles de retener en la memoria. En realidad, si lo calculamos exacto desde -1 hasta +1 en la N(0, 1) sería exactamente: 0.8413-0.1587=0.6826; por lo tanto media más menos una DE es exactamente un 68.26%. Si miramos la tabla podremos comprobar que desde -2 hasta 2 hay un área un poco superior al 95%, y que si queremos crear un intervalo exactamente del 95% deberíamos crearlo mediante la media más menos 1.96 Desviaciones estándar porque desde -1.96 hasta 1.96 se da exactamente un área de 0.95. Respecto al intervalo formado por la media más menos tres DE el área es: 0.99865-0.00135=0.99730; o sea, del 99.7%.

IMG_4261

Para ver problemas de aplicación de la distribución normal y ver su relación con otras distribuciones puede consultarse el artículo Funciones de distribución. Allí se verá, entre otras cosas, cómo la distribución normal se puede usar para aproximar a distribuciones como la Binomial o la Poisson.

La significación estadística

La noción de significación, en Estadística, significa algo así como fiabilidad. Un resultado significativo es un resultado por el que podemos apostar. Ante una afirmación estadísticamente significativa podemos pensar que si volviésemos a hacer lo mismo, si volviésemos a empezar todo lo que habíamos hecho y que nos ha llevado a tales afirmaciones, y lo hiciésemos en las mismas circunstancias, pero con otra muestra, acabaríamos diciendo algo similar, algo equivalente.

Podemos pensar, pues, que estamos ante una muestra tipo, ante una buena muestra de muestras, una muestra representativa del conjunto de muestras que hubiéramos podido tener.

Una afirmación si es estadísticamente significativa representa que la Estadística cree en este resultado, cree que es muy poco probable que sea fruto del azar del muestreo. Si una técnica estadística duda de la representatividad de un muestreo dice: «esto no significativo».

La significación estadística se mide mediante el p-valor. Éste es un valor que va del 0 al 1, con dos sectores bien diferenciados: del 0 al 0,05 y del 0,05 al 1. Una metáfora posible, en esta situación, es la de las notas: En nuestro sistema educativo las notas van del 0 al 10, y es bien distinto el sector de notas que va del 0 al 5 que el que va del 5 al 10. Esto mismo sucede con el p-valor. La frontera del 0,05 en el p-valor es, en cierto modo, equivalente al 5 en las notas. Pero cuidado: 0,05, no 0,5.

Por ejemplo: Una correlación será significativa si su p-valor es inferior a 0,05. Si no es significativa hemos de presuponer que r = 0. Siguiendo la metáfora de las notas, es como si se examinara la afirmación r = 0: si el p-valor es igual o superior a 0,05 aprueba, si el p-valor es inferior a 0,05 suspende, decidimos, entonces, que la r no es 0 y nos quedamos con el signo y la magnitud de la r calculada. De esta forma podemos decir que una r = 0,8 con un p-valor de 0,26 es, en realidad, una correlación más baja que una r = 0,4 con p = 0,001. Porque, en este caso, la r = 0,8, al no ser significativa, no podemos fiarnos de ella. Puede ser un efecto del azar del muestreo. Esto quiere decir que de la misma forma que en esta muestra hemos calculado una r = 0,8 en otra muestra tomada en las mismas condiciones podríamos tener r = -0,8. Por eso ante esta posibilidad la técnica estadística nos dice: “Ante la duda mejor afirmar que no hay relación; o sea, que r es igual a 0”.

Al basarse la decisión en un número entre 0 y 1 y en una frontera (0,05), el paralelismo con la enseñanza es claro: En la enseñanza, en España, las notas son un número del 0 al 10, con una frontera muy clara en el 5. Como puede verse la frontera en el p-valor está relativamente mucho más a favor del aprobado. Esto es para que cuando suspenda r = 0 tengamos muy pocas posibilidades de errar. Observemos que el margen de la afirmación r = 0 es muy amplio (0,95). Esto es lo que permite hablar de «significativo» cuando suspende. Por eso, entonces, hablamos de correlación significativa. Porque le hemos dado mucho margen a r = 0 y acabamos viendo que no es coherente mantener esta afirmación a la luz de lo que estamos viendo en la muestra que tenemos.

La significación tiene mucho que ver con el tamaño de muestra. Si ese tamaño es pequeño es difícil que la Estadística se fíe de ella. Las muestras de tamaño pequeño son muy imprevisibles porque las diferentes muestras posibles son muy diversas entre ellas. En muestras grandes hay mucha homogeneidad entre las diferentes muestras posibles. Por eso será más fiable lo que una de ellas diga.

Entender este razonamiento es fundamental en Estadística. Estamos abordando, con esto, en realidad, el núcleo básico de la Estadística.

En Estadística a todo esto que estamos viendo le denominamos «Contraste de hipótesis». Vamos a ver, ahora, la terminología que usamos. En Contraste de hipótesis se habla de Hipótesis nula: H0, y de Hipótesis alternativa: H1. Y de que hemos de decidirnos por una u otra. La decisión no es como cuando compramos una camisa poniendo una al lado de la otra para ver cuál nos gusta más. La H0 parte como cierta y sólo nos decantaremos por la H1 si la H0 es absurdo mantenerla viendo lo que vemos en la muestra. Por eso H1 se le denomina alternativa, porque es la alternativa de la nula cuando no es lógico mantenerla tras analizar la muestra. En todo lo visto con la correlación podemos ahora conectar: H0 es r = 0 y H1 es r distinta de 0. El p-valor es el criterio objetivo basado en el análisis de la muestra que nos permite decidirnos por mantener H0 o pasarnos a la alternativa, a H1.

Esta lógica de funcionamiento es el tema nuclear de casi todas las técnicas estadísticas.

Siempre digo que la estructura de la Estadística es como la del Bolero de Ravel: un mismo tema que va repitiéndose machaconamente. El tema machacón del Bolero de Ravel de la Estadística es esta noción de contraste de hipótesis y el p-valor como criterio de decisión.

Tanto en las técnicas de relación como en las técnicas de comparación las decisiones se acaban tomando planteando un Contraste de hipótesis y decidiéndose en base a un p-valor obtenido valorando la información que tenemos en la muestra. Son afirmaciones muy distintas las que se hacen en los diferentes contrastes de hipótesis pero el procedimiento de decisión se basa siempre en el mismo formalismo. Se analiza la muestra, o las muestras, y en base a una serie de criterios (tamaño muestral, dispersión y magnitud de una serie de cálculos) se mantiene la H0 o se pasa a aceptar la alternativa, la H1.

El paralelismo de la Estadística con el mundo judicial es sorprendente. En un juicio también hay dos hipótesis a contrastar: inocencia y culpabilidad. Y las dos no parten paralelas. Una parte como cierta: la inocencia («presunción de inocencia»), y sólo si durante el juicio, mediante las pruebas y testigos, se ve que la inocencia no se puede mantener se pasará a la culpabilidad.

En Estadística podemos decir que existe la presunción de no relación entre las variables. Presunción de r = 0, de a = 0, de b = 0. Y más tarde, cuando veamos las técnicas de comparación hablaremos de la presunción de igualdad de medias, de proporciones, de varianzas, etc. Únicamente si es incoherente mantener esas presunciones, a la luz de la muestra (nuestras pruebas y testigos), diremos que hay relación. Pero cuando lo hagamos, cuando digamos que hay relación, o que hay diferencias de medias o de proporciones, como lo habremos hecho tras darle mucho margen de confianza a la presunción de no relación, o a la de igualdad, podemos decir que aquella relación es significativa, es fiable, que existen pocas posibilidades de que no sea así.

En el fondo los estadísticos somos un poco como el Tribunal constitucional. El Tribunal constitucional tiene como objetivo básico analizar las leyes y acabar dictaminando si se adaptan o no a la constitución. Al final sus sentencias son, en esencia, decir «constitucional» o «no constitucional». Y lo que dice este tribunal es la última palabra. Con la Estadística sucede un poco lo mismo. Analiza unos datos y acaba dando un veredicto: «significativo» o «no significativo». Y la comunidad científica está muy pendiente de estos veredictos, por su fundamental trascendencia. Podemos decir algo así como que la Estadística es el Tribunal de la significación de la ciencia.

El diagnóstico de la osteoporosis como ejemplo de impregnación de un concepto estadístico

Un ejemplo extraordinario para ver cómo los conceptos estadísticos pueden impregnar a otras materias lo encontramos, en Medicina, en el diagnóstico de la Osteoporosis.

Para el diagnóstico de esta importante enfermedad ósea se usa la densitometría ósea. Esta prueba suele hacerse en la región lumbar y en el cuello del fémur. Los resultados de tal prueba se suelen presentar mediante dos valores: La T y la Z. Se trata de dos valores que miden, mediante un mecanismo conceptual estadístico, la posición relativa de la densidad ósea de una persona respecto a una determinada población de referencia.

La T mide la posición relativa de los valores de una persona determinada respecto a los de una población de personas jóvenes (20 a 29 años) del mismo sexo.

La Z mide lo mismo que la T pero la población de referencia es, ahora, la formada por una población de la misma edad y del mismo sexo que la persona analizada.

Pero, ¿cómo se mide esta posición relativa? Porque podría hacerse de formas distintas. Por ejemplo, en Pediatría, la altura, el peso o el perímetro craneal de un niño también se expresa como posición relativa respecto a una población de referencia, pero en este caso se expresa siempre en forma de percentiles.

En Osteoporosis esta posición relativa se mide de una forma sorprendente, se mide en unas unidades un tanto especiales: en desviaciones estándar. En desviaciones estándar respecto a la media. Distinguiendo no sólo la distancia a la media en estas unidades sino mediante el signo positivo o negativo según ocupe una persona una posición por encima o por debajo de la media del grupo de referencia.

Por ejemplo, si la variable de densidad ósea estudiada sigue, en la población de referencia, una distribución N(0.6, 0.1), entonces si una persona tiene un valor de 0.4 de densidad ósea, tiene -2 desviaciones estándar (DE), porque como la DE de la población es 0.1, esta persona respecto a la población está en una posición por debajo de la media, que es 0.6, y en concreto a su valor (0.4) se llega restándole a la media 2 DE. Una persona que tuviera un valor de 0.7 estaría en una posición de +1DE. Porque de 0.6 a 0.7 se llega sumando 1 DE.

Por lo tanto, la T y la Z es justo esto: la posición de la persona respecto a la población de referencia expresado en estas unidades tan especiales: en desviaciones estándar por encima de la media (positivas, entonces) o en desviaciones estándar por debajo de la media (negativas, entonces).

La diferencia entre la T y la Z está únicamente en cuál es la población de referencia. Lógicamente una persona mayor tendrá una T más baja (más negativa o menos positiva) que la Z, porque en la T se la compara con jóvenes y en cambio en la Z se la compara con personas de su misma edad. Y con la edad se tiende a perder densidad ósea. En cambio, en una persona joven, entre 20 y 29 años, la T y la Z deben coincidir porque la población de referencia es la misma.

Tomando la T, como valor de diagnóstico fundamental, suele decirse que una persona tiene Osteopenia si su valor está entre -1 y -2.5, y que tiene Osteoporosis si su T es menor que -2.5.

Los Nobel y el chocolate

Reproduzco un fragmento y un gráfico de una revista médica muy prestigiosa (The New England Journal of Medicine): “There was a close, significant linear correlation (r=0.791, P<0.0001) between chocolate consumption per capita and the number of Nobel laureates per 10 million persons in a total of 23 countries”.

Curioso, ¿no?

553378_10151117279243462_1197622715_n

Solución Situación 1

La solución es la que se ve en el esquema adjunto. Se añade también, ahora, una curva de Lorenz hipotética de cada país. El reparto de la riqueza es bien distinto en cada uno de estos tres países. Más igualitario Suecia y muy desigual Etiopía. Grecia está en una posición intermedia. Es importante ver cómo el Box-Plot y la curva de Lorenz, cada uno a su manera, dibuja esta distinta distribución de la riqueza que hay en los tres países:

Tema 8: RELACIÓN ENTRE VARIABLES CUALITATIVAS. EL TEST DE LA JI-CUADRADO

Los siguientes vídeos explican el tema 8:

1. Hasta el momento hemos dedicado prácticamente todo nuestro curso de Estadística a hablar de variables cuantitativas.

2. Hemos de dedicar ahora un espacio a las variables cualitativas, a sus peculiaridades descriptivas, a ver cómo se valora la relación entre variables cualitativas, a evaluar la cuantificación de esa relación, a evaluar la significación de esa relación.

3. Una variable es cualitativa, o categórica, o nominal, cuando los valores que toma la variable son cualidades o categorías, o nombres. Por ejemplo: la variable sexo (Hombre, Mujer), la variable tener o no una determinada patología, etc.

4. Muchas veces ciertas variables cuantitativas se convierten en cualitativas, se categorizan. Por ejemplo, la variable cuantitativa edad. Supongamos que creamos los siguientes grupos de edad: menores de 16 años, entre 16 y 65 años y mayores de 65 años. Estamos creando tres categorías a partir de una variable cuantitativa como la edad. Esto es frecuente en sociología, economía, etc. O cuando en Medicina decimos: Valores iguales o menores de 140 de Presión sistólica: «Bien controlado». Y valores mayores de 140 de dicha presión: «Mal controlado». Estamos, también, transformando en cualitativa una variable cuantitativa.

5. Al final del tema dedicado a la Estadística descriptiva hemos comentado lo poco que dan de sí, desde el punto de vista descriptivo, estas variables. Recordémoslo.

6. Con las variables cualitativas suele hacerse un recuento de cuántos casos tenemos de cada una de las categorías posibles (frecuencias absolutas) o un tanto por ciento o un tanto por uno de lo que supone cada una de las categorías dentro del conjunto de categorías posibles (frecuencias relativas) y suele hacerse, entonces, un Diagrama de frecuencias o un Diagrama pastel para graficas esos valores.

7. Vamos a ver ahora cómo evaluar la relación entre variables cualitativas. Nos centraremos en variables dicotómicas (con dos valores posibles) pero los conceptos que veremos a continuación son fácilmente exportables a variables cualitativas con más de dos valores posibles.

8. Supongamos que queremos evaluar la relación entre la variable sexo y la variable tener o no una determinada enfermedad. Se trata evidentemente de dos variables cualitativas.

9. Se trata, además, de dos variables cualitativas con dos valores posibles en cada una de ellas (variables dicotómicas). La variable Sexo: Hombre o Mujer. Y la variable Enfermedad: Sí la tiene o No la tiene.

10. Supongamos los siguientes datos:

IMG_4381

11. Tenemos, pues, una muestra con 60 hombres enfermos y con 40 que no. Y tenemos, también, en la muestra 20 mujeres enfermas y 80 que no. A partir de estos valores, ¿podemos decir que están relacionadas estas variables?

12. A los datos de dos variables cualitativas expresados en frecuencias absolutas, en una tabla como esta, se le denomina «tabla de contingencias».

13. Vamos ahora a analizar una tabla de contingencias como ésta y, así, detectar si hay relación entre la variable sexo y la variable tener o no esa enfermedad.

14. Para evaluar esta relación vamos a suponer que en lugar de estos datos tuviésemos estos otros:

IMG_4382

Y, ahora, comparemos las dos tablas de contingencias. ¿Qué diferencias hay?

15. Si comparamos las dos tablas de contingencias podemos ver que en esta última no hay en absoluto indicios de relación.

16. No hay relación en esta tabla porque en hombres y en mujeres hay una proporción muy similar de enfermos y de no enfermos.

17. Sin embargo, en la primera tabla la proporción de enfermos y no enfermos es muy distinta en hombres y en mujeres.

18. Esta diferencia de proporciones es lo que hace pensar que en la primera tabla sí que hay relación, que esa enfermedad no se presenta independiente al sexo, sino que hay asociación, que hay una relación en los datos de aquella tabla.

19. La técnica de la ji-cuadrado es la técnica estadística más utilizada para analizar la relación de variables cualitativas expresadas en forma de tablas de contingencia.

20. La ji-cuadrado es una técnica que dictamina, objetivamente, si la muestra obtenida permite pensar en una relación significativa entre las variables cualitativas o si, por el contrario, las diferencias de proporciones que se ven son atribuibles al azar del muestreo y no son unas diferencias sólidas y fiables.

21. De nuevo nos encontramos, por lo tanto, con el dilema, ya visto con la correlación entre variables cuantitativas, de decidirnos entre la no relación y la relación entre variables. Lo que ahora debemos adaptarnos a un formato de datos bien distinto, pero el problema es completamente equivalente.

22. Y en esta decisión el tamaño de muestra, como siempre en Estadística, tiene un papel decisivo.

23. Observemos, ahora, las dos tablas de contingencias siguientes:

IMG_4383

24. La diferencia de proporciones entre hombres y mujeres, respecto a la proporción de los que tienen la enfermedad o no la tienen, es la misma en ambas tablas, porque la única diferencia que hay entre ellas es el cero de más que tienen los valores de la primera tabla.

25. Sin embargo, en el primer caso hay más posibilidades de ser significativa la relación que en el segundo.

26. El pequeño tamaño muestral del segundo caso le genera, como siempre en casos así, desconfianza a la técnica estadística y, por esto, acaba dando el veredicto de no significación.

27. En el contraste de hipótesis que formaliza la decisión sobre la relación entre variables cualitativas la Hipótesis nula es H0: Variables independientes (no relacionadas) y la Hipótesis alternativa es H1: Variables relacionadas.

28. Hay, por lo tanto, presunción de independencia. Y un gran margen de confianza para esa independencia.

29. Este gran margen de confianza por la Hipótesis nula, como siempre, nos permitirá estar confiados con la Hipótesis alternativa cuando nos veamos obligados a rechazar la afirmación de la nula por falta de coherencia entre lo que vemos en la muestra y lo que dice tal hipótesis.

30. La ji-cuadrado como técnica para evaluar la relación entre variables cualitativas es muy útil en muchos campos.

31. Por ejemplo, en las encuestas sociológicas para ver si hay relación entre dos ítems (preguntas) diferentes.

32. En el mundo de la Medicina es muy usual comparar exposición o no a un riesgo y la presencia o no de una determinada patología.

33. Por ejemplo, fumador y no fumador como exposición a un riesgo y tener o no cáncer de pulmón.

34. Hemos visto ejemplos con variables con dos valores posibles, pero las variables pueden tener más de dos valores posibles, por supuesto.

35. Es interesante comparar lo que estamos haciendo aquí y lo que hemos hecho en el Tema 5 con la correlación de variables cuantitativas. El gráfico adjunto ilustra el paralelismo. He puesto la representación de las dos variables cualitativas en un formato análogo al de las cuantitativas. También he puesto puntos en las cuatro casillas posibles para forzar también el paralelismo, pero la representación característica es mediante la escritura de la frecuencia absoluta de cada celda en la muestra estudiada.

Foto 20-10-12 17 58 17

36. La decisión que tomamos entre la Hipótesis nula y la Hipótesis alternativa, en la técnica de la ji-cuadrado, se basa en comparar lo Observado respecto a lo Esperado.

37. En Estadística, de hecho, podemos decir que al decidirnos por una hipótesis u otra siempre hacemos una comparación de este tipo. En el fondo, en un contraste de hipótesis siempre estamos comparando lo que Esperamos que pase si fuese cierta la Hipótesis nula y lo que Observamos en la muestra que tenemos.

38. Si lo pensamos un poco, en el fondo este proceder está muy ligado a la actividad humana más cotidiana. De un nuevo trabajo, de una nueva relación nos hacemos una idea de lo que Esperamos y luego, con la experiencia, nos encontramos con un Observado. De la comparación entre el Observado y el Esperado podemos valorar si aquella decisión tomada, respecto al trabajo o a la relación, valió realmente la pena o no. Por lo tanto, establecer una comparación entre un Esperado y un Observado es clave para valorar una decisión cualquiera, no únicamente estadística o científica. Lo que sucede es que, en este ámbito, las cosas deben estar regladas, protocolizadas, objetivadas.

39. Un contraste de hipótesis tiene, pues, esto siempre. Se crea lo que podríamos llamar un espacio de lo admisible dentro de la Hipótesis nula (alejamientos tolerables respecto de lo Esperado, alejamientos posibles a pesar de ser cierto lo que afirma la Hipótesis nula) y se toma, entonces, una muestra (un Observado). A continuación se analiza si este Observado está o no dentro de este margen de alejamiento posible respecto a lo que Esperamos en el caso de ser cierta la Hipótesis nula. Si está dentro de ese margen, mantendremos la Hipótesis nula, si no lo está nos pasaremos a la afirmación que hace la Hipótesis alternativa.

40. Al final, el p-valor es el que cuantifica el grado de proximidad entre el Observado y el Esperado, el que dictamina si lo Observado está dentro de ese margen, de ese halo donde todavía es admisible la Hipótesis nula o, por el contrario, se ha traspasado esa frontera y debemos rechazarla. Ya sabemos que normalmente esa frontera, expresada en términos de p-valor, es el 0.05. Por encima de 0.05 mantenemos H0, por debajo la rechazamos y nos pasamos a H1.

41. Un ejemplo sencillo: Tomemos el caso que antes hemos comentado, el de la relación entre el sexo y una determinada enfermedad. Teníamos un Observado. Y en él teníamos 100 hombres y 100 mujeres (sumando las filas). Teníamos, también, en total, 80 enfermos y 120 no enfermos de la patología estudiada (sumando las columnas). Si no hubiera relación entre ambas variables cualitativas (sexo y enfermedad), si ambas variables fueran variables independientes, la tabla Esperada sería la siguiente (Muestro la Observada también para poderlas comparar):

IMG_4384

42. Obsérvese que de esta forma, en el Esperado, tenemos los mismos hombres y mujeres (100, respectivamente) y el mismo número de enfermos y no enfermos (80 y 120), pero distribuidos de tal forma que en absoluto pensaríamos que habría relación entre sexo y esa enfermedad. En este Esperado la proporción de enfermos y no enfermos es exactamente la misma en hombres y en mujeres. Lo que impide cualquier afirmación de relación entre sexo y esa enfermedad.

43. La ji-cuadrado es una técnica matemática que valora, de una forma técnica, mediante un procedimiento reglado, la distancia que hay entre este Esperado y el Observado. Valorándolo no sólo por la diferencia de proporciones que haya sino también, y muy especialmente, por el tamaño de muestra que se tiene. O sea, la técnica estadística valora mucha más distancia entre estas dos tablas de contingencia que entre las dos siguientes:

IMG_4385

44. El azar del muestreo puede afectar mucho en un caso como éste, donde hay tan pocas observaciones. En cambio al aumentar el tamaño de muestra las cosas adquieren mayor solidez. Por una razón que ya hemos dicho en algún momento: Entre muestras grandes hay menos diferencias que entre muestras pequeñas. Las muestras grandes son más fiables porque son más similares a otras que hubiéramos podido tener y no hemos tenido. Esto estabiliza las decisiones. En cambio, con muestras pequeñas, entre una y otra muestra puede haber diferencias enormes. Por lo tanto, estamos, en este caso, ante decisiones demasiado vulnerables a los vaivenes que pueden ocasionar muestras potencialmente muy diferentes. Esto es lo que queremos decir los estadísticos cuando decimos que un resultado depende en exceso del azar del muestreo.

45. Por lo tanto, en el caso de arriba, el de mayor tamaño de muestra, la ji-cuadrado acabará dando un p-valor inferior a 0.05, porque detecta que no es posible un Observado así con un Esperado como ese. En cambio, en el caso de abajo, el del tamaño muestral pequeño, la misma técnica de la ji-cuadrado acabará dando un p-valor superior a 0.05 porque es posible esperar estas proporciones a nivel de Esperado y tener ese Observado, por cuestiones de azar del muestreo. Y es importante que se vea en estos dos casos, porque la diferencia de proporciones de enfermos y no enfermos entre hombres y mujeres es la misma.

46. Esto se entiende tal vez mejor con una moneda. Si la lanzas 10 veces, si la moneda es equilibrada, esperas 5 caras y 5 cruces. Si observas 2 y 8 es posible. Si la lanzas 1000 veces, esperas 500 y 500, si ves 200 y 800 dirás que este Observado no cuadra con el Esperado y rechazarás la hipótesis nula, en este caso la hipótesis que afirma que la moneda es equilibrada, en cuanto a las posibilidades de cara y de cruz.

47. En la ji-cuadrado la Hipótesis nula, ya lo hemos dicho, es independencia. Por eso construimos una tabla de lo esperado donde en absoluto se contemple relación entre las variables cualitativas. Y la construimos respetando las cantidades de valores que ambas variables tienen por filas y por columnas.

48. Y esto es lo que básicamente hay que entender en la ji-cuadrado. Entrar en tecnicismos es interesante para el matemático pero no es necesario para el que se acerca a la Estadística con finalidad instrumental y que tiene la intención de entender el por qué de las técnicas sin entrar en detalles más de técnica matemática.

49. No obstante, para los que quieran entrar más en detalle en cómo funciona la técnica de la ji-cuadrado, en el gráfico adjunto se ilustra cómo es la técnica en sí, qué medida de distancia entre Observado y Esperado se utiliza, cómo se calcula, respecto a qué valor de referencia se mide ese cálculo, cómo se llega al cálculo de un p-valor. Estos son los cálculos, en definitiva, que hace un software estadístico para proporcionar un p-valor y así decidirse por la Hipótesis nula o la Hipótesis alternativa, cuando le introduces una tabla de contingencias y le pides que te aplique la técnica de la ji-cuadrado para valorar la existencia de relación o no entre esas variables cualitativas.

Ji11

50. La distribución que aparece es la llamada distribución ji-cuadrado (Ver Herbario de técnicas). Es la distribución que sigue el cálculo que se ve en el centro del gráfico y que se aplica a las dos tabla de contingencias mostradas, pero es la distribución que sigue en el caso de ser cierta la Hipótesis nula; o sea, en el caso de que las variables sean independientes. Es la distribución de los valores posibles de ese cálculo (que es una medida de distancia entre Observado y Esperado), en el caso de ser cierta la independencia de las variables. Pensemos que puede haber independencia de las variables y que la muestra obtenida no sea la de la tabla de contingencias Esperada (porque la tabla Esperada es, en realidad, una idealización). Hay un margen de posible alejamiento a ésta, que es lo que nos muestra, precisamente, la forma de la distribución. La posición del Observado respecto a esta distribución es clave para la decisión del contraste. El p-valor (el área a la derecha del valor de ese cálculo: el 33.2 y el 3.33 del gráfico) nos indica la posición relativa de lo que vemos respecto a lo que deberías ver si fuera cierta la Hipótesis nula. El que se calcule el área hacia la derecha es porque, precisamente, cuanto más hacia la derecha nos dé el cálculo, cuanto mayor sea, van decreciendo las posibilidades de la Hipótesis nula y, al mismo tiempo, creciendo las posibilidades de la Hipótesis alternativa. Por encima de un p-valor de 0.05 todavía nos decantamos por mantener la posibilidad de que sea cierta la independencia y ver lo que estamos viendo. Por debajo, no. Por debajo ya consideramos que hay demasiada lejanía entre lo Observado y lo Esperado. Hemos ya traspasado el límite de lo tolerable en el caso de ser cierta la Hipótesis nula. Entender esta forma de razonar es entender la Estadística. Es nuclear. Estamos abordando la esencia de la Estadística.

51. La distribución ji-cuadrado (Ver Herbario de técnicas) se representa mediante la letra griega ji elevada al cuadrado, como puede verse en el gráfico. Esta distribución tiene un único parámetro. Que suele representarse como un subíndice, como puede verse en el gráfico adjunto. En el ejemplo que planteo vale 1, porque tenemos una tabla de contingencias de 2×2. El valor del parámetro es siempre el número de filas de la tabla, menos una, multiplicado por el número de columnas, menos una. Si es, pues, 2×2 el parámetro de la ji-cuadrado es 1, si fuera una tabla 3×2 sería 2, si fuera 4×3 sería 6. Para cada ji-cuadrado diferente el valor de referencia a partir del cual la probabilidad es 0.05 bajo la curva es diferente. En nuestro caso es 3.84, como se puede ver en el gráfico y en cualquier tabla de la ji-cuadrado.

52. Para que el Test de la ji-cuadrado para tablas de contingencias funcione bien se requieren una serie de condiciones. El número de celdas con valores esperados de 5 ó menos no pueden ser más del 20% de todas las celdas. Si la tabla es 2×2 no debería haber ninguna celda bajo estas condiciones. Observemos que en el caso del gráfico anterior, el de abajo, estaríamos fuera de las condiciones.

53. Si se incumplen las condiciones el problema es que el estadístico de test no sigue fielmente la distribución ji-cuadrado y, por lo tanto, estaremos tomando decisiones en base a unos p-valores basados en una distribución, bajo la Hipótesis nula, equivocada.

54. Para los casos en los que se incumple esta condición, y la tabla es 2×2, tenemos el Test exacto de Fisher (Ver Herbario de técnicas).

55. Hay, para acabar, una variante del test de la ji-cuadrado para ver si los valores observados de una serie de clases de individuos se adaptan a unos valores teóricos prefijados.

56. Por ejemplo, supongamos que queremos ver si respecto a los grupos sanguíneos A, B, AB y O, en una población los valores muestras encajan con unos valores teóricos prefijados. Se construye una columna de valores observados y otra de valores esperados y se calcula una distancia entre observado y esperado mediante un estadístico de test (el denominado estadístico de la ji-cuadrado), como hemos visto en las tablas de contingencia. El umbral para aceptar o no la hipótesis nula se obtendrá de una distribución ji-cuadrado con un valor del parámetro que será el número de clases menos 1.

57. Importante: la hipótesis nula, es en este caso, que los datos se ajustan a esta distribución teórica y la hipótesis alternativa es que no se ajustan.

57. Un ejemplo: Supongamos el siguiente caso:

El umbral lo buscaremos en una distribución ji-cuadrado con 3 de valor del parámetro (4 clases menos 1). Si buscamos en la tabla en la sección de COMPLEMENTOS este valor es de 7.81. Por lo tanto, como 32.06 es superior al umbral rechazaríamos la hipótesis nula. Diríamos que no se ajusta a los valores teóricos establecidos.

58. Supongamos que, en el mismo contexto, el esperado fuera este otro:

Tendríamos otro valor de ji-cuadrado, un valor de 2.42 que ahora no supera este umbral, que es el mismo, de 7.81. En este caso sí que mantendríamos la hipótesis nula de que los valores observados se ajustan suficientemente a unos valores teóricos prefijados.

59. Este test de la ji-cuadrado puede aplicarse a situaciones muy diversas. Otro ejemplo: imaginaros que queremos comprobar que un dado es equilibrado; o sea, que tiene la misma probabilidad cada cara. Tendríamos un problema equivalente al mostrado de los grupos sanguíneos pero con seis clases y donde el valor teórico sería 1/6 para cada clase. Lanzaríamos el dado un número determinado de veces, así tendríamos un observado, calcularíamos el esperado en función del número total de lanzamientos que hubiéramos hecho y calcularíamos, finalmente, el valor de la j-cuadrado. El umbral ahora lo encontraríamos en una ji-cuadrado de 5 de valor del parámetro (6 clases menos 1).

Tema 7: REGRESIÓN LINEAL SIMPLE

1. En el Tema anterior hemos hecho una introducción a la Regresión. Era importante hacerlo porque así hemos trazado un mapa general de un mundo realmente complejo.

2. No se trata de desanimarse por la visualización del esquema complejo de fórmulas con el que acaba el tema. Iremos focalizando, en su momento, en los tipos más usuales de Regresión y el haber hecho este dibujo introductorio nos ayudará a situar las cosas, con mayor sentido, en el dibujo global del mundo de la Regresión.

3. Vamos a ver, en este Tema, la primera de estas focalizaciones al mapa de las Regresiones. Vamos a ver la Regresión más básica, la Regresión univariante, lineal y simple.

4. En la Introducción ya hemos hablado un poco de este tipo de Regresión, puesto que ya la hemos utilizado para poder situar conceptos generales y verlos en un caso relativamente sencillo y accesible para el que se inicia en este complejo mundo de la matematización de la relación entre variables:

5. La Regresión univariante, lineal y simple suele nombrarse como Regresión simple lineal o Regresión lineal simple o, muchas veces, simplemente como Regresión lineal o Regresión simple.

6. En Regresión las opciones por defecto siempre son las más básicas: univariante, lineal y simple. Las otras opciones deben marcarse, cuando aparecen. Por eso a la Regresión univariante lineal simple se la suele denominar Regresión lineal o de Regresión simple, a secas. Se trata de la Regresión que construye una recta para modelizar la relación que hay entre dos variables.

7. La Regresión lineal simple es la más básica pero también la más usual. Es aplicada en todos los ámbitos del conocimiento.

8. La ecuación de la Regresión lineal simple es: y=ax+b+ɛ. Como puede apreciarse cinco letras distintas: “y”, “a”, “x”, “b” y “ɛ”. Ya sabemos qué representan la “y”, la “x” y la “ɛ”.

9. Nos falta explicar la “a” y la “b”. La “a” y la “b” son los llamados «parámetros de la recta». Toda recta tiene la fórmula y=ax+b.

10. Tanto la “a” como la “b” pueden ser cualquier número real. Cada pareja de números diferentes define una recta distinta.

11. A la “a” se le denomina pendiente de la recta. Si es positiva, de izquierda a derecha la recta asciende. Si es negativa, desciende.

12. A la “b” se le denomina «Ordenada en el origen». Y representa el valor de la “y” cuando la “x” vale cero.

13. Al eje de la “y” se le suele llamar eje de las ordenadas y al de la “x” eje de las abscisas. Al punto x=0 se le denomina origen.

14. Por eso a la “b” se le llama «Ordenada en el origen», porque es el valor de la “y” (de las ordenadas) cuando la “x” es cero (en el origen).

15. Si tenemos valores de dos variables y tenemos una representación bidimensional el problema será encontrar la recta que mejor se adapte a esa representación.

16. Esto se hace mediante la llamada Técnica de los mínimos cuadrados.

17. Mediante esta técnica se busca la recta que minimice, que haga mínimas, las distancias al cuadrado calculadas desde cada uno de los puntos hasta la recta.

18. Así es cómo cualquier software estadístico, o cualquier máquina de calcular con opción de Estadística, estima la recta de Regresión.

19. La recta de los mínimos cuadrados es la recta que mejor se adapta a los valores de dos variables que dibujan sobre el plano una nube de puntos para los cuales una recta es un buen modelo.

20. Los residuos calculados punto por punto respecto a la recta de mínimos cuadrados permiten estimar la DE de la distribución N(0, DE) de la “ɛ” del modelo de Regresión.

21. Vamos a plantear unos datos reales con los que poder ver todo lo visto hasta ahora.

22. Ejemplo de correlación y de regresión: Tenemos diez alumnos con sus notas de matemáticas y de física. Las notas son las siguientes (cada paréntesis recoge las notas de un alumno, la primera nota es la de matemáticas y la segunda es la de física):

(7, 8), (2, 4), (8, 8), (6, 7), (5, 6), (8, 9), (9, 9), (1, 3), (2, 3), (3, 4)

La correlación de Pearson es r=0,98 y su p-valor es menor que p=0,0001, lo que significa que se trata de una correlación significativa, positiva y de alta magnitud.

Vamos a hacer una regresión lineal a través del modelo y=ax+b+ɛ, donde la y es la nota de física y la x la nota de matemáticas. Esto nos puede interesar, por ejemplo, si somos profesores de física y queremos algún día pronosticar las notas que tendrán de física nuestros alumnos sabiendo las notas que han obtenido previamente de matemáticas.

Si aplicamos a estos datos la técnica de los mínimos cuadrados vemos que los parámetros de la recta son: a=0,8179 y b=1,9284. La DE de la ɛ es 0,4.

Esto significa que podemos escribir el modelo:

Nota de física=0,8179*Nota de matemáticas+1,9284+ɛ

donde la “ɛ” sigue una distribución N(0, 0.4).

23. En el gráfico que se adjunta puede verse la representación bidimensional de estos alumnos.

24. Como puede verse en el gráfico los puntos se articulan en torno a la recta y su dispersión es la modelizada por la N(0, 0.4). Estos valores de la “a” y de la “b” de la recta y de la DE del residuo “ɛ” se han obtenido mediante un software estadístico.

IMG_4197

25. Y el concepto de significación, que ya sabemos que es nuclear en Estadística, ¿cómo aparece en la Regresión? Vamos a verlo a continuación:

26. En una Regresión lineal simple tenemos siempre tres significaciones implicadas. Una ya la hemos visto: la de la correlación.

27. De hecho, la significación de la correlación va a ser, de hecho, la puerta de entrada en la Regresión. Es lógico que sea así. No tiene sentido crear una fórmula matemática que relacione unas variables entre las cuales no hay una correlación significativa.

28. Las otras dos significaciones son las de los parámetros de la recta: la “a” y la “b” del modelo y=ax+b. Cada uno tiene su p-valor asociado.

29. El contraste de hipótesis, en estos dos casos, es: Con la “a”:

H0: a=0

H1: a<>0 (distinto de cero)

Con la “b”, lo mismo:

H0: b=0

H1: b<>0.

30. Una advertencia importante. Estos contrastes de hipótesis para poderse realizar tal como están implementados en los software estadísticos necesitan la distribución normal del residuo «ɛ» y también que su Desviación estándar sea homogénea; o sea, que sea la misma para cualquier valor de la variable independiente. Necesita también de la independencia de los datos.

31. Para ver con más detalle el contraste de hipótesis de la pendiente, de la «a» ver en Herbario de técnicas el artículo dedicado a este contraste. Para ver la comprobación de la normalidad ver, también en el Herbario, los artículos dedicados a la bondad de ajuste a una distribución cualquiera (Test de la ji-cuadrado de ajuest a una distribución) o a la normal (Test de Kolmogorov). Para la homogeneidad ver el Test de Glesjer y, para la independencia, el Test de Durbin-Watson.

32. En la hipótesis nula, como siempre en Estadística, tenemos lo que podemos decir antes de hacer cualquier cosa (lo que podemos presuponer): que no hay relación. El paralelismo de la Estadística con el mundo judicial es sorprendente, como ahora veremos.

33. En un juicio también hay dos hipótesis a contrastar: inocencia y culpabilidad. Y las dos no parten paralelas.

34. Una de ellas parte como cierta: la inocencia («presunción de inocencia»), y sólo si durante el juicio, mediante las pruebas y testigos, se ve que la inocencia no se puede mantener se pasará a la culpabilidad.

35. En Estadística podemos decir que existe la presunción de no relación entre las variables. Presunción de r=0, de a=0, de b=0.

36. Esto es muy importante. En Estadística (de hecho: En Ciencia) es como si existiera una presunción de no relación entre las variables y una presunción (lo veremos, más adelante, en los temas dedicados a la comparación de grupos) de igualdad entre los grupos a comparar. Las relaciones y las diferencias se han de demostrar. Porque el punto de partida, en la Ciencia, es la no relación y la igualdad.

37. Únicamente si es incoherente mantener esas presunciones (no relación entre variables e igualdad entre grupos comparados), a la luz de la muestra (que son nuestras pruebas y nuestros testigos), diremos que hay relación.

38. Y cuando lo hagamos, cuando digamos que hay relación o que hay diferencia, lo habremos hecho tras darle mucho margen de confianza a la presunción de no relación o a la de igualdad.

39. Por esto entonces diremos que aquella relación es significativa, que es fiable, que existen pocas posibilidades de que, a nivel poblacional, no sea así.

40. En el fondo los estadísticos somos un poco como el Tribunal constitucional.

41. El Tribunal constitucional tiene como objetivo básico analizar las leyes y acabar dictaminando si se adaptan o no a la constitución.

42. Al final sus sentencias son, en esencia, decir «esto es constitucional» o «esto no es constitucional». Y lo que dice este tribunal es la última palabra.

43. Con la Estadística sucede un poco lo mismo. Analiza unos datos y acaba dando un veredicto: «significativo» o «no significativo».

44. Y la comunidad científica está muy pendiente de estos veredictos, por su fundamental trascendencia.

45. Podemos decir, para acabar con todo esto que la Estadística es el Tribunal de la significación de la ciencia.

46. La significación es la palabra central, nuclear, de la Estadística. Y tal vez de la Ciencia.

47. Para acabar, existe un importante y muy usado criterio de calidad de una Regresión lineal simple: el Coeficiente de determinación , la denominada R2. Se trata de un valor que va del 0 al 1, cuanto mayor mejor, más relación hay entre la variable dependiente y la independiente, más determina la independiente a la dependiente. Muchas veces el valor de R2 se da en porcentaje, para expresar el porcentaje de determinación que existe en esa Regresión, el porcentaje de determinación que la variable independiente ejerce sobre la dependiente.

Tema 6: INTRODUCCIÓN A LA REGRESIÓN

 

1. Cuando hemos detectado que entre dos o más variables hay una relación significativa una opción es intentar matematizar esa relación, crear una fórmula matemática que materialice, formalmente, esa relación y que permita calcular pronósticos de una o de varias variables a partir del conocimiento de valores de una o de varias variables evaluadas en un individuo concreto.

2. Esta matematización, esta creación de una fórmula, de una ecuación, que relacione varias variables, es la Regresión.

3. La Regresión ha tenido y tiene una importancia extraordinaria en el ámbito de las aplicaciones de la Estadística. A lo largo de este curso deberemos dedicar diferentes momentos a hablar del mundo de la Regresión.

4. Empezaremos los temas dedicados a este mundo con esta Introducción a la Regresión, aunque en mucho momentos focalizaremos especialmente en el caso más básico de Regresión: el de la Regresión lineal simple, para introducirnos así, con mayor facilidad, en algunas nociones generales.

5. La Regresión consiste en la creación de una fórmula matemática que relacione variables, en la creación de lo que llamamos una función matemática.

6. Por lo tanto, lo primero que tenemos que recordar es el concepto de función matemática.

7. Una función matemática de dos variables, y=f(x), es la representación (la modelización) matemática de una relación entre las dos variables: “x” e “y”. A la variable en la posición de la “y” se la denomina dependiente. A la variable en la posición de la “x” se la denomina independiente.

8. Las funciones matemáticas, evidentemente, pueden ser entre más de dos variables. La función y=f(x1, x2, …, xd) relaciona a la variable “y” con las “d” variables x1, x2, …, xd. Estas funciones son las llamadas funciones de varias variables, también llamadas funciones de variable vectorial, porque la “x” es, en realidad, un vector de variables (cuando tenemos dos o más variables analizadas conjuntamente en matemáticas decimos que tenemos un “vector de variables”).

9. También existen las funciones donde la posición de la “y” está ocupada por más de una variable: (y1, y2, …, ym)= f(x1, x2, …, xd), que son las llamadas funciones vectoriales (“m” variables en la posición de la “y”) de variable vectorial (“d” variables en la posición de la “x”) .

10. Obsérvese que suele usarse el mismo signo «y» para las diferentes posibles variables dependientes y el mismo signo «x» para las variables independientes. Los subíndices concretan el número de variables que hay en cada una de las dos posiciones. Así es como habitualmente se representan los diferentes modelos de Regresión en Estadística.

11. Pero para empezar a ver algunas nociones generales de la Regresión utilizaremos el caso de las funciones más sencillas: las funciones y=f(x):

12. Si digo: «Si el domingo llueve me quedaré en casa, si no llueve iré a Girona», estoy construyendo una función.

13. La x tiene dos valores: llueve y no llueve. La y tiene también dos valores posibles: me quedo en casa y voy a Girona. Y con la frase construyo una relación, construyo la función.

14. Porque una función es una relación establecida entre un conjunto de valores y otro conjunto de valores. Una relación que tiene la siguiente condición: Todo elemento del conjunto llamado Dominio (el conjunto de la variable x) tiene que tener asignado, mediante la regla de la función concreta establecida, un y sólo un elemento del conjunto llamado Codominio o Recorrido (el conjunto de la variable “y”).

15. Es fácil comprobar que el ejemplo: «Si el domingo llueve me quedaré en casa, si no llueve iré a Girona», cumple las condiciones de función. También lo cumpliría, por ejemplo: “Llueva o no llueva, el domingo iré a Girona”.

16. En nuestro día a día continuamente estamos estableciendo relaciones de tipo funcional, que cumplen la condición de ser función.

17. En ciencia son muy importantes las funciones. Porque la ciencia intenta continuamente establecer relaciones entre las cosas.

18. La Regresión es una parte de la Estadística que se cuida de la creación de funciones entre variables cuya relación no es exacta, como veremos ahora:

19. Otro ejemplo de función: cuando expreso una distancia en Km y la quiero pasar a metros creo una relación matemática (una función): y=1000x.

20. Si quiero relacionar Altura y Peso la cosa no funciona tan bien porque no hay una fórmula que lo haga de forma exacta.

21. No hay ninguna fórmula mediante la cual sabiendo el peso de una persona podamos saber, de forma exacta, su altura. No obstante, como hay una cierta relación entre la altura y el peso podemos establecer una fórmula funcional pero añadiendo un elemento a esa fórmula, un elemento que será clave en el ámbito de la Regresión, como ahora veremos.

22. No nos olvidemos que hemos dicho antes que la Regresión es una parte de la Estadística que se cuida de la creación de funciones entre variables cuya relación no es exacta.

23. La relación entre la Altura y el Peso no es exacta, pero puedo crear el modelo: Altura=f(Peso)+ɛ. Antes podía escribir Metros=f(Km), sin tener que añadir esa “ɛ”. Porque la relación es exacta.

24. Por lo tanto, esta “ɛ”, de momento, la hemos de ver simplemente como lo que le falta o lo que le sobra a la fórmula que relaciona altura con peso para que la relación sea exacta.

25. En la Regresión siempre se crean funciones matemáticas donde es imprescindible añadir esta “ɛ”. Veremos más tarde el papel de esta “ɛ”.

26. Si relacionamos ahora la Altura con la Longitud de pie podemos decir que la función sería Altura=f(Pie)+ɛ . De nuevo la “ɛ”. Porque tampoco se trata de una relación exacta.

27. Como hemos dicho la Altura tiene una correlación r más grande con la Longitud del pie que con el peso.

28. Por lo tanto, la “ɛ” en Altura=f(Pie)+ ɛ es una variable con menos dispersión que la «ɛ» en Altura=f(Peso)+ ɛ. Esto es básico entenderlo para ir introduciéndose en el peculiar mundo de la Regresión.

29. De momento estamos hablando de relaciones entre unas variables que pueden quedar dibujadas por rectas, que los puntos que dibujan quedan articulados en torno a una recta. Pero evidentemente la relación entre dos variables puede no ser una relación lineal, como sucedería, por ejemplo, con la relación entre el Euribor y el Tiempo, que no quedarían, los puntos, ni mucho menos, organizados en torno a una recta, sino, por el contrario, quedarían articulados en torno a complicadas curvas con subidas y bajadas.

30. Por lo tanto, de momento estamos escribiendo expresiones generales de relación, como Altura=f(Pie)+ ɛ, o bien como Altura=f(Peso)+ ɛ, pero, como iremos concretando, en realidad ahora nos limitaremos a relaciones lineales, relaciones que se estructuran alrededor de una recta.

31. Una regla fundamental: Cuanta mayor correlación haya entre dos variables, en la representación bidimensional, estructurada en forma de recta, los valores estarán reunidos más próximos a la recta.

32. Y la dispersión de los valores de la «ɛ”, de esos valores, por exceso o por defecto, necesarios para que la función creada sea una relación exacta, tiene que ver con la dispersión de esa representación bidimensional alrededor de la recta.

33. Y Alturas con Pies tienen una representación bidimensional menos dispersa alrededor de la recta que la representación de Alturas con Pesos.

34. Veamos, gráficamente, de lo que estamos hablando. Puede verse perfectamente en el gráfico adjunto que los valores de Altura y Longitud de pie están menos dispersos en torno a la recta que los valores de Altura y Peso. Y que, por el contrario, los valores de Km y metros no tienen ninguna dispersión:

IMG_4193

35. A la “ɛ” de la ecuación de una Regresión se le denomina Residuo. En ocasiones también se le llama Error.

36. Y en condiciones normales las distancias desde los valores de la representación bidimensional a la recta que pasa entre los puntos (distancias positivas y negativas) sigue una distribución normal N(0, DE).

37. Esto se interpreta de la siguiente forma: Si tomáramos todos los puntos de la representación bidimensional y fuéramos calculando las distancias que hay entre cada uno de esos puntos y la recta, que unas serían positivas (los puntos por encima de la recta) y otros serían negativos (los puntos por debajo de la recta), entonces la reunión de todas esos valores quedaría bien modelizado por un N(0, DE).

38. Esta Desviación estándar (DE) será tanto mayor cuanto menor sea la correlación entre las variables “x” e “y”.

39. En el dibujo de las tres relaciones: Altura versus Peso, Altura versus Pie y Metros versus Km, puede comprobarse perfectamente esta relación entre DE del residuo, de la ɛ, y la correlación entre las variables.

40. Ya hemos visto que esta “ɛ” de la regresión, el residuo, son valores de distancias positivas y negativas.

41. Este residuo tiene generalmente una distribución normal centrada en el cero, por ser valores por exceso y por defecto respecto a la recta, y por tener, generalmente, muchos más valores próximos a la recta y con cierta simetría.

42. Y tiene, por lo tanto, este residuo, una dispersión, una Desviación estándar (DE). Por esto podemos decir que esta ɛ, muchas veces, sigue una distribución N(0, DE), donde esta DE dependerá de la correlación r.

43. Observemos que si planteáramos la relación entre Km y Metros como una Regresión: m=1000•Km+ɛ, la DE de esta ɛ sería obviamente cero.

44. En el gráfico adjunto se ve un caso de relación entre dos variables, se ve la recta de Regresión que modeliza esta relación y se ve, también, que si se proyectaran los valores, los puntos, sobre una recta donde el 0 fuera el punto de intersección de esa recta con la vertical dibujada por la propia recta de Regresión, entonces los puntos proyectados quedarían bien modelizados por una distribución N(0, DE).

IMG_4195

45. Una vez comentadas unas nociones básicas del mundo de la Regresión, vamos a intentar trazar ahora un mapa de los diferentes tipos de Regresión que se manejan en Estadística. Esto nos permitirá, después, cuando veamos tipos concretos de Regresión, en diferentes temas de este curso, saber situar cada uno dentro del plano que ahora vamos a dibujar.

46. Recordemos, antes de empezar con el mapa que la estructura general de la Regresión es la ecuación y=f(x), que a la variable o al vector de variables (si es más de una variable) “y” se la denomina variable o vector dependiente y a la variable o vector “x” se de denomina variable o vector independiente.

47. Una primera distinción es la que se establece entre Regresión univariante y Regresión multivariante. Esta bifurcación viene determinada por el hecho de tener una o más de una variable dependiente.

48. La dicotomía está en estas dos formulaciones: tener una única variable “y” o tener más de una. Los dos tipos de Regresión quedarían ejemplificados en las dos siguientes fórmulas generales:

y=f(x)

(y1, y2, …, ym)= f(x)

si tenemos una única variable independiente, o de esta forma:

y=f(x1, x2, …, xd)

(y1, y2, …, ym)= f(x1, x2, …, xd)

si tenemos varias variables independientes.

49. Obsérvese que aquí lo que diferencia entre Regresión univariante y multivariante es el número de variables dependientes no el número de variables independientes.

50. Si atendemos al tipo de función diferenciaremos entre la Regresión lineal y la Regresión no lineal.

51. En la Regresión lineal la f(x) es la ecuación de una función lineal, una función que será una recta, un plano o un hiperplano, según el número de variables independientes.

52. La Regresión lineal es la representada por el modelo matemático: y=ax+b+e en el caso de tener una única variable independiente, o por el modelo matemático: y=a1x1+a2x2+…+adxd+b+ɛ en el caso de estar trabajando con dos o más variables independientes.

53. Estoy escribiendo la fórmula de la Regresión lineal para el caso de Regresión univariante, pero podríamos hacer lo mismo con la Regresión multivariante. Después haremos una representación general de todas las posibilidades combinatorias y veremos los diferentes esquemas que tendríamos en cada caso.

54. Recordemos que la “ɛ” es siempre el símbolo del residuo, de lo que falta para la exactitud del modelo.

55. La Regresión no lineal es la que sigue cualquier otra función que no sea lineal. Estas funciones, como veremos en su momento, pueden ser exponenciales, pueden ser polinómicas, etc.

56. Si atendemos al números de variables independientes, distinguiremos dos tipos de Regresión: la Regresión simple y la Regresión múltiple.

57. En la Regresión simple tenemos únicamente una variable independiente. En la Regresión múltiple, por el contrario, tenemos dos o más variables independientes. Ahora focalizamos no en el número de variables dependientes sino en el número de variables independientes. Si tenemos una o más de una variable independiente.

58. En la Regresión simple la fórmula general es, pues, y=f(x)+ ɛ si se trata de una Regresión univariante o (y1, y2, …, ym)= f(x)+ ɛ si se trata de una Regresión multivariante.

59. En la múltiple la función es: y= f(x1, x2, …, xd)+ ɛ si se trata de una Regresión univariante o (y1, y2, …, ym)= f(x1, x2, …, xd)+ɛ  si se trata de una Regresión multivariante.

60. Por lo tanto, las dicomomías vistas: Univariante versus Multivariante, Lineal versus No lineal y Simple versus Múltiple, se pueden mezclar mediante todas las combinaciones posibles.

61. Vemos en el gráfico siguiente cómo estas tres dicotomías combinadas dan lugar a los diferentes tipos de Regresión posibles:

IMG_4200

62. Dentro de estos ocho tipos de Regresión se pueden dar casos especiales. Por ejemplo, es el caso de trabajar con una variable dependiente cualitativa hablamos entonces de Regresión logística. Ésta puede ser, también, simple o múltiple, dependiendo de si tenemos una o más de una variables independientes.

63. La Regresión logística es siempre, en realidad, una Regresión no lineal, como veremos en el tema 11. Y siempre es, también, además, univariante. Por lo tanto, podemos decir que los dos tipos de Regresión logística, la simple y la múltiple son casos especiales de Regresión no lineal simple y múltiple, respectivamente.

64. En realidad la Regresión no lineal es un amplio mundo donde se pueden diferenciar diferentes familias dependiendo del tipo de función no lineal que consideremos. Lo veremos en su momento.

65. En la medida que vayamos viendo, pues, estos diferentes tipos de Regresión iremos perfilando y completando este interesante mapa de este apasionante mundo de la Regresión.

66. A modo de resumen y después de visto el esquema que nos proporciona, por combinación de las tres dicotomías vista, los ocho tipos básicos de Regresión, vamos a ver el tipo general de modelo de Regresión de cada una de estas ocho familias; o sea, la forma de cada una de las ocho ecuaciones de los ocho tipos de Regresión.

67. En el caso no lineal he optado por poner una ecuación exponencial pero se trata de la elección de un tipo entre los muchos tipos de funciones que pueden ser usados como modelos de Regresión no lineal.

68. También es importante recordar que la “ɛ” añadida al final de la ecuación es el Residuo. En el esquema adjunto está escrito, ahora, con la letra griega épsilon y se suma siempre a todas las ecuaciones porque es aquel elemento que es necesario introducir siempre en la Regresión por el mismo hecho esencial de estar trabajando con relaciones entre variables que no son relaciones exactas.

69. Obsérvese, también, que el Residuo en la Regresión multivariante es un residuo con subíndice porque cada variable del vector dependiente tiene un valor residual.

70. En cambio en las Regresiones no lineales aparece una “e” que no es el Residuo, es el número e. Obsérvese que este número e siempre está elevado a algo. Es un número básico en las funciones exponenciales.

71. Las otras letras, “a” y “b”, con sus subíndices, cuando los tienen, son los parámetros del modelo, son números que se habrán de estimar, en cada caso concreto, para adaptar el modelo, la ecuación, a un caso concreto.

IMG_4216