Tema 8: RELACIÓN ENTRE VARIABLES CUALITATIVAS. EL TEST DE LA JI-CUADRADO

Los siguientes vídeos explican el tema 8:

1. Hasta el momento hemos dedicado prácticamente todo nuestro curso de Estadística a hablar de variables cuantitativas.

2. Hemos de dedicar ahora un espacio a las variables cualitativas, a sus peculiaridades descriptivas, a ver cómo se valora la relación entre variables cualitativas, a evaluar la cuantificación de esa relación, a evaluar la significación de esa relación.

3. Una variable es cualitativa, o categórica, o nominal, cuando los valores que toma la variable son cualidades o categorías, o nombres. Por ejemplo: la variable sexo (Hombre, Mujer), la variable tener o no una determinada patología, etc.

4. Muchas veces ciertas variables cuantitativas se convierten en cualitativas, se categorizan. Por ejemplo, la variable cuantitativa edad. Supongamos que creamos los siguientes grupos de edad: menores de 16 años, entre 16 y 65 años y mayores de 65 años. Estamos creando tres categorías a partir de una variable cuantitativa como la edad. Esto es frecuente en sociología, economía, etc. O cuando en Medicina decimos: Valores iguales o menores de 140 de Presión sistólica: «Bien controlado». Y valores mayores de 140 de dicha presión: «Mal controlado». Estamos, también, transformando en cualitativa una variable cuantitativa.

5. Al final del tema dedicado a la Estadística descriptiva hemos comentado lo poco que dan de sí, desde el punto de vista descriptivo, estas variables. Recordémoslo.

6. Con las variables cualitativas suele hacerse un recuento de cuántos casos tenemos de cada una de las categorías posibles (frecuencias absolutas) o un tanto por ciento o un tanto por uno de lo que supone cada una de las categorías dentro del conjunto de categorías posibles (frecuencias relativas) y suele hacerse, entonces, un Diagrama de frecuencias o un Diagrama pastel para graficas esos valores.

7. Vamos a ver ahora cómo evaluar la relación entre variables cualitativas. Nos centraremos en variables dicotómicas (con dos valores posibles) pero los conceptos que veremos a continuación son fácilmente exportables a variables cualitativas con más de dos valores posibles.

8. Supongamos que queremos evaluar la relación entre la variable sexo y la variable tener o no una determinada enfermedad. Se trata evidentemente de dos variables cualitativas.

9. Se trata, además, de dos variables cualitativas con dos valores posibles en cada una de ellas (variables dicotómicas). La variable Sexo: Hombre o Mujer. Y la variable Enfermedad: Sí la tiene o No la tiene.

10. Supongamos los siguientes datos:

IMG_4381

11. Tenemos, pues, una muestra con 60 hombres enfermos y con 40 que no. Y tenemos, también, en la muestra 20 mujeres enfermas y 80 que no. A partir de estos valores, ¿podemos decir que están relacionadas estas variables?

12. A los datos de dos variables cualitativas expresados en frecuencias absolutas, en una tabla como esta, se le denomina «tabla de contingencias».

13. Vamos ahora a analizar una tabla de contingencias como ésta y, así, detectar si hay relación entre la variable sexo y la variable tener o no esa enfermedad.

14. Para evaluar esta relación vamos a suponer que en lugar de estos datos tuviésemos estos otros:

IMG_4382

Y, ahora, comparemos las dos tablas de contingencias. ¿Qué diferencias hay?

15. Si comparamos las dos tablas de contingencias podemos ver que en esta última no hay en absoluto indicios de relación.

16. No hay relación en esta tabla porque en hombres y en mujeres hay una proporción muy similar de enfermos y de no enfermos.

17. Sin embargo, en la primera tabla la proporción de enfermos y no enfermos es muy distinta en hombres y en mujeres.

18. Esta diferencia de proporciones es lo que hace pensar que en la primera tabla sí que hay relación, que esa enfermedad no se presenta independiente al sexo, sino que hay asociación, que hay una relación en los datos de aquella tabla.

19. La técnica de la ji-cuadrado es la técnica estadística más utilizada para analizar la relación de variables cualitativas expresadas en forma de tablas de contingencia.

20. La ji-cuadrado es una técnica que dictamina, objetivamente, si la muestra obtenida permite pensar en una relación significativa entre las variables cualitativas o si, por el contrario, las diferencias de proporciones que se ven son atribuibles al azar del muestreo y no son unas diferencias sólidas y fiables.

21. De nuevo nos encontramos, por lo tanto, con el dilema, ya visto con la correlación entre variables cuantitativas, de decidirnos entre la no relación y la relación entre variables. Lo que ahora debemos adaptarnos a un formato de datos bien distinto, pero el problema es completamente equivalente.

22. Y en esta decisión el tamaño de muestra, como siempre en Estadística, tiene un papel decisivo.

23. Observemos, ahora, las dos tablas de contingencias siguientes:

IMG_4383

24. La diferencia de proporciones entre hombres y mujeres, respecto a la proporción de los que tienen la enfermedad o no la tienen, es la misma en ambas tablas, porque la única diferencia que hay entre ellas es el cero de más que tienen los valores de la primera tabla.

25. Sin embargo, en el primer caso hay más posibilidades de ser significativa la relación que en el segundo.

26. El pequeño tamaño muestral del segundo caso le genera, como siempre en casos así, desconfianza a la técnica estadística y, por esto, acaba dando el veredicto de no significación.

27. En el contraste de hipótesis que formaliza la decisión sobre la relación entre variables cualitativas la Hipótesis nula es H0: Variables independientes (no relacionadas) y la Hipótesis alternativa es H1: Variables relacionadas.

28. Hay, por lo tanto, presunción de independencia. Y un gran margen de confianza para esa independencia.

29. Este gran margen de confianza por la Hipótesis nula, como siempre, nos permitirá estar confiados con la Hipótesis alternativa cuando nos veamos obligados a rechazar la afirmación de la nula por falta de coherencia entre lo que vemos en la muestra y lo que dice tal hipótesis.

30. La ji-cuadrado como técnica para evaluar la relación entre variables cualitativas es muy útil en muchos campos.

31. Por ejemplo, en las encuestas sociológicas para ver si hay relación entre dos ítems (preguntas) diferentes.

32. En el mundo de la Medicina es muy usual comparar exposición o no a un riesgo y la presencia o no de una determinada patología.

33. Por ejemplo, fumador y no fumador como exposición a un riesgo y tener o no cáncer de pulmón.

34. Hemos visto ejemplos con variables con dos valores posibles, pero las variables pueden tener más de dos valores posibles, por supuesto.

35. Es interesante comparar lo que estamos haciendo aquí y lo que hemos hecho en el Tema 5 con la correlación de variables cuantitativas. El gráfico adjunto ilustra el paralelismo. He puesto la representación de las dos variables cualitativas en un formato análogo al de las cuantitativas. También he puesto puntos en las cuatro casillas posibles para forzar también el paralelismo, pero la representación característica es mediante la escritura de la frecuencia absoluta de cada celda en la muestra estudiada.

Foto 20-10-12 17 58 17

36. La decisión que tomamos entre la Hipótesis nula y la Hipótesis alternativa, en la técnica de la ji-cuadrado, se basa en comparar lo Observado respecto a lo Esperado.

37. En Estadística, de hecho, podemos decir que al decidirnos por una hipótesis u otra siempre hacemos una comparación de este tipo. En el fondo, en un contraste de hipótesis siempre estamos comparando lo que Esperamos que pase si fuese cierta la Hipótesis nula y lo que Observamos en la muestra que tenemos.

38. Si lo pensamos un poco, en el fondo este proceder está muy ligado a la actividad humana más cotidiana. De un nuevo trabajo, de una nueva relación nos hacemos una idea de lo que Esperamos y luego, con la experiencia, nos encontramos con un Observado. De la comparación entre el Observado y el Esperado podemos valorar si aquella decisión tomada, respecto al trabajo o a la relación, valió realmente la pena o no. Por lo tanto, establecer una comparación entre un Esperado y un Observado es clave para valorar una decisión cualquiera, no únicamente estadística o científica. Lo que sucede es que, en este ámbito, las cosas deben estar regladas, protocolizadas, objetivadas.

39. Un contraste de hipótesis tiene, pues, esto siempre. Se crea lo que podríamos llamar un espacio de lo admisible dentro de la Hipótesis nula (alejamientos tolerables respecto de lo Esperado, alejamientos posibles a pesar de ser cierto lo que afirma la Hipótesis nula) y se toma, entonces, una muestra (un Observado). A continuación se analiza si este Observado está o no dentro de este margen de alejamiento posible respecto a lo que Esperamos en el caso de ser cierta la Hipótesis nula. Si está dentro de ese margen, mantendremos la Hipótesis nula, si no lo está nos pasaremos a la afirmación que hace la Hipótesis alternativa.

40. Al final, el p-valor es el que cuantifica el grado de proximidad entre el Observado y el Esperado, el que dictamina si lo Observado está dentro de ese margen, de ese halo donde todavía es admisible la Hipótesis nula o, por el contrario, se ha traspasado esa frontera y debemos rechazarla. Ya sabemos que normalmente esa frontera, expresada en términos de p-valor, es el 0.05. Por encima de 0.05 mantenemos H0, por debajo la rechazamos y nos pasamos a H1.

41. Un ejemplo sencillo: Tomemos el caso que antes hemos comentado, el de la relación entre el sexo y una determinada enfermedad. Teníamos un Observado. Y en él teníamos 100 hombres y 100 mujeres (sumando las filas). Teníamos, también, en total, 80 enfermos y 120 no enfermos de la patología estudiada (sumando las columnas). Si no hubiera relación entre ambas variables cualitativas (sexo y enfermedad), si ambas variables fueran variables independientes, la tabla Esperada sería la siguiente (Muestro la Observada también para poderlas comparar):

IMG_4384

42. Obsérvese que de esta forma, en el Esperado, tenemos los mismos hombres y mujeres (100, respectivamente) y el mismo número de enfermos y no enfermos (80 y 120), pero distribuidos de tal forma que en absoluto pensaríamos que habría relación entre sexo y esa enfermedad. En este Esperado la proporción de enfermos y no enfermos es exactamente la misma en hombres y en mujeres. Lo que impide cualquier afirmación de relación entre sexo y esa enfermedad.

43. La ji-cuadrado es una técnica matemática que valora, de una forma técnica, mediante un procedimiento reglado, la distancia que hay entre este Esperado y el Observado. Valorándolo no sólo por la diferencia de proporciones que haya sino también, y muy especialmente, por el tamaño de muestra que se tiene. O sea, la técnica estadística valora mucha más distancia entre estas dos tablas de contingencia que entre las dos siguientes:

IMG_4385

44. El azar del muestreo puede afectar mucho en un caso como éste, donde hay tan pocas observaciones. En cambio al aumentar el tamaño de muestra las cosas adquieren mayor solidez. Por una razón que ya hemos dicho en algún momento: Entre muestras grandes hay menos diferencias que entre muestras pequeñas. Las muestras grandes son más fiables porque son más similares a otras que hubiéramos podido tener y no hemos tenido. Esto estabiliza las decisiones. En cambio, con muestras pequeñas, entre una y otra muestra puede haber diferencias enormes. Por lo tanto, estamos, en este caso, ante decisiones demasiado vulnerables a los vaivenes que pueden ocasionar muestras potencialmente muy diferentes. Esto es lo que queremos decir los estadísticos cuando decimos que un resultado depende en exceso del azar del muestreo.

45. Por lo tanto, en el caso de arriba, el de mayor tamaño de muestra, la ji-cuadrado acabará dando un p-valor inferior a 0.05, porque detecta que no es posible un Observado así con un Esperado como ese. En cambio, en el caso de abajo, el del tamaño muestral pequeño, la misma técnica de la ji-cuadrado acabará dando un p-valor superior a 0.05 porque es posible esperar estas proporciones a nivel de Esperado y tener ese Observado, por cuestiones de azar del muestreo. Y es importante que se vea en estos dos casos, porque la diferencia de proporciones de enfermos y no enfermos entre hombres y mujeres es la misma.

46. Esto se entiende tal vez mejor con una moneda. Si la lanzas 10 veces, si la moneda es equilibrada, esperas 5 caras y 5 cruces. Si observas 2 y 8 es posible. Si la lanzas 1000 veces, esperas 500 y 500, si ves 200 y 800 dirás que este Observado no cuadra con el Esperado y rechazarás la hipótesis nula, en este caso la hipótesis que afirma que la moneda es equilibrada, en cuanto a las posibilidades de cara y de cruz.

47. En la ji-cuadrado la Hipótesis nula, ya lo hemos dicho, es independencia. Por eso construimos una tabla de lo esperado donde en absoluto se contemple relación entre las variables cualitativas. Y la construimos respetando las cantidades de valores que ambas variables tienen por filas y por columnas.

48. Y esto es lo que básicamente hay que entender en la ji-cuadrado. Entrar en tecnicismos es interesante para el matemático pero no es necesario para el que se acerca a la Estadística con finalidad instrumental y que tiene la intención de entender el por qué de las técnicas sin entrar en detalles más de técnica matemática.

49. No obstante, para los que quieran entrar más en detalle en cómo funciona la técnica de la ji-cuadrado, en el gráfico adjunto se ilustra cómo es la técnica en sí, qué medida de distancia entre Observado y Esperado se utiliza, cómo se calcula, respecto a qué valor de referencia se mide ese cálculo, cómo se llega al cálculo de un p-valor. Estos son los cálculos, en definitiva, que hace un software estadístico para proporcionar un p-valor y así decidirse por la Hipótesis nula o la Hipótesis alternativa, cuando le introduces una tabla de contingencias y le pides que te aplique la técnica de la ji-cuadrado para valorar la existencia de relación o no entre esas variables cualitativas.

Ji11

50. La distribución que aparece es la llamada distribución ji-cuadrado (Ver Herbario de técnicas). Es la distribución que sigue el cálculo que se ve en el centro del gráfico y que se aplica a las dos tabla de contingencias mostradas, pero es la distribución que sigue en el caso de ser cierta la Hipótesis nula; o sea, en el caso de que las variables sean independientes. Es la distribución de los valores posibles de ese cálculo (que es una medida de distancia entre Observado y Esperado), en el caso de ser cierta la independencia de las variables. Pensemos que puede haber independencia de las variables y que la muestra obtenida no sea la de la tabla de contingencias Esperada (porque la tabla Esperada es, en realidad, una idealización). Hay un margen de posible alejamiento a ésta, que es lo que nos muestra, precisamente, la forma de la distribución. La posición del Observado respecto a esta distribución es clave para la decisión del contraste. El p-valor (el área a la derecha del valor de ese cálculo: el 33.2 y el 3.33 del gráfico) nos indica la posición relativa de lo que vemos respecto a lo que deberías ver si fuera cierta la Hipótesis nula. El que se calcule el área hacia la derecha es porque, precisamente, cuanto más hacia la derecha nos dé el cálculo, cuanto mayor sea, van decreciendo las posibilidades de la Hipótesis nula y, al mismo tiempo, creciendo las posibilidades de la Hipótesis alternativa. Por encima de un p-valor de 0.05 todavía nos decantamos por mantener la posibilidad de que sea cierta la independencia y ver lo que estamos viendo. Por debajo, no. Por debajo ya consideramos que hay demasiada lejanía entre lo Observado y lo Esperado. Hemos ya traspasado el límite de lo tolerable en el caso de ser cierta la Hipótesis nula. Entender esta forma de razonar es entender la Estadística. Es nuclear. Estamos abordando la esencia de la Estadística.

51. La distribución ji-cuadrado (Ver Herbario de técnicas) se representa mediante la letra griega ji elevada al cuadrado, como puede verse en el gráfico. Esta distribución tiene un único parámetro. Que suele representarse como un subíndice, como puede verse en el gráfico adjunto. En el ejemplo que planteo vale 1, porque tenemos una tabla de contingencias de 2×2. El valor del parámetro es siempre el número de filas de la tabla, menos una, multiplicado por el número de columnas, menos una. Si es, pues, 2×2 el parámetro de la ji-cuadrado es 1, si fuera una tabla 3×2 sería 2, si fuera 4×3 sería 6. Para cada ji-cuadrado diferente el valor de referencia a partir del cual la probabilidad es 0.05 bajo la curva es diferente. En nuestro caso es 3.84, como se puede ver en el gráfico y en cualquier tabla de la ji-cuadrado.

52. Para que el Test de la ji-cuadrado para tablas de contingencias funcione bien se requieren una serie de condiciones. El número de celdas con valores esperados de 5 ó menos no pueden ser más del 20% de todas las celdas. Si la tabla es 2×2 no debería haber ninguna celda bajo estas condiciones. Observemos que en el caso del gráfico anterior, el de abajo, estaríamos fuera de las condiciones.

53. Si se incumplen las condiciones el problema es que el estadístico de test no sigue fielmente la distribución ji-cuadrado y, por lo tanto, estaremos tomando decisiones en base a unos p-valores basados en una distribución, bajo la Hipótesis nula, equivocada.

54. Para los casos en los que se incumple esta condición, y la tabla es 2×2, tenemos el Test exacto de Fisher (Ver Herbario de técnicas).

55. Hay, para acabar, una variante del test de la ji-cuadrado para ver si los valores observados de una serie de clases de individuos se adaptan a unos valores teóricos prefijados.

56. Por ejemplo, supongamos que queremos ver si respecto a los grupos sanguíneos A, B, AB y O, en una población los valores muestras encajan con unos valores teóricos prefijados. Se construye una columna de valores observados y otra de valores esperados y se calcula una distancia entre observado y esperado mediante un estadístico de test (el denominado estadístico de la ji-cuadrado), como hemos visto en las tablas de contingencia. El umbral para aceptar o no la hipótesis nula se obtendrá de una distribución ji-cuadrado con un valor del parámetro que será el número de clases menos 1.

57. Importante: la hipótesis nula, es en este caso, que los datos se ajustan a esta distribución teórica y la hipótesis alternativa es que no se ajustan.

57. Un ejemplo: Supongamos el siguiente caso:

El umbral lo buscaremos en una distribución ji-cuadrado con 3 de valor del parámetro (4 clases menos 1). Si buscamos en la tabla en la sección de COMPLEMENTOS este valor es de 7.81. Por lo tanto, como 32.06 es superior al umbral rechazaríamos la hipótesis nula. Diríamos que no se ajusta a los valores teóricos establecidos.

58. Supongamos que, en el mismo contexto, el esperado fuera este otro:

Tendríamos otro valor de ji-cuadrado, un valor de 2.42 que ahora no supera este umbral, que es el mismo, de 7.81. En este caso sí que mantendríamos la hipótesis nula de que los valores observados se ajustan suficientemente a unos valores teóricos prefijados.

59. Este test de la ji-cuadrado puede aplicarse a situaciones muy diversas. Otro ejemplo: imaginaros que queremos comprobar que un dado es equilibrado; o sea, que tiene la misma probabilidad cada cara. Tendríamos un problema equivalente al mostrado de los grupos sanguíneos pero con seis clases y donde el valor teórico sería 1/6 para cada clase. Lanzaríamos el dado un número determinado de veces, así tendríamos un observado, calcularíamos el esperado en función del número total de lanzamientos que hubiéramos hecho y calcularíamos, finalmente, el valor de la j-cuadrado. El umbral ahora lo encontraríamos en una ji-cuadrado de 5 de valor del parámetro (6 clases menos 1).

23 comentarios en “Tema 8: RELACIÓN ENTRE VARIABLES CUALITATIVAS. EL TEST DE LA JI-CUADRADO

  1. Isabel Morera

    Después de mucho buscar en la web sobre estadística comprensible y básica, sin encontrar nada adecuado a mi nivel de desconocimiento, encuentro este excepcional curso con el que, gracias a la claridad expositiva y presentación de los temas, puedo decir que empiezo a entender, gracias a usted, este mundo complejo y fascinante a la vez.
    ¡¡Muchas gracias!!

    Responder
  2. Ruben

    Muchas gracias, me sirivio de mucho ahora quisira enterner ese estadistica de fisher y que estudio realizar entre variables cuantitativas y que estadistica emplear para comparar una variable cuantitativa con una cualitativa

    Responder
  3. Pingback: Herramientas estadísticas en Medicina (Una hoja de ruta) | LA ESTADÍSTICA: UNA ORQUESTA HECHA INSTRUMENTO

  4. Renato sipho

    Buenas noches, quisiera saber que metodo debo usar para un tipo de proyecto en especial: grado de adherencia en los pacientes de tipo adulto mayor. Tengo mis variables cualitativas y cuantitativas. El grado de adherencia hace referencia a la calidad del tratamiento. Por ejemplo: dos adultos mayores estuvieron sometidos a un mismo tratamiento, pero uno se recupero en menor tiempo que el otro,ya que su cuerpo asimilò de manera optima.

    Responder
    1. estadisticallopis Autor

      Si tienes dos grupos a comparar y una variable cuantitativa «tiempo de recuperación» deberás seguir alguna de las técnicas de comparación de dos poblaciones que verás en el tema 14 del blog. Allí tienes un protocolo que te ayudará a encontrar la técnica adecuada al caso. Un saludo

      Responder
  5. cesar

    Quiero decirte que me ha permitido comprender de manera clara con su presentación un tema que me resultaba complejo, me a ayudado a impulsar mi trabajo de investigación con un enfoque mas apropiado a mis intereses de trabajo, mil gracias.

    Responder
  6. Sergio Rivas

    Buensa tardes Jaume Llopis, que grata sorpresa haber hallado su blog. Es cierto la estadística es una herramienta fascinante, le digo algo más otra ciencia que la va a necesitar cada vez más es la PSICOLOGIA, el potencial está aun oculto. Mi pregunta eso qué tipo de análisis se debe hacer para ver si existe correlación entre una variable cualitativa politómica y otra cualitativa dicotómica? Spearman o ji Cuadrada, y cómo se realizaría en el SPSS. Muchas gracias.
    Var Independiente posee valores : 1 al 5
    Var. dependiente posee valores: 0 o 1

    Responder
    1. estadisticallopis Autor

      Las dos opciones són posibles. Dependerá de si simplemente quieres detectar o no relación o si, además, auieres cuantificar el grado de relación (para ello deberías usar la correlación). Esta segunda opción sería posible siempre y cuando la variable politómica tenga una cierta polaridad que le dé un cierto significado cuantitativo. En SPSS tienes en Análisis y en descripción una opción para cruzar dos variables cualitativas.

      Responder
  7. Marcelo Abud

    Estimado,
    Estoy comparando la mortalidad entre aquellos que recibieron stent o cirugía de revascularización.
    Cuando aplico Ji-cuadrado hay diferencias significativas pero cuando aplico Kaplan-Meier las diferencias no son significativas.
    Cual de los métodos debería considerar como cierto? y que les debemos las diferencias en los resultados de ambos test?

    Responder
    1. estadisticallopis Autor

      Son dos formas de análisis muy distintas. Una cualitativa y otra cuantitativa. Debería conocer con más detalle el caso pero siempre lo cuantitativo es más fino y potente que lo cualitativo. Yo me fiaría más de lo que te dice el Kaplan-Meier.

      Responder
  8. Lucy

    Lucy
    Buenas noches profesor Jaume Llopis, muchas gracias por este tema de variables cualitativas, la estadistica se me hace pesado pero la explicación tan clara y sencilla me ha ayudado a entender cuando y para que debo usar shi cuadrado, me servira mucho para mi tesis.

    Responder
  9. Pingback: ¿Qué es Informática Médica? – informatica médica y bioestadistica

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s