Archivos Mensuales: enero 2013

Comparación entre técnicas de comparaciones múltiples

Es muy interesante comparar las principales técnicas de comparaciones múltiples (LSD de Fisher, BSD de Bonferroni, HSD de Tukey, Duncan, Newman-Keuls y Scheffé). Todas ellas funcionan, como puede verse, buscando un umbral, fijo o móvil, a partir del cual establecer si hay diferencia significativa o no entre todas las posibles comparaciones múltiples. Para hacer una comparación veamos el umbral de cada una de ellas (Ver también el Herbario de técnicas para ver con más detalle de donde sale cada uno de estos umbrales):

IMG_5015

Veamos la aplicación de estas distintas técnicas a unos mismos datos. Se trata de una caso de un ANOVA de un factor a tres niveles fijos con los siguientes datos y con la siguiente tabla ANOVA:

IMG_5014

Este ANOVA ha resultado significativo. El p-valor es 0.0001. Por lo tanto, sabemos que no son iguales los tres niveles, porque rechazamos la Hipótesis nula de igualdad de medias entre los tres niveles. Sabemos, pues, que no son iguales, pero lo que no sabemos todavía es cuáles son las diferencias. En nuestro caso no sabemos si son los tres niveles distintos o si son dos iguales y uno tercero es el que es diferente.

Para responder a esta duda es para lo que disponemos de estas técnicas de comparaciones múltiples que estamos ahora comparando. Voy a aplicar, a continuación, a los mismos datos, los diferentes métodos de comparaciones múltiples que estamos viendo:

IMG_5013

Podemos ver que no todos dan lo mismo. Podemos ver que el Test de Bonferroni, el de Tukey y el de Scheffé son más conservadores, les cuesta más ver diferencias.

Cuando las cosas son claras todas las comparaciones múltiples dan el mismo perfil. Cuando las cosas son dudosas es cuando observaremos diferencias entre los perfiles aportados por uno u otro método de comparaciones múltiples. Cada uno tiene su particular exigencia a la hora de establecer una diferencia significativa entre dos medias. Pero, repito, si las cosas son muy claras todos acaban dibujando el mismo perfil.

Test de Scheffé

El Test de Scheffé es un test de comparaciones múltiples. Permite comparar, como los demás contrastes de este tipo, las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA.

Todos los tests de comparaciones múltiples son tests que tratan de concretar una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

El Test de Scheffé crea también umbral, como las otras técnicas de comparaciones múltiples, y las diferencias que superen ese umbral serán, para el método, significativas, y las que no lo superen no lo serán.

IMG_5007

 

Para comparar las  diferentes técnicas de comparaciones múltiples es recomendable leer el articulo Comparación entre técnicas de comparaciones múltiples.

Test de Bonferroni

El Test de Bonferroni es un test de comparaciones múltiples. Permite comparar, como los demás contrastes de este tipo, las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA.

Todos los tests de comparaciones múltiples son tests que tratan de concretar una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

El Test de Bonferroni hay que entenderlo en relación con el Test LSD de Fisher. Se basa en la creación de un umbral, el BSD (Bonferroni significant difference) por encima del cual, como el LSD en el Test LSD, la diferencia entre las dos medias será significativa y por debajo del cual esa diferencia no lo será de estadísticamente significativa.

Si se comparan ambos test (Ver Test LSD en Herbario de técnicas) se verá que el cambio está en el nivel de significación elegido. En el Test de Bonferroni el nivel de significación se modifica en función del número de comparaciones a hacer. Esto elimina el problema de hacer comparaciones múltiples. Reduce el nivel de significación en tal medida que elimine el error de aplicar el test tantas veces al mismo tiempo.

El BSD se calcula, pues, de la siguiente forma:

IMG_5006

La peculiaridad de esta técnica es la reducción del nivel de significación, la división del nivel alfa habitual por M, el número total de comparaciones posibles de dos en dos. De esta forma se compensa el posible error que puede cometerse al ir haciendo muchas comparaciones dos a dos, cada una de ellas con esa prefijada posibilidad de error alfa.

Para ver una visión comparada de las diferentes técnicas de comparación múltiples ver el artículo Comparación entre técnicas de comparaciones múltiples.

Test de Newman-Keuls

El Test  Newman-Keuls es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA.

Todos los tests de comparaciones múltiples son tests que tratan de perfilar una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

Este Test es realmente paralelo al Test de Duncan (Ver Herbario de técnicas). Utiliza un umbral móvil, como esa técnica, basado en el número de medias están implicadas en el recorrido de la resta de medias comparada pero con una diferencia: aquí el nivel de significación no cambia, no se altera, se mantiene en el general, que suele ser, como siempre en Estadística, 0.05. No aumenta como sucede en el Test de Duncan. Esto le convierte en un Test más conservador, con menos potencia.

Veamos cuál es en este Test el umbral empleado:

IMG_5005

Para comparar las diferentes técnicas de comparaciones múltiples es recomendable leer el artículo Comparación entre técnicas de comparaciones múltiples.

Test de Duncan

El Test de Duncan es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Todos los tests de comparaciones múltiples son tests que tratan de perfilar, tratan de especificar, tratan de concretar, una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

El Test de Duncan es muy similar al Test HSD de Tukey (Ver Herbario de técnicas), pero en lugar de trabajar con un umbral fijo trabaja con un umbral cambiante. Un umbral que dependerá del número de medias implicadas en la comparación.

Para saber el número de medias implicadas en la comparación se ordenan las medias muestrales de menor a mayor y así al hacer una comparación entre dos medias sabremos además de las dos medias comparadas cuantas medias quedan dentro. Este número de medias implicadas en cualquier comparación de medias es el parámetro p de este umbral.

Veamos este umbral y cómo se calcula:

IMG_5002

Se basa el procedimiento, también, en la distribución de los rangos estudentizados (Ver Test HSD de Tukey en el Herbario de técnicas).

Es interesante comparar el Test HSD y el Test de Duncan. Este cambio tanto en el número de medias implicada como en el nivel de significación genera un umbral más pequeño. Esto da una mayor capacidad de encontrar diferencias mediante el Test de Duncan porque los umbrales son más pequeños y, por lo tanto, es más fácil encontrar diferencias entre las medias comparadas. En estos casos, en Estadística, decimos que el Test de Tukey es más conservador que el Test de Duncan o que tiene menor potencia.

Si se quiere comparar las diferentes técnicas de comparaciones múltiples es recomendable leer el artículo Comparación entre técnicas de comparaciones múltiples.

Test HSD de Tukey

El Test HSD (Honestly-significant-difference) de Tukey es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Es, por lo tanto, un test que trata de perfilar, trata de especificar, una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

Se basa en la distribución del rango estudentizado que es la distribución que sigue la diferencia del máximo y del mínimo de las diferencias entre la media muestral y la media poblacional de t variables normales N(0, 1) independientes e idénticamente distribuidas.

Se establece así un umbral, como en otros métodos, como el Test LSD (Ver Herbario de técnicas). Se calculan todas las diferencias de medias muestrales entre los t niveles del factor estudiado. Las diferencias que estén por encima de ese umbral se considerarán diferencias significativas, las que no lo estén se considerarán diferencias no significativas.

IMG_4998

Observemos que el test está diseñado para el mismo tamaño muestral por nivel, por esto aparece esta n común. Si tenemos tamaños muestrales distintos se toma entonces como n la media armónica de esas medias. La media armónica de dos medias es la siguiente:

IMG_5003

Para nuestro caso debería generalizarse a t medias simplemente sustituyendo el 2 por el número t.

Para ver cómo funciona la distribución del rango estudentizado veamos una tabla donde se buscarían estos valores:

IMG_4999

Observemos que en la tabla hay un valor de el número de medias, en la nomenclatura seguida por nosotros sería la t, los t niveles del factor. En la tabla le llama k. Los grados de libertad son el N-t nuestro. La tabla da umbrales para dos niveles de significación alfa: 0.05 y 0.01.

Finalmente, para poder comparar esta técnica de comparaciones múltiples con las otras que suelen utilizarse leer el artículo Comparación entre técnicas de comparaciones múltiples.

Test LSD de Fisher

El Test LSD (Least significant difference) de Fisher es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Todos los tests de comparaciones múltiples son tests que tratan de perfilar, tratan de especificar, tratan de concretar, una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

El Test se basa en la creación de un valor común, un umbral, basado en un test de la t de Student. Se realizan todas las diferencias entre medias de los t niveles. Las diferencias que estén por encima de este umbral indicarán una diferencia de medias significativa y las diferencias que estén por debajo indicarán una diferencia no significativa:

IMG_4997

Los paquetes estadísticos calculan este valor de LSD y a partir de él, calculan todas las diferencias de medias posibles y valoran cuáles están por encima y cuáles están por debajo de este umbral. Así acaban diseñando cuál es el perfil de la Hipótesis alternativa elegida mediante el ANOVA previo.

Para comparar las diferentes técnicas de comparaciones múltiples es recomendable leer el artículo Comparación entre técnicas de comparaciones múltiples.

Ejemplo de determinación del tamaño de muestra

Veamos un ejemplo en un artículo científico de cómo se cita la determinación del tamaño de muestra:

IMG_4979

Al calcular el tamaño muestral en un estudio con una variable dicotómica, como la de este trabajo: mortalidad (La gente tratada o no tratada se valora si muere o no muere después de un tiempo determinado), se necesita tener un valor estimado de la proporción de uno de los grupos. En este caso hablan del grupo control y dicen que anticipan que debe ser del 45%.

Establecen un error alfa (Aceptar la Hipótesis alternativa siendo cierta la Hipótesis nula) del 0.05 y un error beta (Aceptar la Hipótesis nula siendo cierta la Hipótesis alternativa) del 0.2. Digo 0.2 porque dicen que la potencia es al menos del 80% (=0.8, en tanto por uno).

Normalmente el error alfa se coge de este orden, 0.05, y el error beta de 0.2 ó menor. El que se tome un error beta superior al alfa es por la razón de que es más grave, en Ciencia, rechazar una Hipótesis nula cierta que no aceptar una Hipótesis alternativa cierta.

Consideran que para detectar una reducción del 20%; o sea, pasar del 45% del control al 36% del grupo de los tratados (El 20% de 45 es 9; si a 45 le restamos 9 tenemos 36), con estos errores alfa y beta.

El artículo dice que esto valdría para incluso que al final el valor de la mortilidad del grupo control sea del 37%. Y, como mínimo, se considera que la reducción de la mortalidad entre los tratados debe ser del 20% estaremos pasando de un 37% del grupo control a un 29.6% de los tratados (El 20% de 37 es 7.4; si a 37 le restamos 7.4 tenemos 29.6).

Vamos estos cálculos hechos con el calculador del link que aparece en el tema dedicado a la Determinación del tamaño de muestra.

Primero veamos la muestra que se requiere si el control tuviera el 45% y el tratamiento al menos con una reducción del 20%:

IMG_4980

Para esto necesitaríamos 466 valores de cada grupo, como puede leerse en el calculador.

Veamos qué pasaría si el grupo control tuviera una mortalidad del 37%:

IMG_4981

Ahora el tamaño de muestra necesario sería 635 por grupo.

Ellos en el artículo dicen 1200 (600+600). En realidad, en este caso más bajo, si la proporción del control fuera del 37% y hubiera una reducción del 20%, debería tomarse una muestra de tamaño 1270 entre los dos grupos.

Odds ratio versus Hazard ratio

Dos conceptos estadísticos muy usuales en el lenguaje de la Medicina son el concepto de Odds ratio (Ver el tema dedicado a las Medidas de la relación entre variables cualitativas) y el concepto de Hazard ratio (Ver los temas dedicados al Análisis de supervivencia y a la Regresión de Cox).

Vamos a delimitar uno y otro a través de un ejemplo que espero que aclare las similaridades y las diferencias entre ellos.

Supongamos dos tratamientos contra un determinado tipo de cáncer: El tratamiento 0 y el tratamiento 1. Supongamos, también, que a los 10 años se analiza cuántos de los tratados de una forma u otra, en un estudio clínico, han presentado metástasis y cuántos no la han presentado. Supongamos que los datos son los siguientes:

IMG_4991

En cada tratamiento, de los 20 tratados, a los 10 años 10 tienen metástasis y 10 no. Esto nos da una Odds ratio (OR) de 1. No hay ventaja de un tratamiento respecto de otro, visto desde los 10 años, y sin más perspectiva temporal que esa, la de los 10 años.

La OR es una mirada a una relación en un momento temporal, prescindiendo de lo que ha pasado en el recorrido hasta llegar allí. Es una mirada estática. La Hazard ratio (HR) es, por el contario, una mirada dinámica, es una mirada al recorrido, es una relación entre recorridos. Diferentes estudios pueden tener una misma OR pero con HR muy diferentes, como vamos a ver en este ejemplo.

Veamos, pues, ahora la información no desde los 10 años, sino durante los 10 años. Veamos el recorrido de cada tratamiento durante esos 10 años. Supongamos que las 10 metástasis de cada grupo de tratamiento se producen a lo largo de estos años según uno de los tres patrones distintos A, B y C que se muestran a continuación:

IMG_4993

Las cosas, evidentemente, son bien distintas según tengamos un patrón u otro. En A, en B y en C la relación entre los dos tratamientos es completamente distinta. Viendo cuidadosamente los datos ya se puede apreciar perfectamente la diferencia. En A no hay diferencias, en B es mejor el tratamiento 1, porque la metástasis llega más tarde. En C, finalmente, el mejor es el tratamiento 0, porque es ahora en él que las metástasis llegan más tarde. Pero, veámoslos con más detalles.

En A el perfil es muy similar en ambos tratamientos, es prácticamente igual. El Hazard ratio (HR) es, entonces, 1. Observemos la curva de supervivencia y la función de riesgo de los dos tratamientos. En ambos casos, la función de un tratamiento y la del otro son prácticamente iguales. El HR lo que hace es establecer una relación entre ambas curvas, entre ambas funciones, y, en este caso, la relación es 1, porque están prácticamente solapadas:

IMG_4994

En B los perfiles de un tratamiento y del otro son, ahora, muy distintos. El tratamiento 1 tiene menor riesgo que el tratamiento 0. La función de riesgo del tratamiento 1 va por debajo de la del tratamiento 0. La curva de supervivencia del tratamiento 1 va, entonces, lógicamente por encima. El HR es 0.25. La HR es una relación entre curvas, entre funciones; es una cuantificación de la posición relativa de una función respecto de la otra. En este caso la relación es entre la curva del tratamiento 1 respecto a la del tratamiento 0 y se hace, siempre, respecto a la función de riesgo. Veamos las curvas de supervivencia y las funciones de riesgos de ambos tratamientos, especialmente las funciones de riesgo donde vemos que la del tratamiento 1 está unas cuatro veces, en promedio, por debajo de la del tratamiento 0:

IMG_4995

En C los perfiles de los dos tratamientos también son muy distintos. Pero ahora ocurre justo todo lo contrario (porque, observemos, que los datos son los mismos pero cambiados de posición). El tratamiento 1 tiene ahora mayor riesgo que el tratamiento 0. El HR es ahora 4, porque la relación entre la función de riesgo del tratamiento 1 y la función de riesgo del tratamiento 0 es, en promedio, 4. Veamos ahora las curvas de supervivencia y las funciones de riesgos de ambos tratamientos y veamos cómo la función de riesgo del tratamiento 1 va unas cuatro veces por encima de la función de riesgo de la función del tratamiento 0:

IMG_4996

La HR, por lo tanto, cuantifica la posición relativa de una función de riesgo respecto de la otra. Es un cociente de funciones. Tiene en cuenta no el final de un recorrido sino la dinámica de ese recorrido. Esto es un elemento claramente diferencial respecto a la OR que mira las cosas en un punto estático. Digamos, pues, que la OR es estática y la HR es dinámica.

Tanto en OR como en HR hay que prestar siempre mucha atención qué está en el numerador del cociente y qué está en el denominador de la relación. Porque que sea la OR o la HR mayor que 1 o menor que 1 cambia completamente el sentido de la relación. En nuestro caso, la HR está dando la relación entre la función de riesgo del tratamiento 1 respecto a la función de riesgo en el tratamiento 0.

En muchos artículos de Medicina donde se exponen OR o HR se acostumbra a informar de qué tratamiento o condición tiene más o menos riesgo a la derecha y a la izquierda del 1, para que no haya dudas en la interpretación.

Observemos, también, un fenómeno también común de la OR y de la HR: la distinta escala a la izquierda y a la derecha del 1 pero con valores paralelos: observemos en nuestro caso que una HR da 0.25 y la otra da 4. Porque son equivalentes (valores intercambiados en el caso B y el C): una hacia la izquierda y la otra hacia la derecha del 1 (1/4 ó 4/1). Cuatro veces menos riesgo de una respecto a la otra o cuatro veces más riesgo de una respecto de la otra.

Las escalas en la Odds ratio

La Odds ratio es una medida del grado de relación entre dos variables cualitativas (Ver Tema dedicado a esas medidas) o entre una cualitativa y una cuantitativa (Ver el Tema dedicado a la Regresión logística).

Es una medida muy habitual en Medicina. En este ámbito la variable cualitativa: tener o no tener una determinada patología, por ejemplo, es nuclear.

La Odds ratio es una medida que va de 0 a infinito. Con el 1 como punto donde cambia el sentido del tipo de relación entre las variables relacionadas. Del 0 al 1 tenemos un significado opuesto al de la zona del 1 al infinito.

Son, de hecho, dos zonas con escalas distintas. Como estamos hablando de una relación (una ratio): el 10 es equivalente a 0.1, el 100 lo es de 0.01, y así sucesivamente. Equivalente en cuanto a magnitud de la relación pero opuesto en cuanto al sentido de la relación. El la correlación de Pearson (Ver el Tema dedicado a la Correlación) el signo es lo que marca este distinto sentido.

Es habitual ver en artículos de Medicina una representación de las Odds ratio en gráficos con un cambio de escala a izquierda y derecha del 1, como el que se muestra en el gráfico siguiente extraído de un artículo de una importante revista en Medicina:

IMG_4982

Suelen dibujarse intervalos de confianza del 95%. Aquí, evidentemente lo importante, para evaluar la significación es, como ya hemos visto en el tema dedicado a las medidas de la relación entre variables cualitativas, que el intervalo no contenga al 1, porque si lo contiene significa que la relación entre esas dos variables tanto puede ser de un sentido como del contrario. Está todo abierto acerta de la relación. Por lo tanto, hemos de mantener, todavía la Hipótesis nula de Odds ratio igual a 1, que es lo que podemos decir antes de hacer cualquier tipo de estudio de relación entre estos tipos de variables.