Archivo de la categoría: ESTADÍSTICA Y MEDICINA

El Box-Plot en Medicina

Hemos visto en el Tema 2: Estadística descriptiva, un excelente gráfico que resume en poco espacio una información muy valiosa. Pongo a continuación unos ejemplos de aplicación de este tipo de gráfico, en Medicina. Es muy importante familiarizarse con él porque proporciona una información descriptiva muy valiosa.

Veamos el gráfico siguiente donde se muestran cuatro Box-Plot, uno por cada tipo funcional de insuficiencia cardíaca, usando como variable analizada la concentración del Péptido natriurético tipo B, el conocido por las siglas BNP:

IMG_6929

El siguiente es un análisis de la misma variable (BNP) pero ahora comparando una diferente agrupación de pacientes, según tengan una insuficiencia cardíaca no congestiva, una dísnea no cardiogénica pero con disfunción ventricular izquierda y, finalmente, un grupo con dísnea originada por una insuficiencia cardíaca congestiva:

IMG_6926

El objetivo de esta última tabla es mostrar que cuando se combina afectación pulmonar y cardíaca el nivel de BNP aumenta.

Pero lo que quiero destacar aquí es el uso de estos interesantes gráficos (los Box-Plot) que de una tacada permiten visualizar el mínimo, el máximo, el primer cuartil, la mediana, el tercer cuartil, el rango, el rango intercuartílico de una muestra, y, habitualmente, la media muestral, aunque en este caso no aparece.

Un ejemplo de determinación del tamaño de muestra en Medicina

A continuación voy a comentar el proceso de elección del tamaño de muestra en el estudio del artículo siguiente:

IMG_6860

En este artículo se evalúa el efecto de una determinada acción rehabilitadora sobre enfermos que han padecido un ictus. Se comparan dos grupos: el control y el tratado. Para la elección del tamaño de muestra se escribe lo siguiente en el artículo (incluyo toda la parte del análisis de datos, aunque lo que nos interesa ahora es únicamente el primer párrafo):

IMG_6857

Observemos que en la descripción de la elección del tamaño de muestra elegido incluye todos los elementos que hay que tener en cuenta y que hemos visto en el Tema 16: DETERMINACIÓN DEL TAMAÑO DE MUESTRA: el error de tipo I (0.05), el error de tipo II (0.20 ó 20%) y su equivalente: la potencia (80%). Que el test sea bilateral; o sea, que interesa ver tanto si va bien como si va mal, el tratamiento. La Desviación estándar supuesta que se tendrá (10), que puede haberse conseguido o por estudios previos o por una premuestra, y, finalmente, qué diferencia mínima interesa detectar (una diferencia de 5 puntos en el índice SF-36). Una diferencia por debajo de la cual se consideraría que médicamente no tendría relevancia.

Es muy importante entender bien todos estos elementos. Porque siempre están presentes en la elección. A continuación, usando el GRANMO ( Ver, de nuevo, el Tema 16), se trata de buscar la opción de comparación de dos variables independientes y hemos de especificar los siguientes

parámetros (Uso ahora la opción del GRANMO como aplicación, pero es lo mismo que se puede conseguir en la página web):

IMG_6859

El programa nos devuelve la siguiente especificación:

IMG_6858

Nos dice que hemos de usar 63 pacientes por grupo que es lo que han hecho los que han planteado el estudio comentado. Esto significa que si la diferencia es mayor de 5 unidades del índice SF-36 lo detectaremos como estadísticamente significativo.

El Test de no inferioridad en Medicina

En los ensayos clínicos con mucha frecuencia se compara un nuevo fármaco con uno de ya establecido. Y en esa comparación se busca especialmente no un contraste de hipótesis de igualdad versus diferencia, sino un tipo especial de contraste denominado Test de no inferioridad.

Un Test de no inferioridad es, en realidad, un tipo especial de Test unilateral, pero que, con mucha frecuencia, como veremos a continuación, se plantea a través de intervalos de confianza.

Como bien dice su nombre se trata de un Test en el que se quiere demostrar la no inferioridad. Como en Ciencias lo que se pretende demostrar ocupa habitualmente, en los contrastes de hipótesis, la posición de la Hipótesis alternativa el contraste tendrá en general este aspecto:

IMG_5529

En la Hipótesis nula tendremos la inferioridad del tratamiento respecto al control y en la Hipótesis alternativa tendremos la no inferioridad que queremos demostrar.

Supongamos que lo que estamos evaluando es una variable dicotómica y que, por lo tanto, tendremos una proporción para el Tratamiento (que llamaremos T) y una proporción para el Control (que llamaremos C). Supongamos, en primer lugar, que evaluamos una proporción de efectos positivos (por ejemplo, porcentaje de personas que responden positivamente). El contraste sería, entonces:

IMG_5547

Supongamos, en segundo lugar, que evaluamos una proporción de efectos ahora negativos (por ejemplo, porcentaje de personas que mueren). El contraste sería, entonces:

IMG_5548

Observemos que en ambos casos en la Hipótesis alternativa se afirma la no inferioridad.

Un caso particular de este último planteamiento sería si la variable que se analiza es un Riesgo Relativo (RR). Si lo que comparamos es el RR de T respecto a C el Test de no inferioridad sería entonces:

IMG_5549

El problema que hay en estas tres situaciones es que, de hecho, tal como están planteados los test estamos, «de facto», ante un test más de superioridad que no de no inferioridad. Estamos ante un test excesivamente exigente. Para evitar este problema se introduce un umbral, un límite, un valor de tolerancia para establecer la no inferioridad. No necesariamente se trata de evaluar si una proporción está por debajo o por encima de la otra, sino que, en general, se puede establecer que la no inferioridad esté por debajo o por encima de una cierta diferencia entre las proporciones del tratamiento o del control. Entonces estos contrastes se plantearían de las siguientes formas:

IMG_5533

IMG_5534

El contraste se suele realizar, en estos casos, evaluando intervalos de confianza. Esto es algo característico de este tipo de Test. Veamos, en ambos casos, qué posición ocuparía un intervalo de confianza para mantener la Hipótesis nula (ejemplo en azul) o para rechazarla y aceptar, entonces, la Hipótesis alternativa (ejemplo en rojo):

IMG_5535

IMG_5536

Si lo hacemos a través de una zona crítica y un p-valor entonces el planteamiento será como el dibujado en los gráficos siguientes:

IMG_5537

IMG_5538

Con una zona para la Hipótesis nula y otra para la Hipótesis alternativa. El punto de corte de ambas zonas lo marcarán aspectos como el tamaño de muestra y la dispersión que tengamos en el estudio.

Veamos un ejemplo concreto en un caso de test de no inferioridad del Dabigatrán respecto a la Warfirina:

Presentación2

A la izquierda vemos la formulación de lo que sería a priori el test de no inferioridad y a la derecha vemos lo que sería el test de superioridad. De facto, planteado de la primera forma, el test de inferioridad se transforma, de facto, en un test de superioridad, por lo tanto, se transforma en un test muy exigente, un test que exige que cualquier intervalo de confianza excluya al 1.

En realidad, para que se conviertan en auténticos test de no inferioridad hace falta fijar un valor, un umbral para dejarle un espacio a la Hipótesis alternativa.

Obsérvese los diferentes intervalos de confianza. En azul los que nos harían mantener la Hipótesis nula, en rojo los que nos harían pasar a la Hipótesis alternativa.

El problema en estos test es la elección de este umbral, de este valor de referencia.

Un ejemplo de Test de McNemar en Medicina

Se ha publicado un interesante estudio en el New England Journal of Medicine de aplicación del Test de McNemar en Medicina que vale la pena comentar.

Se compara la eficacia de un páncreas artificial automatizado, que controla la glucemia y suministra insulina en continuo, respecto a un sistema de control estándar en pacientes con Diabetes tipo 1. Se usan los dos sistemas de control en un grupo de pacientes. En dos noches distintas se ensayan cada uno de estos métodos en todos los pacientes. La variable respuesta es si en algún momento han sufrido una hipoglucemia durante la noche. La variable es, pues, dicotómica: tener o no una hipoglucemia.

Si miramos es cuadro de elección de la técnica a aplicar en el tema «Comparación de dos poblaciones», veremos que como es una variable dicotómica y son muestras relacionadas (al mismo individuo se le aplican los dos procedimientos comparados) deberemos aplicar un Test de McNemar.

Los datos que se obtienen son los siguientes:

IMG_5212

Como se puede ver en el Test de McNemar (Ver Herbario de técnicas) la clave es tener en cuenta únicamente las casillas donde se producen resultados contrarios en las dos técnicas. En nuestro caso, únicamente interesa cuándo se ha dado hipoglucemia en una técnica de control y no se ha dado en la otra. Nos interesan los valores 22 y 7, claro.

Veamos la aplicación del Test a nuestros datos:

IMG_5213

Estamos contrastando la igualdad de proporciones entre ambas técnicas de control versus la desigualdad, como siempre.

En las tablas de la ji-cuadrado (Ver el artículo dedicado a la Distribución ji-cuadrado en Complementos), podemos ver que en una ji-cuadrado con valor 1 del parámetro, a partir del valor 3.8415 el área es de 0.05. Este es, pues, el nivel de significación. Al ser 7.75 mayor que este valor debemos rechazar la Hipótesis nula y decir que hay diferencias significativa. El p-valor es inferior a 0.05.

La Estadística descriptiva en Medicina

La Estadística descriptiva está casi siempre presente en los artículos de las revistas de Medicina. Es interesante y conveniente destacar cuáles son los contextos de esos artículos en los que más abunda ese tipo de aproximación estadística a una muestra y cuáles son los cálculos más habituales de uso y cuál es la forma de presentación mayoritaria.

Fundamentalmente son tres los contextos en los que es más habitual el uso de la Estadística descriptiva en estos artículos. Veamos uno por uno, con ejemplos concretos tomados de revistas médicas, cuáles son esos tres contextos mayoritarios.

1. En todos los estudios donde se pretende abordar el seguimiento de una serie de personas que se han dividido en diferentes grupos que van a ser tratados de formas distintas (por ejemplo: en un ensayo clínico), se hace una Estadística descriptiva de las características más relevantes para el estudio que tiene cada uno de esos grupos, en el punto de partida. Con la finalidad básica de mostrar que para esas variables no hay diferencias destacables. Para comprobar, en definitiva, una homogeneidad entre los grupos.

Veamos algunos ejemplos:

En la primera tabla consta la descripción de los grupos de pacientes a los que se les aplicaron cada uno de los dos tratamientos comparados para reparar problemas de obstrucción a nivel de arterias coronarias: el sistema percutáneo (Percutaneous coronar y intervention (PCI)) y el bypass (Coronary-artery bypass grafting (CABG)):

IMG_5167

En la siguiente tabla consta la Estadística descriptiva de los dos grupos de pacientes estudiados para comparar el efecto de la aspirina, a pequeñas dosis diarias, en la prevención de problemas tromboembólicos:

IMG_5169

 En la siguiente tabla consta la Estadística descriptiva de los tres grupos experimentales de un interesante estudio donde se pretendía valorar la eficacia de la dieta mediterránea en la prevención de enfermedades cardiovasculares. Los dos primeros grupos seguían una dieta establecida con el añadido de aceite de oliva virgen (Extra-virgin olive oil (EVOO)) o de nueces. El tercero seguía una dieta control estándar:

IMG_5174

2. Cuando los grupos descritos comentados en el apartado anterior, en su punto de partida, al inicio del experimento, han sido sometidos cada uno de ellos a un distinto tratamiento se usa de nuevo la Estadística descriptiva para cuantificar variables resultado, variables que detecten problemas. Ahora se busca la diferencia, se busca si en algún grupo hay menos casos de alguna patología que en otro, etc.

Veamos ejemplos:

En la primera tabla constan los resultados de la comparación de los dos grupos que antes hemos visto del estudio comparativo de la reparación percutánea o mediante bypass de problemas de obstrucción coronaria:

IMG_5168

En la siguiente constan los resultados de los grupos donde se estudiaba el efecto protector de la aspirina a dosis bajas diarias:

IMG_5170

En el caso del estudio del efecto de distintas dietas sobre los problemas cardiovasculares los resultados descriptivos finales son los siguientes:

IMG_5176

3. Finalmente, hay un tercer tipo de contexto en el que se suele hacer una Estadística descriptiva. En ocasiones es el propio estudio el que llega a generar una serie de grupos homogéneos, pero ahora se trata de una homogeneidad final, de resultados, no una homogeneidad de partida como en el caso del punto 1. Por ejemplo: Pacientes que acaban siendo diagnosticados de alguna enfermedad o no. Pacientes que acaban muriendo o no, etc. Se trata, entonces, en estos casos, de visualizar descriptores que los caractericen mediante la Estadística descriptiva.

Veamos algún ejemplo:

En la siguiente tabla consta la Estadística descriptiva de los datos comparativos entre atletas que no han sobrevivido o que sí han sobrevivido después de haber sufrido un infarto de miocardio en carrera. En este caso la muestra inicial era del registro, en EEUU, desde el año 2000 hasta el 2010, de los casos de infarto de miocardio habidos en marathones o en medias marathones. Pero aquí la focalización está puesta en separar los grupos según el resultado, describirlos y compararlos:

IMG_5171

Otro caso de este tipo es el de la siguiente tabla. Se trata de un estudio de infecciones localizadas en marcapasos. Se presenta una Estadística descriptiva separando los que a corto plazo han sobrevivido y los que también a corto plazo han fallecido. De nuevo, pues, una descriptiva separada por grupos según el resultado final:

IMG_5178

En cualquiera de estos tres tipos de situaciones, cuando son varios los grupos a los que se les calculan estos valores descriptivos es habitual aplicar alguna técnica inferencial para ver si hay diferencias significativas entre esos grupos. Como puede verse en las tablas adjuntas, es habitual añadir una columna con los respectivos p-valores de cada una de esas comparaciones. Cuando se trata de la descripción de grupos, como hemos visto en el primer tipo de tablas, a los que se les ha sometido a un tratamiento distinto interesa que en las variables descritas a nivel de punto de partida del estudio no se detecten diferencias significativas para comprobar, así, que las condiciones de partida eran equivalentes. Sin embargo, como hemos visto en el segundo tipo de tablas, cuando a estos mismos grupos, después del tratamiento, se comparan variables resultado ahí sí que interesa ver diferencias. Y en el caso del tercer tipo de tablas, como en el segundo, interesa que esas comparaciones muestren diferencias significativas también.

La descripción variable por variable suele hacerse, como se ha visto en las tablas anteriores, en cantidad absoluta y relativa (habitualmente, ésta, en porcentaje) si se trata de una variable cualitativa dicotómica. Si la variable es cuantitativa suele o darse mediante la media±desviación estándar o bien mediante la mediana y el rango intercuartílico, normalmente entre paréntesis. Y ese rango no expresado precisamente como rango sino dando explícitamente los valores del primer y el tercer cuartil, que son los valores cuya resta constituyen, realmente, el rango intercuartílico.

¿Cuándo usar una u otra formulación en una variable cuantitativa? Si el comportamiento de una variable es de distribución normal lo más conveniente es describir aquella variable mediante la media±desviación estándar, porque con estos dos valores lo tenemos todo, porque teniendo estos dos números lo podemos saber todo de la variabilidad de esa variable. Incluso, evidentemente, el propio rango intercuartílico. Si el comportamiento de una variable no es el de una distribución normal es mucho más razonable describirla mediante la mediana y el rango intercuartílico. Porque la tendencia habitual si se tiene la media±desviación estándar es a hacer aquellas típicas inferencias que sólo son ciertas si la variable sigue la distribución normal: M±1DE supone el 68.5% aproximadamente de la población, M±2DE supone el 95% aproximadamente de la población y M±3DE supone el 99.5% aproximadamente de la población. Esto si la variables no es normal no es cierto. Para evitar esta inferencia inconsciente, muy habitual por desgracia, es mejor trabajar, evidentemente, con la mediana y el rango intercuartílico que son medidas que digamos están más próximas a la descripción propiamente dicha y no tienen tantas connotaciones inferenciales como las tienen la media y la desviación estándar.

No es un problema, como suele pensarse en ocasiones, de tamaño de muestra. Hay una creencia establecida, por parte de muchos usuarios de la Estadística, que si una muestra es pequeña deben usarse descriptores tipo mediana y percentiles y si la muestra es grande puede usarse y debe usarse la media y la desviación estándar. Esto no es así. El uso de unos u otros descriptores no depende del tamaño muestral, depende de la normalidad de la muestra, de su ajuste a la campana de Gauss.

Si la muestra sigue la distribución normal (sea el tamaño de muestra grande o pequeño) al describir la muestra en términos de media±desviación estándar se está dando, también, implícitamente, una aproximación muy buena de la mediana y del rango intercuartílico de esa muestra.

Si repasamos la forma de trabajar la tabla de la normal N(0, 1), en el artículo “La Distribución normal” del apartado de Complementos, podemos ver que si la distribución es normal calcular la media±0.68*desviación estándar nos da un valor muy similar al de mediana y rango intercuartílico. O sea, en una distribución normal cualquiera la media±0.68*desviación estándar construye un intervalo del 50% de valores poblacionales.

Observemos esto que digo en la tabla descriptiva siguiente, que es una de las que hemos visto antes, pero focalizando en un sector más pequeño de ella, en el sector remarcado en rojo:

IMG_4113

Si se observa la variable SYNTAX score podemos ver que, curiosamente, porque no es habitual que sea así, la información se da en las dos formas. Aprovechémonos de ello para compararlas. Observemos que en los pacientes tratados con el sistema PCI la media y la desviación estándar se nos muestra mediante la expresión: 26.2±8.4. Si cogemos esta Desviación estándar y la multiplicamos por 0.68 tenemos un valor de 5.7 lo que nos da un intervalo de valores que va de 20.5 a 31.9. Observemos la similitud con el valor de rango intercuartílico en la muestra: (20.5-31.0). Como puede apreciarse se trata de dos intervalos muy similares el calculado basándonos en la información de la desviación estándar y el calculado basándonos exclusivamente en la muestra. También la mediana y la media son muy similares: 26.0 y 26.2, respectivamente. Esto es porque la variable debe tener una distribución muy bien ajustada a una normal.

Lo mismo sucede con los tratados con el sistema CABG donde la media es 26.1±8.8. Si cogemos de nuevo, ahora, esta Desviación estándar y la multiplicamos por 0.68 tenemos un valor de 5.98 lo que nos da un intervalo de valores que va de 20.12 a 32.08. Observemos también ahora la similitud con el valor de rango intercuartílico de la muestra: (19.5-31.5). Como puede apreciarse se trata también ahora de dos intervalos muy similares. También la mediana y la media son muy similares ahora: 26.0 y 26.1, respectivamente.

Si ahora observamos la variable EuroSCORE sucede una cosa completamente contraria. La media y la mediana son bien distintas. Además, si tomamos la media y le sumamos y le restamos 0.68 multiplicado por la desviación estándar, para conseguir un intervalo del 50%, veremos que ahora en absoluto se parece al rango intercuartílico. Cojamos el caso del grupo PCI: 0.68 multiplicado por 2.4 es 1.63. Si sumamos y restamos a 2.7, que es la media construimos una intervalo del 50% que va de 1.07 a 4.33, que es bien distinto al del rango intercuartílico: (1.3-3.1). Es más: observemos que si le restamos a la media dos veces la desviación estándar (2.7- 2×2.4) nos posicionamos en el valor -2.1, un valor negativo. El EuroScore no puede ser menor que cero. Esto indica, claramente, que el EuroScore no sigue la distribución normal. Observemos que la media del grupo PCI (2.7) está próxima al tercer cuartil (3.1). Esto es claramente indicativo de la asimetría de la variable, de la no normalidad. Con el grupo CABG sucede exactamente lo mismo. Por lo tanto, claramente, a partir de la media y la desviación estándar no podemos hacer las inferencias que se suelen hacer habitualmente. En esta situación la desviación estándar no tiene la misma trascendencia como descriptor. Por esto, en estos casos, es más recomendable manejar la mediana y el rango intercuartílico.

Es por lo tanto muy importante saber en qué momentos tiene sentido usar uno u otro sistema descriptivo. Y es muy importante, también, saber usar bien la desviación estándar, saber qué papel juega, saber cuándo puede tener mucho protagonismo y cuándo debe quedar más en un segundo plano.

Resumiendo:

1. Si la variable sigue la distribución normal el cálculo de la media y la desviación estándar es mejor porque además de proporcionarte la información de la dispersión de los valores a distintos niveles te da también la información de la mediana y el rango intercuartílico.

2. Si la variable no se distribuye según una normal es conveniente dar la mediana y el rango intercuartílico. La media y la desviación estándar, en este caso, pueden llevar a inferencias rutinarias peligrosas. De hecho, la desviación estándar es muy buen descriptor pero peligroso. Bien usado perfecto, pero mal usado puede llevar a inferencias muy alejadas de la realidad.

Odds ratio versus Hazard ratio

Dos conceptos estadísticos muy usuales en el lenguaje de la Medicina son el concepto de Odds ratio (Ver el tema dedicado a las Medidas de la relación entre variables cualitativas) y el concepto de Hazard ratio (Ver los temas dedicados al Análisis de supervivencia y a la Regresión de Cox).

Vamos a delimitar uno y otro a través de un ejemplo que espero que aclare las similaridades y las diferencias entre ellos.

Supongamos dos tratamientos contra un determinado tipo de cáncer: El tratamiento 0 y el tratamiento 1. Supongamos, también, que a los 10 años se analiza cuántos de los tratados de una forma u otra, en un estudio clínico, han presentado metástasis y cuántos no la han presentado. Supongamos que los datos son los siguientes:

IMG_4991

En cada tratamiento, de los 20 tratados, a los 10 años 10 tienen metástasis y 10 no. Esto nos da una Odds ratio (OR) de 1. No hay ventaja de un tratamiento respecto de otro, visto desde los 10 años, y sin más perspectiva temporal que esa, la de los 10 años.

La OR es una mirada a una relación en un momento temporal, prescindiendo de lo que ha pasado en el recorrido hasta llegar allí. Es una mirada estática. La Hazard ratio (HR) es, por el contario, una mirada dinámica, es una mirada al recorrido, es una relación entre recorridos. Diferentes estudios pueden tener una misma OR pero con HR muy diferentes, como vamos a ver en este ejemplo.

Veamos, pues, ahora la información no desde los 10 años, sino durante los 10 años. Veamos el recorrido de cada tratamiento durante esos 10 años. Supongamos que las 10 metástasis de cada grupo de tratamiento se producen a lo largo de estos años según uno de los tres patrones distintos A, B y C que se muestran a continuación:

IMG_4993

Las cosas, evidentemente, son bien distintas según tengamos un patrón u otro. En A, en B y en C la relación entre los dos tratamientos es completamente distinta. Viendo cuidadosamente los datos ya se puede apreciar perfectamente la diferencia. En A no hay diferencias, en B es mejor el tratamiento 1, porque la metástasis llega más tarde. En C, finalmente, el mejor es el tratamiento 0, porque es ahora en él que las metástasis llegan más tarde. Pero, veámoslos con más detalles.

En A el perfil es muy similar en ambos tratamientos, es prácticamente igual. El Hazard ratio (HR) es, entonces, 1. Observemos la curva de supervivencia y la función de riesgo de los dos tratamientos. En ambos casos, la función de un tratamiento y la del otro son prácticamente iguales. El HR lo que hace es establecer una relación entre ambas curvas, entre ambas funciones, y, en este caso, la relación es 1, porque están prácticamente solapadas:

IMG_4994

En B los perfiles de un tratamiento y del otro son, ahora, muy distintos. El tratamiento 1 tiene menor riesgo que el tratamiento 0. La función de riesgo del tratamiento 1 va por debajo de la del tratamiento 0. La curva de supervivencia del tratamiento 1 va, entonces, lógicamente por encima. El HR es 0.25. La HR es una relación entre curvas, entre funciones; es una cuantificación de la posición relativa de una función respecto de la otra. En este caso la relación es entre la curva del tratamiento 1 respecto a la del tratamiento 0 y se hace, siempre, respecto a la función de riesgo. Veamos las curvas de supervivencia y las funciones de riesgos de ambos tratamientos, especialmente las funciones de riesgo donde vemos que la del tratamiento 1 está unas cuatro veces, en promedio, por debajo de la del tratamiento 0:

IMG_4995

En C los perfiles de los dos tratamientos también son muy distintos. Pero ahora ocurre justo todo lo contrario (porque, observemos, que los datos son los mismos pero cambiados de posición). El tratamiento 1 tiene ahora mayor riesgo que el tratamiento 0. El HR es ahora 4, porque la relación entre la función de riesgo del tratamiento 1 y la función de riesgo del tratamiento 0 es, en promedio, 4. Veamos ahora las curvas de supervivencia y las funciones de riesgos de ambos tratamientos y veamos cómo la función de riesgo del tratamiento 1 va unas cuatro veces por encima de la función de riesgo de la función del tratamiento 0:

IMG_4996

La HR, por lo tanto, cuantifica la posición relativa de una función de riesgo respecto de la otra. Es un cociente de funciones. Tiene en cuenta no el final de un recorrido sino la dinámica de ese recorrido. Esto es un elemento claramente diferencial respecto a la OR que mira las cosas en un punto estático. Digamos, pues, que la OR es estática y la HR es dinámica.

Tanto en OR como en HR hay que prestar siempre mucha atención qué está en el numerador del cociente y qué está en el denominador de la relación. Porque que sea la OR o la HR mayor que 1 o menor que 1 cambia completamente el sentido de la relación. En nuestro caso, la HR está dando la relación entre la función de riesgo del tratamiento 1 respecto a la función de riesgo en el tratamiento 0.

En muchos artículos de Medicina donde se exponen OR o HR se acostumbra a informar de qué tratamiento o condición tiene más o menos riesgo a la derecha y a la izquierda del 1, para que no haya dudas en la interpretación.

Observemos, también, un fenómeno también común de la OR y de la HR: la distinta escala a la izquierda y a la derecha del 1 pero con valores paralelos: observemos en nuestro caso que una HR da 0.25 y la otra da 4. Porque son equivalentes (valores intercambiados en el caso B y el C): una hacia la izquierda y la otra hacia la derecha del 1 (1/4 ó 4/1). Cuatro veces menos riesgo de una respecto a la otra o cuatro veces más riesgo de una respecto de la otra.

Las escalas en la Odds ratio

La Odds ratio es una medida del grado de relación entre dos variables cualitativas (Ver Tema dedicado a esas medidas) o entre una cualitativa y una cuantitativa (Ver el Tema dedicado a la Regresión logística).

Es una medida muy habitual en Medicina. En este ámbito la variable cualitativa: tener o no tener una determinada patología, por ejemplo, es nuclear.

La Odds ratio es una medida que va de 0 a infinito. Con el 1 como punto donde cambia el sentido del tipo de relación entre las variables relacionadas. Del 0 al 1 tenemos un significado opuesto al de la zona del 1 al infinito.

Son, de hecho, dos zonas con escalas distintas. Como estamos hablando de una relación (una ratio): el 10 es equivalente a 0.1, el 100 lo es de 0.01, y así sucesivamente. Equivalente en cuanto a magnitud de la relación pero opuesto en cuanto al sentido de la relación. El la correlación de Pearson (Ver el Tema dedicado a la Correlación) el signo es lo que marca este distinto sentido.

Es habitual ver en artículos de Medicina una representación de las Odds ratio en gráficos con un cambio de escala a izquierda y derecha del 1, como el que se muestra en el gráfico siguiente extraído de un artículo de una importante revista en Medicina:

IMG_4982

Suelen dibujarse intervalos de confianza del 95%. Aquí, evidentemente lo importante, para evaluar la significación es, como ya hemos visto en el tema dedicado a las medidas de la relación entre variables cualitativas, que el intervalo no contenga al 1, porque si lo contiene significa que la relación entre esas dos variables tanto puede ser de un sentido como del contrario. Está todo abierto acerta de la relación. Por lo tanto, hemos de mantener, todavía la Hipótesis nula de Odds ratio igual a 1, que es lo que podemos decir antes de hacer cualquier tipo de estudio de relación entre estos tipos de variables.

El Test exacto de Fisher en Medicina

El Test exacto de Fisher, explicado con detalle en el Herbario de técnicas, es aplicado muy frecuentemente en Medicina.

Si son dos grupos los que se deben comparar para ver la diferencia de proporciones de una variable dicotómica o si lo que se quiere es ver la relación entre dos variables dicotómicas, y el tamaño muestral es pequeño, se impone el uso de esta técnica. Es frecuente encontrarse con pocos datos en Medicina y, por lo tanto, con la necesidad de aplicar este Test.

Veamos un caso interesante de aplicación de este Test en un artículo reciente y, además, en un artículo espectacular, sin lugar a dudas.

El artículo está publicado en Enero de 2013 en el New England Journal of Medicine y se titula Duodenal Infusion of Donor Feces for Recurrent Clostridium difficile.

La tabla de datos fundamental del estudio es la siguiente:

IMG_4962

Voy a aplicar el Test exacto de Fisher a uno de los casos que aparecen en este gráfico: a los datos comparativos de los pacientes tratados con «Infusión de donante de heces global» respecto a los tratados con Vancomicina. A partir de la información que nos dan podemos deducir que la tabla de 2×2 que tienen en este caso es la siguiente:

IMG_4965

Estamos en un caso de aplicación del Test. Tenemos dos grupos: Pacientes tratados de dos formas distintas. Y una variable dicotómica: Se curan sin recidivas versus Otros casos.

Y si aplicamos el Test exacto de Fisher (Ver Herbario de técnicas) hemos de proceder buscando todas las tablas que, respetando el recuento de la suma por filas y por columnas, se decanten más hacia la Hipótesis alternativa, extremen más las diferencias. Veamos el cálculo:

IMG_4966

Únicamente son dos las tablas a condiserar: la de los propios datos y la de debajo.

Como no he visto tablas para una N=29, he hecho los cálculos basándome en la Distribución Hipergeométrica (Ver Complementos).

El p-valor se calcula sumando estas dos probabilidades dando 0,000584. Como dice en el artículo se trata de un p-valor inferior a 0,001. Diferencias, pues, significativas.

Este es un caso claro de test unilateral, por eso no multiplicamos por 2 esa probabilidad, como haríamos si el test fuera bilateral. Observemos que se ensaya un método sorprendente: la infusión de heces de donante a un paciente con infección por Clostridium difficile. Únicamente tiene sentido una Hipótesis alternativa que vaya a favor del nuevo método. Es por esto que el test es unilateral. Si hacemos una prueba alternativa como ésta es para mejorar el tratamiento convencional.

Patologías en función de la edad y el sexo

Este gráfico publicado por el grupo del Institue for Health Metrics and Evaluation, en The Lancet, permite evaluar, en poco espacio, mucha información. Puede verse la distribución de una serie de patologías en función de la edad y el sexo. Se trata realmente de un gráfico de mucho valor. Detrás hay un estudio multicéntrico extraordinario. Con él puede verse cuál es el actual mapa de patologías en función del sexo y de la edad.

IMG_4515