Archivos Mensuales: febrero 2013

La Estadística descriptiva en Medicina

La Estadística descriptiva está casi siempre presente en los artículos de las revistas de Medicina. Es interesante y conveniente destacar cuáles son los contextos de esos artículos en los que más abunda ese tipo de aproximación estadística a una muestra y cuáles son los cálculos más habituales de uso y cuál es la forma de presentación mayoritaria.

Fundamentalmente son tres los contextos en los que es más habitual el uso de la Estadística descriptiva en estos artículos. Veamos uno por uno, con ejemplos concretos tomados de revistas médicas, cuáles son esos tres contextos mayoritarios.

1. En todos los estudios donde se pretende abordar el seguimiento de una serie de personas que se han dividido en diferentes grupos que van a ser tratados de formas distintas (por ejemplo: en un ensayo clínico), se hace una Estadística descriptiva de las características más relevantes para el estudio que tiene cada uno de esos grupos, en el punto de partida. Con la finalidad básica de mostrar que para esas variables no hay diferencias destacables. Para comprobar, en definitiva, una homogeneidad entre los grupos.

Veamos algunos ejemplos:

En la primera tabla consta la descripción de los grupos de pacientes a los que se les aplicaron cada uno de los dos tratamientos comparados para reparar problemas de obstrucción a nivel de arterias coronarias: el sistema percutáneo (Percutaneous coronar y intervention (PCI)) y el bypass (Coronary-artery bypass grafting (CABG)):

IMG_5167

En la siguiente tabla consta la Estadística descriptiva de los dos grupos de pacientes estudiados para comparar el efecto de la aspirina, a pequeñas dosis diarias, en la prevención de problemas tromboembólicos:

IMG_5169

 En la siguiente tabla consta la Estadística descriptiva de los tres grupos experimentales de un interesante estudio donde se pretendía valorar la eficacia de la dieta mediterránea en la prevención de enfermedades cardiovasculares. Los dos primeros grupos seguían una dieta establecida con el añadido de aceite de oliva virgen (Extra-virgin olive oil (EVOO)) o de nueces. El tercero seguía una dieta control estándar:

IMG_5174

2. Cuando los grupos descritos comentados en el apartado anterior, en su punto de partida, al inicio del experimento, han sido sometidos cada uno de ellos a un distinto tratamiento se usa de nuevo la Estadística descriptiva para cuantificar variables resultado, variables que detecten problemas. Ahora se busca la diferencia, se busca si en algún grupo hay menos casos de alguna patología que en otro, etc.

Veamos ejemplos:

En la primera tabla constan los resultados de la comparación de los dos grupos que antes hemos visto del estudio comparativo de la reparación percutánea o mediante bypass de problemas de obstrucción coronaria:

IMG_5168

En la siguiente constan los resultados de los grupos donde se estudiaba el efecto protector de la aspirina a dosis bajas diarias:

IMG_5170

En el caso del estudio del efecto de distintas dietas sobre los problemas cardiovasculares los resultados descriptivos finales son los siguientes:

IMG_5176

3. Finalmente, hay un tercer tipo de contexto en el que se suele hacer una Estadística descriptiva. En ocasiones es el propio estudio el que llega a generar una serie de grupos homogéneos, pero ahora se trata de una homogeneidad final, de resultados, no una homogeneidad de partida como en el caso del punto 1. Por ejemplo: Pacientes que acaban siendo diagnosticados de alguna enfermedad o no. Pacientes que acaban muriendo o no, etc. Se trata, entonces, en estos casos, de visualizar descriptores que los caractericen mediante la Estadística descriptiva.

Veamos algún ejemplo:

En la siguiente tabla consta la Estadística descriptiva de los datos comparativos entre atletas que no han sobrevivido o que sí han sobrevivido después de haber sufrido un infarto de miocardio en carrera. En este caso la muestra inicial era del registro, en EEUU, desde el año 2000 hasta el 2010, de los casos de infarto de miocardio habidos en marathones o en medias marathones. Pero aquí la focalización está puesta en separar los grupos según el resultado, describirlos y compararlos:

IMG_5171

Otro caso de este tipo es el de la siguiente tabla. Se trata de un estudio de infecciones localizadas en marcapasos. Se presenta una Estadística descriptiva separando los que a corto plazo han sobrevivido y los que también a corto plazo han fallecido. De nuevo, pues, una descriptiva separada por grupos según el resultado final:

IMG_5178

En cualquiera de estos tres tipos de situaciones, cuando son varios los grupos a los que se les calculan estos valores descriptivos es habitual aplicar alguna técnica inferencial para ver si hay diferencias significativas entre esos grupos. Como puede verse en las tablas adjuntas, es habitual añadir una columna con los respectivos p-valores de cada una de esas comparaciones. Cuando se trata de la descripción de grupos, como hemos visto en el primer tipo de tablas, a los que se les ha sometido a un tratamiento distinto interesa que en las variables descritas a nivel de punto de partida del estudio no se detecten diferencias significativas para comprobar, así, que las condiciones de partida eran equivalentes. Sin embargo, como hemos visto en el segundo tipo de tablas, cuando a estos mismos grupos, después del tratamiento, se comparan variables resultado ahí sí que interesa ver diferencias. Y en el caso del tercer tipo de tablas, como en el segundo, interesa que esas comparaciones muestren diferencias significativas también.

La descripción variable por variable suele hacerse, como se ha visto en las tablas anteriores, en cantidad absoluta y relativa (habitualmente, ésta, en porcentaje) si se trata de una variable cualitativa dicotómica. Si la variable es cuantitativa suele o darse mediante la media±desviación estándar o bien mediante la mediana y el rango intercuartílico, normalmente entre paréntesis. Y ese rango no expresado precisamente como rango sino dando explícitamente los valores del primer y el tercer cuartil, que son los valores cuya resta constituyen, realmente, el rango intercuartílico.

¿Cuándo usar una u otra formulación en una variable cuantitativa? Si el comportamiento de una variable es de distribución normal lo más conveniente es describir aquella variable mediante la media±desviación estándar, porque con estos dos valores lo tenemos todo, porque teniendo estos dos números lo podemos saber todo de la variabilidad de esa variable. Incluso, evidentemente, el propio rango intercuartílico. Si el comportamiento de una variable no es el de una distribución normal es mucho más razonable describirla mediante la mediana y el rango intercuartílico. Porque la tendencia habitual si se tiene la media±desviación estándar es a hacer aquellas típicas inferencias que sólo son ciertas si la variable sigue la distribución normal: M±1DE supone el 68.5% aproximadamente de la población, M±2DE supone el 95% aproximadamente de la población y M±3DE supone el 99.5% aproximadamente de la población. Esto si la variables no es normal no es cierto. Para evitar esta inferencia inconsciente, muy habitual por desgracia, es mejor trabajar, evidentemente, con la mediana y el rango intercuartílico que son medidas que digamos están más próximas a la descripción propiamente dicha y no tienen tantas connotaciones inferenciales como las tienen la media y la desviación estándar.

No es un problema, como suele pensarse en ocasiones, de tamaño de muestra. Hay una creencia establecida, por parte de muchos usuarios de la Estadística, que si una muestra es pequeña deben usarse descriptores tipo mediana y percentiles y si la muestra es grande puede usarse y debe usarse la media y la desviación estándar. Esto no es así. El uso de unos u otros descriptores no depende del tamaño muestral, depende de la normalidad de la muestra, de su ajuste a la campana de Gauss.

Si la muestra sigue la distribución normal (sea el tamaño de muestra grande o pequeño) al describir la muestra en términos de media±desviación estándar se está dando, también, implícitamente, una aproximación muy buena de la mediana y del rango intercuartílico de esa muestra.

Si repasamos la forma de trabajar la tabla de la normal N(0, 1), en el artículo “La Distribución normal” del apartado de Complementos, podemos ver que si la distribución es normal calcular la media±0.68*desviación estándar nos da un valor muy similar al de mediana y rango intercuartílico. O sea, en una distribución normal cualquiera la media±0.68*desviación estándar construye un intervalo del 50% de valores poblacionales.

Observemos esto que digo en la tabla descriptiva siguiente, que es una de las que hemos visto antes, pero focalizando en un sector más pequeño de ella, en el sector remarcado en rojo:

IMG_4113

Si se observa la variable SYNTAX score podemos ver que, curiosamente, porque no es habitual que sea así, la información se da en las dos formas. Aprovechémonos de ello para compararlas. Observemos que en los pacientes tratados con el sistema PCI la media y la desviación estándar se nos muestra mediante la expresión: 26.2±8.4. Si cogemos esta Desviación estándar y la multiplicamos por 0.68 tenemos un valor de 5.7 lo que nos da un intervalo de valores que va de 20.5 a 31.9. Observemos la similitud con el valor de rango intercuartílico en la muestra: (20.5-31.0). Como puede apreciarse se trata de dos intervalos muy similares el calculado basándonos en la información de la desviación estándar y el calculado basándonos exclusivamente en la muestra. También la mediana y la media son muy similares: 26.0 y 26.2, respectivamente. Esto es porque la variable debe tener una distribución muy bien ajustada a una normal.

Lo mismo sucede con los tratados con el sistema CABG donde la media es 26.1±8.8. Si cogemos de nuevo, ahora, esta Desviación estándar y la multiplicamos por 0.68 tenemos un valor de 5.98 lo que nos da un intervalo de valores que va de 20.12 a 32.08. Observemos también ahora la similitud con el valor de rango intercuartílico de la muestra: (19.5-31.5). Como puede apreciarse se trata también ahora de dos intervalos muy similares. También la mediana y la media son muy similares ahora: 26.0 y 26.1, respectivamente.

Si ahora observamos la variable EuroSCORE sucede una cosa completamente contraria. La media y la mediana son bien distintas. Además, si tomamos la media y le sumamos y le restamos 0.68 multiplicado por la desviación estándar, para conseguir un intervalo del 50%, veremos que ahora en absoluto se parece al rango intercuartílico. Cojamos el caso del grupo PCI: 0.68 multiplicado por 2.4 es 1.63. Si sumamos y restamos a 2.7, que es la media construimos una intervalo del 50% que va de 1.07 a 4.33, que es bien distinto al del rango intercuartílico: (1.3-3.1). Es más: observemos que si le restamos a la media dos veces la desviación estándar (2.7- 2×2.4) nos posicionamos en el valor -2.1, un valor negativo. El EuroScore no puede ser menor que cero. Esto indica, claramente, que el EuroScore no sigue la distribución normal. Observemos que la media del grupo PCI (2.7) está próxima al tercer cuartil (3.1). Esto es claramente indicativo de la asimetría de la variable, de la no normalidad. Con el grupo CABG sucede exactamente lo mismo. Por lo tanto, claramente, a partir de la media y la desviación estándar no podemos hacer las inferencias que se suelen hacer habitualmente. En esta situación la desviación estándar no tiene la misma trascendencia como descriptor. Por esto, en estos casos, es más recomendable manejar la mediana y el rango intercuartílico.

Es por lo tanto muy importante saber en qué momentos tiene sentido usar uno u otro sistema descriptivo. Y es muy importante, también, saber usar bien la desviación estándar, saber qué papel juega, saber cuándo puede tener mucho protagonismo y cuándo debe quedar más en un segundo plano.

Resumiendo:

1. Si la variable sigue la distribución normal el cálculo de la media y la desviación estándar es mejor porque además de proporcionarte la información de la dispersión de los valores a distintos niveles te da también la información de la mediana y el rango intercuartílico.

2. Si la variable no se distribuye según una normal es conveniente dar la mediana y el rango intercuartílico. La media y la desviación estándar, en este caso, pueden llevar a inferencias rutinarias peligrosas. De hecho, la desviación estándar es muy buen descriptor pero peligroso. Bien usado perfecto, pero mal usado puede llevar a inferencias muy alejadas de la realidad.

Situación 20: Teorema de las probabilidades totales y Teorema de Bayes

Por los síntomas observados en un enfermo, y según la experiencia acumulada en un gran número de situaciones similares, se deduce que ha podido coger la enfermedad A con probabilidad 1/3 o la enfermedad B con probabilidad 2/3. Para precisar el diagnóstico se hace un análisis clínico al enfermo con dos resultados posibles: positivo o negativo. Se sabe, también por la experiencia, que en los pacientes que tienen la enfermedad A el análisis es positivo con 0.99 y en los que padecen la enfermedad B lo es con probabilidad 0.06.

a) ¿Cuál es la probabilidad que el análisis dé un resultado negativo?

b) Si el resultado ha sido positivo, ¿cuál es la probabilidad que el paciente padezca la enfermedad A? ¿Y la probabilidad que padezca la enfermedad B?

Solución

Situación 19: Teorema de las probabilidades totales y Teorema de Bayes

Un laboratorio produce un determinado kit que puede tener defectos con probabilidad 0.1. Cada kit fabricado pasa por un verificador de calidad que detecta defectos de fabricación con probabilidad 0.95. Si el verificador ve un defecto, el kit se declara defectuoso. Además, el verificador puede declarar defectuoso, per error, un kit apto, lo cual sucede con probabilidad 0.07.

Calcular:


(a) La probabilidad que un kit defectuoso sea declarado apto.

(b) La probabilidad que un kit sea declarado defectuoso.

(c) Si un kit ha sido declarado apto por el verificador, ¿cuál es la probabilidad que realmente sea apto?

Solución

Situación 18: Determinación del tamaño de muestra

Queremos comparar la resistencia de dos materiales en una prueba de laboratorio. El estudio consiste en someter al material a un proceso y después de un tiempo ver si se rompe o no. Queremos ver si el porcentaje de roturas es el mismo o es distinto entre ambos materiales.

Sabemos, por la literatura, que normalmente la rotura de estos tipos de materiales, al someterlos a las condiciones que los vamos a someter, suele ser aproximadamente del 25%.

Determinar el tamaño de muestra necesario si queremos ver una diferencia mínima de un 10% para considerar una diferencia relevante; o sea, que si un material tiene un 25% de roturas el otro tenga un 35% o más de roturas o un 15% o menos. La forma de plantear estas afirmaciones es importante precisarla bien siempre porque suele llevar a confusión. Observemos que hemos hablado del 10% en términos absolutos, pero hubiéramos podido decirlo en términos relativos y entonces hubiéramos tenido que decir, para que fuera equivalente a lo anterior, que la diferencia mínima a detectar debería ser del 40% porque 10 es un 40% de 25.

Con una potencia del 80% tenemos suficiente para esta determinación del tamaño de muestra necesario. Respecto del error de tipo 1 como, casi siempre, podemos considerar el valor de 0.05.

Solución

Situación 17: Determinación de la potencia estadística

Hemos hecho un estudio comparando dos tratamientos para ver si hay diferencia entre ellos. La media de la muestra de un grupo ha sido 150 y la del otro ha sido 160. Realmente desde el punto de vista de diferencia nos parece una diferencia relevante, pero nuestro test de hipótesis nos dice que las diferencias no son significativas.

Los tamaños muestrales de cada una de las dos muestras es 5. La desviación estándar de las dos muestras es 8.

Queremos saber la potencia del estudio.

Solución

Situación 16: Determinación del tamaño de muestra

Queremos ensayar un nuevo fármaco respecto a un placebo con la finalidad de conseguir elevar la concentración, a nivel sanguíneo, de una determinada molécula. En los pacientes de una determinada patología esa molécula tiene una concentración media de 35 con una desviación estándar de 3.

Queremos decidir el tamaño de muestra del estudio teniendo en cuenta que el uso de este fármaco únicamente se justificaría si pudiéramos elevar la concentración de esa molécula, como mínimo, a una media de 40.

Queremos trabajar con un error pequeño, por lo que queremos que el error de tipo 1 sea del 5% y el error de tipo 2 también sea muy bajo, el 5%: o sea, que queremos tener una potencia del 95%.

Sabemos que en este tipo de estudio, además, como es de larga duración, acostumbran a abandonar por iniciativa propia un 10% de los que comienzan.

¿Qué tamaño mínimo es necesario para si se da tal diferencia mínima en el estudio encontremos que la Estadística nos dice que se trata de una diferencia significativa?

Solución

Tema 23: ANÁLISIS ROC

 

1. El Análisis ROC (Receiver operating characteristics) es una metodología desarrollada para analizar un sistema de decisión.

2. Tradicionalmente se ha usado en ámbitos de detección de señales y, en las últimas décadas, se ha utilizado mucho en Medicina.

3. En Medicina el Análisis ROC permite evaluar la calidad de un procedimiento diagnóstico. Podríamos decir que el Análisis ROC se ha transformado actualmente, en Medicina, en una tecnología para evaluar y analizar las peculiaridades de un sistema diagnóstico.

4. El Análisis ROC trabaja con las nociones de Sensibilidad y Especificidad. En el apartado dedicado a Estadística y Medicina he escrito un artículo titulado “Sensibilidad, Especificidad, Valor predictivo positivo y Valor predictivo negativo”. Sería interesante revisar allí estos cuatro conceptos. Sin embargo, como el Análisis ROC básicamente trabaja con los dos primeros: la Sensibilidad y la Especificidad, voy a revisar ahora, únicamente, las definiciones de estos dos conceptos.

5. Veamos el siguiente gráfico ya comentado en el artículo citado:

IMG_4503

6. Puede observarse que cada rectángulo separa dos grupos: uno de personas con la enfermedad (E) diagnosticada y otro sin ella (NE). Al mismo tiempo con todos ellos se ensaya una prueba diagnóstica. Los que dan positivo (P) en esta prueba son los del cuadro interior coloreado. Y llamaremos N a los que han dado negativo en la prueba diagnóstica que son todos los que no caen dentro del rectángulo coloreado.

7. La Sensibilidad es el cociente: P/E; o sea, la proporción de positivos que tenemos entre los que tienen la enfermedad. En el dibujo anterior es la proporción que ocupa el grupo de los positivos en el interior del grupo de los que tienen la enfermedad.

8. Como puede verse en los cuatro rectángulos del dibujo, según el método diagnóstico podemos tener sensibilidades muy distintas. Evidentemente interesa un método diagnóstico con alta sensibilidad, que la mayor parte de enfermos con esa patología den positivo para la prueba diagnóstica.

9. La Especificidad mide la proporción de negativos que hay en el grupo de los que no padecen la enfermedad que estudiamos. La Especificidad será, pues, el cociente: N/NE. La Especificidad también interesa que sea alta. Interesa que quien no esté enfermo nos dé negativo en la prueba, evidentemente.

10. Si volvemos a mirar el dibujo anterior podremos ver distintos posibles métodos diagnósticos y su calidad. Como se puede ver acompañando a la flecha que indica alto o bajo se ponen unos valores porcentuales que son aproximados: 5% ó 95%.

11. En el dibujo puede observarse que el primer método diagnóstico (el de la izquierda) nos marca la situación ideal: alta sensibilidad y alta especificidad. Observemos que casi todos los positivos están en E. Y observemos también que casi todos los de E, los que tienen la patología, dan positivo. Los de E que dan negativo son los llamados falsos negativos. Los de NE positivos son denominados falsos positivos. Los falsos negativos son el complementario, el contrapunto, de la sensibilidad. Los falsos positivos lo son de la especificidad.

12. El segundo método diagnóstico esquematizado es un ejemplo de mala técnica diagnóstica. Da positivo cuando no hay enfermedad y da negativo cuando hay enfermedad. En este caso tenemos baja tanto la sensibilidad como la especificidad. Casi todos son falsos positivos o falsos negativos.

13. Tampoco es bueno lo que sucede en el tercer caso. Aquí casi siempre da positiva la técnica, haya o no enfermedad. En este caso la sensibilidad es alta pero la especificidad muy baja. Esto tampoco es bueno para una técnica diagnóstica.

14. En el cuarto caso la técnica casi nunca da positiva. Tenemos baja sensibilidad, aunque, eso sí, alta especificidad. Tampoco es buena esta situación.

15. En el Análisis ROC suele manejarse un espacio que viene dado por la Sensibilidad (S) y 1-Especificidad (1-E). Tradicionalmente se trabaja con este valor: 1-E y voy a seguir aquí, evidentemente, esta tradición. Este espacio es muy importante. Veámoslo bien. Veamos el gráfico siguiente:

IMG_5088

16. En el eje de las abscisas se sitúa, como puede verse, el valor de 1-E y en el eje de las ordenadas se sitúa el valor de S.

17. Es muy interesante darse cuenta de las zonas de este gráfico. Suele dibujarse una diagonal: la que va del punto (0, 0) al punto (1, 1).

18. Observemos en el siguiente gráfico unos cuantos puntos y veamos, también, la combinación de Sensibilidad y de Especificidad que cada uno de ellos representa:

IMG_5089

19. Observemos que la situación ideal es estar cerca del punto (0, 1); o sea, del vértice superior izquierdo, que es donde hay, al mismo tiempo, mucha Sensibilidad y mucha Especificidad. Y observemos, también, que el triángulo inferior indica un método diagnóstico desastroso: sería peor que tomar las decisiones al azar.

20. El gráfico siguiente es también una representación de diferentes puntos en el espacio ROC pero haciendo ahora, para cada punto, una representación mediante un dibujo como el presentado al explicar las nociones de sensibilidad y especificidad:

IMG_5098

21. Ante un método diagnóstico suele darse un valor de Sensibilidad y de Especificidad. Es muy habitual leer en un libro de Medicina, en la parte dedicada a métodos diagnósticos de una determinada patología, que una prueba diagnóstica concreta tiene, por ejemplo, una sensibilidad del 98% y una especificidad del 75%, y cosas como esta.

22. Este tipo de información puntual nos daría un punto en el espacio diseñado en el Análisis ROC que hemos dibujado antes. Y es una información interesante y muy útil para valorar una prueba diagnóstica y para compararla con otras que tratan también de diagnosticar una determinada enfermedad.

23. Pero el Análisis ROC va más allá de dar un único punto. El objetivo básico del Análisis ROC es dibujar una curva. Dibujar la llamada curva ROC e incluso calcular un área bajo dicha curva: la llamada AUC (Area under curve). Que es un valor que va de 0 a 1, como veremos luego.

24. La curva ROC de una situación diagnóstica determinada consiste en dibujar los distintos pares de valores de S y de 1-E que tendríamos si fuéramos cambiando el criterio de decisión. De esta forma, se analiza, para todos los posibles criterios de decisión, de un método diagnóstico, cuáles son los valores de S y de 1-E. Esto es lo interesante, pues, de este análisis: que dibuja el mapa de todos los resultados que podríamos tener ante todos los posibles criterios de decisión en una técnica diagnóstica concreta. Esto es, realmente, un muy interesante análisis de un procedimiento diagnóstico.

25. Pensemos que en la mayor parte de pruebas diagnósticas al final se trata de decidir dentro de un más o menos amplio número de situaciones posibles cuáles de ellas nos llevan a decir que tenemos enfermedad o que no la tenemos: que es diabético o que no lo es, que tiene la tuberculosis o que no la tiene, etc.

26. Suele denominarse “cutoff” al umbral de decisión para decantarse por una afirmación u otra. Es cambiando el cutoff, cambiando el criterio de decisión, como podemos ir calculando la curva ROC. En la medida que vayamos cambiando el criterio de decisión iremos obteniendo distintos pares de valores (S, 1-E). Al final, juntando estos valores, obtendremos una curva: la curva ROC.

27. Para dibujar la curva ROC buscamos unos valores reales, una muestra, unas personas de las que tengamos toda la información: debemos saber, en nuestro caso, la altura y el sexo de cada una de ellas. En el caso de estar trabajando en el diagnóstico de una patología hemos de partir de una serie de personas con y sin la patología a estudiar y a las que les aplicamos, a todas, el método diagnóstico.

28. Esto de partir de valores reales, de una muestra, para poder establecer un procedimiento, es algo que está siempre presente en Estadística. Lo hemos visto, por ejemplo, en todas las técnicas de Regresión. Necesitamos siempre una muestra para poder evaluar con ella la calidad de un procedimiento, para evaluar y estimar cómo irán las cosas cuando nos enfrentemos al reto de tener que diagnosticar.

29. Por lo tanto, en la valoración de la calidad de un método diagnóstico hacemos lo mismo, pues, que hacemos en la Regresión: tomar una muestra de valores donde lo tengamos todo y así podamos hacer una valoración de la calidad de un método diagnóstico. Es como hacer un trabajo de laboratorio previo a enfrentarse con la realidad, como ensayar algo en una planta piloto, como hacer pruebas a un nuevo coche antes de salir al mercado.

30. Veamos un ejemplo. Supongamos que queremos clasificar como hombre o mujer a una determinada persona de la que sólo tenemos la altura. Queremos establecer un valor, un cutoff, un umbral, por encima del cual pronosticaremos, “diagnosticaremos”, que aquella persona es un hombre y por debajo del cual diremos que es una mujer:

IMG_5090

31. Observemos que tenemos una muestra de 5 mujeres y de 5 hombres de los que tenemos su altura. Y que están solapados. Hay mujeres en la muestra más altas que algunos hombres, por lo tanto, establecer un método diagnóstico de hombre en base a una altura, a un cutoff altura, nos generará algún error, no es un procedimiento perfecto.

32. Veamos cómo lo calculamos: Observemos que vamos cambiando el cutoff, vamos a buscar todos los posibles cutoff que nos darían lugar a resultados diferentes. Es lo que vamos haciendo en el ejemplo propuesto.

33. Para cada caso se calcula la S, la E y la 1-E. Y cada pareja de valores (S, 1-E), para cada cutoff posible, se va dibujando en el gráfico ROC. Y al final se juntan los puntos en una curva: la curva ROC. Que en el gráfico aparece en azul.

34. Miremos algún caso concreto de los que se adjuntan en esta tabla de valores. Por ejemplo, el primero. Si se elige como cutoff, como punto de decisión, menor que 160 cm, entonces todos los hombres quedarán bien clasificados como hombres: tendremos una sensibilidad del 100%, o de 1, en tanto por uno. Pero el problema es que la especificidad es horrible, porque las cinco mujeres quedarían también clasificadas como hombres: Esto nos da una especificidad del 0%, por esto el punto está arriba y a la derecha, en el punto (1, 1), porque tiene un valor S=1 y un valor 1-E=1, al ser la E=0.

35. Cojamos otro caso. El segundo: Si el cutoff es un valor mayor que 160 pero menor que 163 entonces los cinco hombres seguirán estando bien clasificados, y entre las mujeres cuatro seguirán estando clasificadas como hombres. La sensibilidad es del 100% y la especificada es, ahora, del 20%. Por esto el punto ahora está en el (1, 0.8).

36. Si vamos subiendo el cutoff dentro de todos los intervalos posibles entre valores de nuestra muestra acabaremos viendo que los puntos obtenidos son los representados y que la curva ROC es la dibujada.

37. El área bajo esta curva ROC es el AUC. Al tener el cuadrado un área máxima de 1, el valor de AUC va del 0 al 1. En nuestro caso el área sería la remarcada bajo la curva ROC:

IMG_5091

38. Cuanto más próximo a 1 sea esa área significa que es mejor método diagnóstico, evidentemente. Significa que estamos ante un método diagnóstico con más posibilidades de discernir este enfermedad y no enfermedad. Por lo tanto, veamos cómo de izquierda a derecha en el siguiente gráfico vamos perdiendo capacidad en los diferentes métodos diagnósticos:

IMG_5092

39. Las curvas posibles son muchas. Observemos, por ejemplo, las dos siguientes, que tendrían una misma AUC pero un perfil de curva diferente:

IMG_5093

40. Observemos que el ejemplo que he puesto de cálculo de la curva ROC es a efectos de comprensión. Pero así se ve bien cómo se calculan esas curvas en casos reales de métodos diagnósticos. Por ejemplo, supongamos el caso real del diagnóstico de diabetes en función del resultado analítico de glucosa en sangre después de 2 horas de una sobrecarga de 75 gramos de glucosa. Si ante una situación diagnóstica como esta, con una muestra de pacientes amplia, fuéramos cambiando el cutoff de la glucosa, construiríamos la curva ROC de esta importante prueba diagnóstica en diabetes mellitus. Suele darse un cutoff de 200 mg/dL para el diagnóstico. Si tuviéramos una muestra con pacientes diagnosticados de diabetes y con personas libres de esa enfermedad y les aplicáramos ese método diagnóstico y fuéramos cambiando, entonces, de valores de cutoff, obtendríamos la curva ROC de este método diagnóstico.

41. La forma de la curva tiene que ver con lo segregados que estén los enfermos y los no enfermos respecto al criterio seguido en el procedimiento diagnóstico. Veamos el siguiente gráfico que ilustra esta afirmación:

IMG_5096

42. Observemos a la izquierda tres situaciones bien distintas, donde tenemos una medida de alguna variable, como podría ser la cantidad de alguna medida usada como criterio diagnóstico. El grupo de enfermos y el grupo de no enfermos, en el caso de arriba, están muy separados, esto irá, lógicamente, asociado a una curva ROC con AUC próxima a 1, como puede verse. En el caso del medio la separación entre ambos grupos no es tan buen y ello va asociado de una curva con menor AUC. Finalmente en el caso de abajo los grupos están muy solapados. En este caso la capacidad diagnóstica se reduce muchísimo y esto se refleja en una curva ROC muy mala, con una AUC muy baja.

43. Esto es lo interesante, pues, del Análisis ROC: poder, con estas herramientas, establecer una medida de calidad de un procedimiento diagnóstico. Tener un dibujo de su comportamiento y una medida de su calidad.

44. Veamos en la siguiente fotografía un gráfico de un artículo en una importante revista médica donde se usa el Análisis ROC para evaluar métodos de pronóstico de infarto de miocardio:

IMG_5095

45. Hay algo importante que no he dicho hasta ahora de estas curvas ROC. Observemos que estas curvas las construimos en base a una muestra. Por lo tanto, la curva ROC que obtenemos es una estimación de la curva real, como siempre en Estadística. Que si la muestra es pequeña es posible que no sea significativa, que no sea distinta a la que podríamos obtener al azar.

46. Se pueden construir, pues, intervalos de confianza de estas curvas ROC. El AUC también puede ser o no significativo, puede construirse un intervalo de confianza también de él. Etc. Estamos, pues, ante un caso de inferencia y, por lo tanto, como tal, sometido a todas las limitaciones y procedimientos que la inferencia nos aporta y que hemos ido viendo en temas anteriores.