Se trata de un artículo que acaba de publicarse (el 26 de noviembre de 2014) en el New England Journal of Medicine. Es un muy interesante estudio, en fase 1, de una vacuna para el Ébola.
El Abstract es el siguiente:
He elegido este artículo para comentarlo porque es una buena herramienta para repasar la elección de la técnica adecuada al caso en la comparación de dos poblaciones. Y, en general, es, a mi modo de ver, muy apropiado para ver el uso de técnicas estadísticas en contextos concretos de investigación. Veamos el apartado de Métodos estadísticos del artículo:
Observemos las técnicas usadas y su contexto. Se trabaja con diferentes variables respuesta: algunas dicotómicas (Respuesta positiva o no) y algunas continuas (Cantidad de anticuerpos). Se comparan en algunos casos muestras independientes (cuando se comparan los dos grupos con dos dosis distintas de vacuna) y en algunos otros casos se comparan muestras relacionadas, muestras apareadas, porque se analiza, en estos casos, el mismo individuo en momentos temporales diferentes para ver la evolución de alguna variable respuesta a lo largo del tiempo.
Se habla del Test exacto de Fisher, cuando se comparan variables dicotómicas y muestras independientes. Se habla también del uso del Test de la t de Student, cuando se comparan variables cuantitativas de muestras independientes. Finalmente se habla de un tercer tipo de análisis de comparación: el Test de Wilcoxon, cuando se trabaja con variables continuas y muestras relacionadas o apareadas.
Para ver las decisiones que hay que tomar para la elección de la técnica adecuada al caso en la comparación de dos poblaciones ver el Tema 14: Comparación de dos poblaciones y para practicar con casos ver los artículos Situaciones de comparación en Ciencias de la salud y Soluciones a las situaciones de comparación de dos poblaciones.
Viendo este Tema 14 se podrá apreciar que la decisión de usar el Test exacto de Fisher es por tratarse de una variable dicotómica, por comparar muestras independientes y por ser el tamaño de muestra menor de 30 por grupo (el tamaño muestral es 10 por grupo).
Podrá apreciarse, también, que se usa el test de la t de Student en las variables continuas y con muestras independientes. Se habrá comprobado el ajuste a la distribución normal y la igualdad de varianzas de ambas muestras. Realmente si se observan los datos (la ventaja de este artículo, a efectos didácticos, es que nos muestran, en los gráficos, los valores muestrales concretos) en las comparaciones de ambos grupos (alta y baja dosis), a un mismo tiempo, la normalidad se intuye perfectamente y también la igualdad de varianzas. Observad la Figura 2 y comparad, en cada uno de los tres gráficos, los dos grupos en la semana 2 y los dos grupos en la semana 4: podréis observar que los valores muestras se ajustan bien a la distribución normal: la mayoría próximos a la media y simétricos respecto a ésta. Y la dispersión de las muestras comparadas, en cada caso, es del mismo orden. Esto es lo que les lleva a aplicar en estas comparaciones el Test de la t de Student de muestras independientes y varianzas iguales.
Finalmente, podrá apreciarse el uso del test de Wilcoxon al comparar variables continuas en muestras relacionadas, en muestras apareadas. En este caso se está comparando las semanas entre sí dentro de un mismo grupo para evaluar la significación de la respuesta a lo largo del tiempo. Viendo los datos de esa evolución temporal es creíble pensar que no haya normalidad en la variable diferencia entre los tiempos comparados. Por eso se han inclinado por usar esta técnica «no paramétrica» en lugar del test de la t de Student de datos apareados.
También se habla de establecer una relación entre variables. Aquí interviene la correlación, en concreto la correlación de Spearman. Ver el Tema 5: Correlación. Se trata de ver si existe una relación directa (positiva) o inversa (negativa) en la respuesta evaluada mediante variables diferentes. En concreto se pretende cuantificar el grado de relación que hay en la respuesta mediante anticuerpos y mediante células T.
Una cosa que puede sorprender es que se hable de Media geométrica muestral, en lugar de Media muestral. La media geométrica es la raíz cuadrada del producto de los valores muestrales. Su uso es frecuente cuando los datos presentan valores que al aumentar el valor de la variable aumenta exponencialmente la magnitud de dicho valor; o sea, en variables que es recomendable transformarlas a escala logarítmica, como sucede en este artículo y puede apreciarse en la figura 2. Recordemos una relación importante: El Logaritmo de la media geométrica de una muestra es igual a la media de los valores muestrales transformados a logaritmos. Al calcular la media geométrica en lugar a la media muestra lo que se hace es calcular la media muestral de los valores transformados logarítmicamente. Es una forma de darle menos peso a los valores que se disparan exponencialmente.
Como puede verse se trata de un artículo muy rico para ver diferentes situaciones y ver, también, diferentes técnicas a aplicar.
Previamente al análisis de comparación de los dos grupos con su evolución temporal, nos describen los dos grupos que se comparan:
Veamos los cuadros de resultados:
Y también:
Los valores de media geométrica en la variable cuantitativa y los valores de porcentajes de respuesta en la variable dicotómica, son los siguientes: