CURSO VIRTUAL PARA BIOMEDICINA

Vamos a continuar donde estábamos la semana pasada. Vimos con el artículo sobre COVID-19 del The Lancet la Odds ratio. Acordaros de la clase donde os planteé el concepto de decisión estadística a través de dos mecanismos básicos: Contraste de hipótesis e Intervalos de confianza.

Vamos a ver ahora el test de la ji-cuadrado. Os recomiendo que os miréis el Tema 8 de este blog y que veáis el siguiente vídeo:

Para practicar con el mecanismo del test os adjunto dos vídeos más hecho para otros alumnos pero con un contenido exactamente igual que el que os impartiría a vosotros:

Es importante que veáis las entrañas de la técnica, cómo se decide, el significado de la tabla esperada respecto del de la observada, cómo se busca un umbral dada una tabla de contingencias determinada (según el número de filas y columnas), cómo se decide, cómo se calcula el p-valor.

Mirad en este vídeo dos ejemplos más:

Os cuelgo un vídeo para repasar el concepto de Odds ratio que vimos en la última clase, en un caso muy sencillo:

En el tema 9 del blog además de hablar de la Odds ratio veréis el concepto de Kappa. El índice kappa es muy importante para ver la concordancia entre operadores y la concordancia en un mismo operador. Mirad este vídeo, es interesante que conozcáis este índice:

También habéis visto el concepto de V de Crámer en esta lección. En medicina no es tan importante. Lo es mucho más la Odds ratio.

Una vez visto esto sería interesante que entráramos a ver el concepto de relación entre variables cuantitativas, para ellos os recomiendo que leáis el Tema 5 del blog y escuchéis los dos siguientes vídeos:

La correlación es una medida muy importante y muy utilizada, pero en el ámbito de la Medicina lo es mucho más la Odds ratio, como ya os lo dije en clase.

Un resumen de los temas 8 y 9 del blog:

Y empecemos con las técnicas de comparación. Técnicas estadísticas muy importantes en Medicina. Si os acordáis, en el artículo del Covid-19 que vimos en clase, del The Lancet, la descriptiva del total de pacientes (primera columna) y de los dos grupos que se comparaban (los que morían en el episodio y lo que no morían) iba acompañada a la derecha de unos p-valores: eran el resultado, cada uno de ellos, de un contraste de hipótesis de comparación de dos poblaciones a partir de esas dos muestras. Esos diferentes contrastes son los que iremos viendo a partir de ahora. Os recuerdo esta tabla de la que estoy hablando y que ya vimos en clase:

Veremos, no obstante, ahora, en primer lugar una introducción a las técnicas de comparación, para ver de qué factores depende todo contraste de comparación de dos poblaciones.

Mirad el siguiente vídeo que os aconsejará qué material del blog os podéis mirar y escuchar:

Para practicar en los conceptos de este tema os recomiendo los siguientes vídeos que resuelven preguntas tipo test del apartado de PROBLEMAS Y EXÁMENES:

Vamos ahora a ver técnicas de comparación de dos poblaciones:

En este primer vídeo veréis las orientaciones a seguir para ver este tema. Veréis que este vídeo os llevará a un texto y a tres vídeos. Veréis el esquema básico de cómo moverse entre estas técnicas, cómo elegir la adecuada a un caso concreto y, también, ejemplos de aplicación que veréis en unos ficheros de COMPLEMENTOS. De momento veremos ejemplos en variables dicotómicas. Más adelante veremos ejemplos en variables cuantitativas continuas (con muchos valores posibles):

Aquí tenéis un vídeo analizando unos problemas en forma de preguntas test:

Si os fijáis en la tabla del artículo del The Lancet el uso de estas técnicas de comparación para variables dicotómicas es el más frecuente en estudios clínicos. Son muchas las variables dicotómicas en estudios clínicos. De hecho, son, de mucho, las más frecuentes. Por lo tanto, es muy importante dominar especialmente las dos posibilidades de uso de comparación de muestras independientes (que es la situación, también, más frecuente). Saber si hay que aplicar un test de proporciones (o una ji-cuadrado, que sería equivalente: pensad que una variable dicotómica con dos grupos a comparar genera una tabla 2×2 de las estudiadas en el tema 8) o un test exacto de Fisher.

Con los vídeos Tema 14: Ejemplos de aplicación (1) y Tema 14: Ejemplos de aplicación (2) hemos visto, pues, ejemplos de comparaciones de variables dicotómicas. Ahora os podéis mirar los vídeos Tema 14: Ejemplos de aplicación (3) y Tema 14: Ejemplos de aplicación (4). En estos dos vídeos veréis cómo llegamos a decidir cuál es la técnica de comparación de dos poblaciones que debemos utilizar en una variable cuantitativa.

El siguiente vídeo os orienta en esta segunda parte del Tema 14:

A continuación ejemplos de más preguntas test sobre este tema 14:

A continuación tenéis un comentario de un artículo sobre la COVID-19 donde podemos ver la problemática de este tema 14:

Os cuelgo una orientación acerca del p-valor. Alguno de vosotros tenía dudas sobre este concepto nuclear y he preparado el siguiente vídeo para orientaros:

Una cuestión importante después de haber visto estas técnicas de comparación. Existen técnicas que se suelen denominar de una población que lo que hacen en ver si a partir de una muestra podemos aceptar la hipótesis de que en una población la media es un valor determinado (en una variable cuantitativa) o que hay una proporción determinada de individuos en una variable dicotómica. Me refiero al Test de la t de Student para una población y el Test de proporción de una población. La verdad es que no son tests muy usuales, no se utilizan con mucha frecuencia. Nada que ver con los test de comparación de dos poblaciones que hemos visto en el Tema 14, pero es importante que los conozcáis. El objetivo es, como he dicho antes, comprobar si es razonable pensar que la media poblacional en una variable cuantitativa o la proporción poblacional en una variable dicotómica es un valor determinado prefijado, a la luz de una muestra concreta que tengamos. Por ejemplo: Queremos comprobar si es razonable pensar que en España han pasado la Covid un 10% de personas. Cogemos una muestra, por ejemplo, de 1000 personas y resulta que en ella hay un 8% de personas que la han pasado esta enfermedad. ¿Es razonable mantener esa hipótesis de que en la población hay un 10%? El contraste de hipótesis me proporcionará un p-valor que me dirá si es o no razonable mantener esa hipótesis. Si hiciera un intervalo de confianza del 95% de la proporción poblacional debería ver si en el intervalo está incluido ese 10% o no. Si está incluido mantendría la hipótesis y si no lo está la rechazaría.

Os cuelgo un vídeo explicando brevemente esto que os acabo de escribir:

Un pequeño análisis de datos sobre la Covid-19 en España y Cataluña que espero que os anime un poquito:

A la hora de tomar decisiones en Estadística (si hay o no relación, si hay o no diferencias) se toman de dos formas: mediante un contraste de hipótesis o mediante un intervalo de confianza. Son, digamos, equivalentes. Son dos formas de toma de decisiones. Hemos visto en el Tema 5 y en el Tema 8 especialmente el contraste de hipótesis y el p-valor como número que nos orienta en la decisión. Vamos a ver, ahora el otro mecanismo: el intervalo de confianza.

Vamos a ver el Tema 3 dos nociones de intervalo. Una ya la hemos visto. Es la descriptiva. Si tengo la media y la desviación estándar de una variable cuantitativa, si se ajusta suficientemente a la distribución normal puedo construir un intervalo dentro del cual habrá en la muestra y, presumiblemente, en la población, un determinado porcentaje de valores. Esta es una noción. Pero hay una segunda noción de intervalo: la noción predictiva.

Leeros el tema escuchando los tres vídeos siguientes:

Es muy importante saber distinguir estas dos situaciones de uso de intervalos. Porque son muy distintos. Y mucha gente los confunde.

El intervalo descriptiva se construye con la desviación estándar de la variable. Sin embargo, el intervalo predictivo se construye con el error estándar (que es la desviación estándar de una predicción).

Volvamos otra vez a las técnicas de relación. Ya vimos en el tema 8 y en el tema 5 técnicas de relación. Os sugiero ahora escuchar el siguiente vídeo que os da una visión panorámica de lo que son las técnicas de relación en estadística:

En este vídeo podéis reconocer lo visto en el tema 8 (la relación entre dos variables cualitativas) y el tema 5 (la relación entre dos variables cuantitativas).

En los siguientes vídeos veréis la Regresión (Temas 6 y 7). De todo el mundo amplio de la Regresión que os introduce el Tema 6 sólo veremos la Regresión lineal simple (Tema 7). Es muy importante el concepto de Coeficiente de Determinación (La R2) como medida de la capacidad predictiva:

Con todo esto tenemos ya mucho material visto. Os cuelgo a continuación tres vídeos con examen tipo test, que será como os evaluaré en el examen final. Estos tres vídeos os comentan varias preguntas tipo test para que practiquéis. Sin embargo, en el blog, en el apartado de PROBLEMAS Y EXÁMENES tenéis muchas preguntas de este tipo para que practiquéis. A mí siempre me ha gustado la enseñanza de conceptos mediante este tipo de preguntas.

Aquí tenéis los vídeos:

Os añado un vídeo donde os hago un comentario de un artículo publicado recientemente y que os dará una visión práctica de la noción de intervalo de confianza predictivo de una proporción:

Toda predicción tiene una desviación estándar, que solemos denominar Error estándar, para diferenciarla. Por lo tanto, un Error estándar es la desviación estándar de una predicción. En este último vídeo os he hablado del Error estándar de la predicción de una proporción. Las dos predicciones más usuales son la de la media poblacional o la de una proporción poblacional. La forma de construir un intervalo de confianza del 95% de la media poblacional o la de una proporción poblacional es la siguiente:

Observad que se toma el valor de la media muestral o la proporción muestral y se suma y resta dos veces el Error estándar; o sea, la desviación estándar dividida por la raíz cuadrada del tamaño de muestra. En la proporción la desviación estándar es la raíz cuadrada de p multiplicado por 1 menos p. Esta es la desviación estándar de una variable con distribución Bernouilli.

En el ámbito de los intervalos de confianza, debido a esta doble concepción de intervalo de confianza que os he comentado en el tema 3 se cometen muchos errores. Mirad uno de sorprendente. En un artículo que tenéis comentado en el apartado de Artículos de Medicina (el Artículo 5) se maneja la siguiente tabla descriptiva, con sus respectivas comparaciones, de las dos poblaciones que se están comparando: HIV y No HIV:

IMG_0203

Observemos un error que hay en la variable Edad. Nos dicen que se da la media y la Desviación estándar (SD). Es como se suele presentar la descriptiva de una variable continua que se ajuste suficientemente bien a la distribución normal (Ver el artículo La Estadística descriptiva en Medicina).  Evidentemente no puede ser. Es imposible que se trate de la Desviación estándar. Las edades serían muy similares, demasiado similares, dentro de cada grupo. Pensemos que si hay ajuste a la normal sumar y restar dos veces la desviación estándar nos cubriría el 95% de los valores. En el caso de los No HIV deberían tener, prácticamente todos, los 5.621.817 de la muestra, 65 años. Podemos pensar, entonces, que se trata del Error estándar. Suele ser habitual confundir Desviación estándar con Error estándar. Pero, tampoco. Sabiendo el Error estándar y el tamaño de muestra podemos calcular la Desviación estándar, a partir de la relación que conocemos entre esos dos cálculos muestrales:

IMG_0232

Estos valores de Desviación estándar son muy grandes, especialmente en el grupo No HIV. En todo caso, si admitimos que son correctas debemos admitir, entonces, que la variable Edad en absoluto se ajusta a una distribución normal. La hubieran tenido que representar mejor mediante la mediana y el primer y tercer cuartil.

Aquí tenéis más preguntas test comentadas. En el primer vídeo veréis que en la pregunta 4 comento la que tiene mayor capacidad predictiva cuando pide la de menor capacidad predictiva. En el siguiente vídeo comento la confusión. En la pregunta 5 veréis que no hay solución. No lo he borrado porque creo que es útil para aprender los conceptos, como veréis.

Aquí tenéis una explicación de dos calculadoras que os haré llegar. Una para calcular el intervalo de confianza de una proporción y el otro para calcular la Odds ratio y su intervalo de confianza:

Ahora tenéis dos vídeos para penetrar con un poco de detalle en cómo funciona por dentro el contraste de hipótesis que hacemos en el Test de la t de Student de dos muestras independientes y varianzas iguales:

A continuación tenéis un vídeo que comenta la noticia de que se va a efectuar un muestreo en España para saber cuántas personas están inmunizadas de la Covid-19:

Os cuelgo un vídeo comentando un tema sobre la Covid-19 y un estudio sobre la influencia de los grupos sanguíneos sobre esta patogenia que nos permite ver una variante del test de la ji-cuadrado de ajuste a unos datos teóricos:

 

Un repaso de lo que hemos hecho hasta ahora:

Más ejercicios resueltos:

Y ahora ya el último tema del curso: La determinación del tamaño de muestra. Escuchad estos dos vídeos que explican el Tema 16 del blog:

Ahora tenéis un vídeo que os explica una calculadora del tamaño de muestra “on line” muy buena:

Un ejemplo de aplicación:

Y un comentario de la parte de determinación del tamaño de muestra de un artículo médico:

Aquí tenéis ejercicios test, resueltos y comentados, del tema 16:

 

Un comentario sobre un artículo aparecido el 1 de mayo en el NEJM donde aparecen elementos estadísticos muy interesantes a comentar: Todas las comparaciones se hacen mediante intervalos de confianza. No hay p-valores. Al comparar variables cuantitativas calculan intervalos de confianza de la diferencia de medias. Al comparar porcentajes calculan intervalos de confianza de la diferencia de proporciones. Lo hacen también con la Odds ratio (cosa que ya es más habitual) y, en este tema, aparece un gráfico muy interesante:

Os cuelgo las tablas:

Podéis ver que aparecen comparaciones de variables cualitativas y de variables dicotómicas pero no aparece ningún p-valor, porque no hacen ningún contraste de hipótesis. Todas las decisiones las toman mediante intervalos de confianza.

Y ahora, mirad las Odds ratio:

A partir de un comentario de Luis Palau he preparado el siguiente vídeo sobre este mismo artículo donde se calcula la potencia de los datos sobre inmunosupresión:

Cuando en los ejercicios resueltos que os cuelgo aparecen cuestiones del tema 15 del blog, de ANOVA, podéis pasar de largo porque este tema no lo hemos visto. Lo veréis en una asignatura en cuarto curso: