Archivo de la categoría: REFLEXIONES

Una introducción a la Estadística inferencial para estudiantes de ESO

La Estadística que se estudia en la enseñanza secundaria es la Estadística descriptiva, la Estadística que se limita a describir lo que se tiene: una muestra. De ella se hacen gráficos que la resumen (histogramas, diagramas de frecuencias, diagramas de cajas (Box-Plot), etc), se calculan valores que detectan ciertas características (la media, la mediana, la desviación estándar, el rango, etc).

Esta introducción a la Estadística inferencial es un primer paso desde esa Estadística, la Estadística descriptiva, a la Estadística inferencial, que es la que con mayor frecuencia se van a encontrar esos alumnos cuando lleguen a la universidad o la acaben aplicando, en la vida real, como profesionales de la Economía, de la Medicina, de la Psicología, etc.

La Estadística inferencial es la que va más allá de la muestra, la que intenta decir cosas no de la muestra, sino de toda la población de donde se ha tomado la muestra. Es la Estadística que, apoyándose en la información muestral, pretende decir cosas de la población global. Por eso es inferencial, porque inferir significa ir más allá de lo que vemos, usar lo que tenemos para hablar de lo que no tenemos.

Supongamos la siguiente situación: dos grupos de investigación estudian cada uno de ellos una determinada enfermedad. Quieren saber si es una enfermedad asociada al sexo; o sea, más frecuente en un sexo que en otro.

El grupo que estudia la enfermedad A ha tomado una muestra de pacientes de esa enfermedad y 2 son hombres y 8 son mujeres.

El grupo que estudia la enfermedad B ha tomado una muestra de pacientes de esa enfermedad y 450 son hombres y 550 son mujeres.

Tenemos, por lo tanto, la siguiente situación:

IMG_1470

La Estadística descriptiva de estas dos muestras es muy sencilla de hacer. De la enfermedad A en la muestra el 20% son hombres y el 80% son mujeres. De la enfermedad B en la muestra el 45% son hombres y el 55% son mujeres.

La Estadística descriptiva aquí acaba su recorrido, no pretende más que eso: describir lo que tenemos, la muestra.

La Estadística inferencial, de hecho, empieza donde ha acabado la Estadística descriptiva. A partir de esos porcentajes muestrales incuestionables se plantea: Esa diferencia, ¿es SIGNIFICATIVA? Y aquí aparece la gran palabra de la Estadística: la palabra SIGNIFICATIVO.

Si ahora aplicáramos técnica estadísticas inferenciales acabaríamos viendo que la información que tenemos de la enfermedad A no es significativa y, sin embargo, la que tenemos de la enfermedad B sí lo es. Lo que implica que podemos decir que es mayor la diferencia que hay entre el 45% y el 55% de la enfermedad B que entre el 20% y el 80% de la enfermedad A.

Quien quiera profundizar más en las razones puede consultar el artículo titulado Introducción al contraste de hipótesis. Allí podrá ver la razón fundamental de por qué la diferencia entre 2 y 8 no es significativa y sí lo es la diferencia entre 450 y 550. Evidentemente, como puede suponerse, aquí la clave es el tamaño de muestra. Si en Estadística inferencial queremos decir cosas de todos a partir de una parte (de una muestra) el tamaño de esa muestra para hacer este salto va a ser, evidentemente, fundamental.

Una metáfora puede ayudar a entender todo esto, una metáfora tomada del mundo del baloncesto:

Si un equipo de baloncesto está ganando de 10 puntos en la media parte del partido, ningún aficionado al baloncesto diría que este partido ya está ganado. Si miráramos en una base de datos cientos de miles de partidos de baloncesto y buscáramos todos los partidos en los que un equipo ganaba de 10 faltando todavía 20 minutos de partido por jugar seguro que veríamos que más del 5% de veces ese equipo ha acabado perdiendo. En términos estadísticos diríamos que se trata de un resultado estadísticamente NO SIGNIFICATIVO.

Este número, el 5%, es muy importante en Estadística. Es un valor frontera muy importante. Es el error máximo que se ha establecido para poder afirmar algo en ciencias.

Por el contrario, si faltando un minuto un equipo está ganando de 10 puntos. Ahora  si buscásemos en esa misma base de datos partidos que un equipo, faltando un minuto para acabar el partido, iba ganando de 10 puntos, seguramente veríamos que menos del 5% de veces ese equipo ha acabado perdiendo. Si fuera así, diríamos, en términos estadísticos, que este resultado es estadísticamente SIGNIFICATIVO.

Observemos, ahora, los siguientes datos tomados de un importante y reciente estudio publicado en la revista médica más importante, el New England Journal of Medicine:

 

Se trata de un estudio donde se ensaya la implantación de un páncreas artificial. Para ello se toman 54 niños en un campamento para diabéticos y en dos noches se les trata de dos formas distintas. Una noche mediante el tratamiento habitual mediante insulina y otra noche mediante el páncreas artificial. Se analiza si durante la noche han tenido o no una hipoglucemia, que es la situación más grave que puede padecer un diabético. Como puede verse, con el páncreas artificial 7 de los 54 han padecido una hipoglucemia. Sin embargo, cuando estaban siendo tratados con la insulina, el tratamiento control, se produjeron 22 hipoglucemias. Es evidente que es distinto 7 de 22. Matemáticamente distinto. Pero lo que hace falta es ver si es una diferencia significativa, si es una diferencia estadísticamente significativa.

El valor p=0.02 es el que nos dice si se trata de un resultado significativo. Ser un resultado significativo implica decir que es extrapolable a la población. Que esta diferencia se mantendría si en lugar de tener sólo 54 pacientes tuviéramos millones y millones de pacientes.

Pues esto, esta operación de detectar la significación es la finalidad más importante de la Estadística. Se podría decir perfectamente que la Estadística inferencial es la técnica científica que permite afirmar si un resultado es o no SIGNIFICATIVO. Poca cosa, tal vez, pero de una trascendencia extraordinaria. Fijaos en otro paralelismo: Un juez es una persona encargada de decir, en un juicio, si un acusado es o no inocente. Básicamente es esa su labor. Poca cosa si se quiere, pero se trata de una labor muy trascendental en la sociedad. Pues un estadístico es en la ciencia como un juez en la sociedad. Dicta la sentencia de si un resultado es o no significativo.

Valoración de políticos

A continuación pueden verse los resultados de valoración de políticos en España extraídos del Barómetro del CIS de julio de 2014.

Puede verse que el valor aquí de la desviación típica (Desviación estándar) no puede ser el que le podríamos dar si las valoraciones se ajustaran a la distribución normal. Es evidente que no se produce tal ajuste en estos datos. Observemos que la Desviación estándar es del mismo orden que la media. Es evidente que si aplicáramos la inferencia de sumar y restar una vez y dos veces la desviación estándar a la media (asignando el 68.5% y el 95% de los valores poblacionales) estaríamos haciendo un evidente error.

IMG_0156.PNG

IMG_0157.PNG

La Estadística, la Ciencia y la Filosofía

En un extraordinario texto de Thomas Mann, en el que analiza la obra del filósofo Shopenhauer, formula, con una belleza extraordinaria (bella por la metáfora usada y, especialmente, por el carácter sintético que representa), una visión de lo que ha sido la columna vertebral de la Ciencia y de la Filosofía.

Para Thomas Mann desde Platón hasta Kant y, poco después, Shopenhauer, la preocupación de la Ciencia y de la Filosofía ha sido delimitar con precisión el uso del artículo determinado y del artículo indeterminado.

Realmente es genial. Resumir la historia de la Ciencia y de la Filosofía como un diálogo entre el artículo determinado y el artículo intederminado es ciertamente genial.

El artículo determinado apunta a lo que vemos, se mueve en la esfera de las representaciones, en la esfera de lo visual, de lo sensible: “Una casa”, “una buena acción”, “un círculo”, “un cacto amoroso”, etc. El artículo indeterminado, por el contrario, nos trasporta a la idea, a lo que no vemos, a la unidad, a lo invisible: “La casa”, “la buena acción”, “el círculo”, “el amor”.

Siempre en la historia del conocimiento se ha dado esta dualidad: entre lo que vemos y lo que no vemos. Entre la diversidad de lo visible y la necesidad de la unidad formal que fundamenta, desde detrás, esa diversidad. Desde Tales de Mileto, en realidad, está presente esta dualidad. Cuando él se planteaba lo que había detrás de todas las cosas, lo que había detrás de la diversidad de formas de presentación de esas cosas, en realidad buscaba un artículo indeterminado que unificara la pluralidad de artículos determinados que visualizaba. El agua como explicación de todo lo que hay fue la solución para él. El agua es, para él, el artículo indeterminado que da unidad a la pluralidad de nuestra mirada hecha de artículos determinados.

Y la historia de la Ciencia y de la Filosofía es eso: la búsqueda de la unidad en la diversidad. Con Platón es clarísimo: Las ideas son esos elementos a modo de artículo indeterminados que explican, desde la cueva, que veamos sus sombras proyectadas en forma de pluralidad visualizada a modo de artículos determinados. Lo que vemos son “unas buenas acciones”, “unos círculos”, etc, que son sombras de “la bondad”, “del círculo”, etc.

Y todo esto, ¿qué tiene que ver con la Estadística? Pues mucho. Muchísimo.

La Estadística puede verse como un diálogo entre lo determinado, lo que vemos, las muestras, la pluralidad de lo visible, y lo indeterminado, lo que no vemos, las poblaciones, los totales inaccesibles y que queremos delimitar, dibujar. La Estadística es un ir de lo determinado a lo indeterminado. La Estadística es un repertorio de técnicas para alzarse desde lo diverso y parcial a lo unitario y desconocido. La Estadística es un mecanismo que ayuda a hacer ese tránsito que ha interesado e interesa desde hace dos milenios y medio a la humanidad.

Seguramente la Estadística es una de las más fundamentales herramientas que tenemos en la Ciencia y la Filosofía para hacer ese transito desde lo determinado a lo indeterminado que es el camino que ha hecho la Ciencia y la Filosofía dede que a partir de Tales de Mileto comenzó el camino del mito al logos.

Vale la pena una disciplina tan trascendental como la Estadística, sin lugar a dudas.

La Odds ratio en lingüística

Como puede verse en los siguientes artículos, en Lingüística se usa la Odds ratio. Y estoy convencido que se usaría más si se conociera más.

20140110-075428.jpg

20140110-075442.jpg

Captura de pantalla 2015-10-30 a las 8.25.50

Captura de pantalla 2015-10-30 a las 8.29.26Captura de pantalla 2015-10-30 a las 8.30.15

Para una explicación de la Odds ratio y sus posibilidades ver el Terma 9 y los artículos Factores de riesgo de accidente de automóvilLa Odds ratio, el riesgo relativo y sus intervalos de confianza y La Odds ratio como medida del riesgo o la protección ante la violencia de género.

La Estadística como ciencia de lo SIGNIFICATIVO (Una introducción a la Estadística para estudiantes de ESO)

Cada ciencia suele definirse delimitando su ámbito de estudio. Así, por ejemplo, decimos que  la Biología es la ciencia de la vida, la Lingüística es la ciencia de las lenguas, la Medicina es la ciencia que estudia y trata las enfermedades humanas, la Psicología es la ciencia del comportamiento humano, etc.

Se han dado diferentes definiciones de Estadística. Una que puede ser apropiada y que está expresada en estos términos de “la ciencia de …” es la siguiente: la Estadística es la ciencia de lo SIGNIFICATIVO.

Bueno, como mínimo la definición sorprende, ¿no? No parece, al menos a primera vista, que lo SIGNIFICATIVO merezca tanta atención. Pues no es así. Merece atención y mucha. Se ha montado toda una ciencia en torno a esa noción debido a la importancia que a lo largo de los últimos doscientos años se le ha ido dando. Y ahí tenemos a la Estadística.

“SIGNIFICATIVO” no es, por cierto, una palabra extraña en nuestro lenguaje cotidiano. Realmente no es que sea de las palabras más habituales de nuestro día a día, pero es una palabra que todos seríamos capaces de asignarle un significado. Seguramente sin una gran precisión, es cierto, pero todos seríamos capaces de explicar qué queremos decir cuando decimos que algo es SIGNIFICATIVO.

En Estadística, sin embargo, es el objeto fundamental. Prácticamente todo en Estadística está canalizado para poder poner la etiqueta de SIGNIFICATIVO o de NO SIGNIFICATIVO a lo que vemos en unos resultados de un estudio determinado.

Por lo tanto, delimitar lo que entendemos por SIGNIFICATIVO en Estadística es crucial. Y delimitar, también, cuándo unos datos nos permiten decir que lo que vemos es o no SIGNIFICATIVO, es también nuclear en Estadística.

Voy a tratar, a continuación, de explicar cuál es el significado de la noción SIGNIFICATIVO en el lenguaje de la Estadística. Veámoslo, primero, mediante metáforas, que es una excelente forma de comunicar, especialmente en Ciencias.

Supongamos un profesor que después de un largo curso convoca a sus alumnos para el examen final y éste consiste en una única pregunta muy concreta, que se responde mediante una única línea. Ante un examen así un buen alumno, un alumno que ha estudiado mucho y que tiene muchos conocimientos, puede sacar perfectamente un 0. Ha tenido mala suerte. Le han preguntado justo un detalle concreto que no consigue recordar. Y, por el contrario, un pésimo alumno, un alumno que no ha estudiado nada, puede sacar un 10. Ha tenido la suerte de que le han preguntado justo algo que era de lo poco que sabía. Esto puede pasar perfectamente. Además, si, ante una situación como esta, repitiésemos el examen, y lo hiciésemos mediante un examen del mismo tipo, mediante una pregunta muy concreta que se responde en una simple línea, pero, eso sí, ahora una pregunta distinta a la anterior, podría pasar perfectamente que el que antes ha sacado un 10 ahora saque un 0 y el que antes ha sacado un 0 ahora saque un 10.

En términos estadísticos diríamos que exámenes de este tipo, exámenes tan concretos, no proporcionan notas SIGNIFICATIVAS de los alumnos examinados. Son notas poco fiables, que están sometidas demasiado al azar de lo que se pregunta. Son notas que reflejan poco el nivel de conocimientos del alumno.

Sin embargo, supongamos ahora que el examen es de 50 preguntas cortas que cubren todo el temario de la asignatura. La nota que obtiene un alumno muy poco cambiaría si repitiéramos el examen con otras 50 preguntas. Ahora sí podemos hablar de una nota SIGNIFICATIVA, una nota que volvería a ser del mismo orden si volviéramos a hacer un examen del mismo tipo aunque distinto.

Otro ejemplo: Si un equipo de baloncesto está ganando de 10 puntos en la media parte del partido, ningún aficionado al baloncesto diría que este partido ya está ganado. Si miráramos en una base de datos cientos de miles de partidos de baloncesto y buscáramos todos los partidos en los que un equipo ganaba de 10 faltando todavía 20 minutos de partido por jugar seguro que veríamos que más del 5% de veces ese equipo ha acabado perdiendo. En términos estadísticos diríamos que se trata de un resultado estadísticamente NO SIGNIFICATIVO.

Este número, el 5%, es muy importante en Estadística. Es un valor frontera muy importante, como veremos más tarde.

Por el contrario, si faltando un minuto un equipo está ganando de 10 puntos. Ahora  si buscásemos en esa misma base de datos partidos que un equipo, faltando un minuto para acabar el partido, iba ganando de 10 puntos, seguramente veríamos que menos del 5% de veces ese equipo ha acabado perdiendo. Si fuera así, diríamos, en términos estadísticos, que este resultado es estadísticamente SIGNIFICATIVO.

Una cuestión muy importante: En ciencia siempre estudiamos muestras pero la finalidad es poblacional. Queremos hablar de todos a partir del estudio de una parte, de una muestra. En términos de baloncesto: Pronosticamos el final del partido, pero, evidentemente, durante el partido. Una vez acabado el partido sólo es posible describir lo que ha sucedido pero no hay pronósticos posibles.

La significación es una palabra nuclear en la Ciencia. La ciencia persigue dar resultados SIGNIFICATIVOS. Persigue decir cosas con fiabilidad, con pocas posibilidades de equivocarse. Los instrumentos que aporta la Estadística para delimitar resultados SIGNIFICATIVOS de  resultados NO SIGNIFICATIVOS es un instrumento esencial en la Ciencia. Veamos algunos ejemplos donde está presente la noción de estadísticamente SIGNIFICATIVO. Los tres ejemplos están tomados de la revista más prestigiosa en Medicina, el New England Journal of Medicine.

El primer caso consiste en un estudio publicado recientemente donde se compara la eficacia de un páncreas artificial automatizado, que controla la glucemia y suministra insulina en continuo, respecto a un sistema de control estándar en pacientes con Diabetes tipo 1. Se usan los dos sistemas de control en un mismo grupo de pacientes con este tipo de Diabetes. En dos noches distintas se ensayan cada uno de estos métodos en todos los pacientes. La variable respuesta es si en algún momento han sufrido una hipoglucemia durante la noche. La hipoglucemia es la situación de máxima gravedad en la que puede situarse un diabético.

Los datos que se obtienen son los siguientes:

IMG_0133

Observemos que con el páncreas artificial 7 veces se han producido una hipoglucemia entre los 54 niños con diabetes participantes en el estudio. Con el control (el método habitual de control nocturno de la diabetes) se han producido 22 casos de hipoglucemia entre 54 niños. Evidentemente que 7 es menos que 22. El problema es si esta diferencia es, o no, estadísticamente SIGNIFICATIVA. Y esto nos lo debe proporcionar una técnica estadística. En este caso concreto nos lo resolvería una técnica estadística llamada Test de McNemar. La técnica nos da un valor que es este valor que vemos: p=0.003, que es el valor que marca que estamos ante un resultado estadísticamente SIGNIFICATIVO.

Esta p, el denominado p-valor, es un valor que va de 0 a 1 y si es un valor menor que 0.05 indica que la diferencia que vemos es SIGNIFICATIVA, indica que la diferencia es fiable. Que no es fruto del azar. Observemos que 0.05 sobre 1 es como 5 sobre 100 (un 5%), que es la frontera que antes he citado cuando hablaba del partido de baloncesto. Este 5% ó 0.05 por 1 es una frontera muy importante en Estadística y en Ciencias.

Otro ejemplo: A principios de este año un artículo creó un verdadero impacto entre los especialistas en enfermedades infecciosas. En un estudio con personas infectadas por Clostridium difficile conseguían mejores resultados, un mayor porcentaje de curaciones sin recaídas, si el tratamiento se hacía con infusiones, por sonda orogástrica, de heces de pacientes con infección crónica de esta especie bacteriana, que mediante un tratamiento con antibiótico. Veamos los resultados:

IMG_4962

Observemos los datos de los resultados de los pacientes tratados con la infusión comparados con los resultados obtenidos con el tratamiento con el antibiótico más eficaz usado en estos casos, que es la vancomicina. Como puede observarse los niveles de curación sin recaídas son superiores en los tratamiento con infusiones con heces que en los tratamientos antibióticos. Las cuatro comparaciones posibles entre los tratamientos con infusión y los tratamientos con la vancomicina son SIGNIFICATIVAS (p<0.05).

Otro ejemplo: La fibromialgia es una enfermedad muy frecuente en nuestra sociedad. Se han ensayado muchos métodos para intentar buscar remedio a esta dolencia. Recientemente se ha publicado un original estudio que demuestra que el Tai-chi es un método que consigue resultados positivos a la hora de abordar esta enfermedad. Veamos el cuadro siguiente:

IMG_0136

Como puede observarse los dos grupos de pacientes estudiados, uno siguiendo un método control mediante fisioterapia y el otro siguiendo unas sesiones de tai-chi, parten de una mismo nivel de gravedad y podemos ver en el gráfico, perfectamente, cuál es la evolución a lo largo de las semanas. Vemos cómo el grupo control se mantiene dentro de un nivel estable y, sin embargo, los pacientes que siguen esas sesiones de tai-chi consiguen reducir significativamente los niveles de dolor que tienen. Aquí el p-valor también es inferior a 0.05. La gráfica no nos lo da, pero nos da algo equivalente. Nos da intervalos de confianza del 95%. Observemos que los intervalos de confianza de los dos grupos en las primeras semanas se solapan (lo que indica que la diferencia no es SIGNIFICATIVA) y, sin embargo, a partir de la semana 8 esos intervalos ya no se solapan. Lo que indica que esa diferencia ya es SIGNIFICATIVA, es fiable.

Al final toda esta diversidad de situaciones se analizan mediante mecanismos diferentes (Técnicas estadísticas distintas) pero siempre bajo un mismo principio. El siguiente: ¿Lo que se ve es algo que es muy probable verlo en el caso que los grupos comparados fueran realmente iguales o, por el contrario, sería muy poco probable verlo en ese caso? Las técnicas estadísticas siempre funcionan haciendo una comparación entre lo que ven en la muestra y lo que deberían ver si los grupos comparados fueran iguales.

Si los dos mecanismos de control de la diabetes fueran iguales, si el tratamiento con infusiones de heces y el tratamiento con antibióticos dieran resultados idénticos o si hacer tai-chi o hacer fisioterapia estándar dieran resultados idénticos en pacientes con fibromialgia, esperaríamos ver en una muestra unos ciertos valores. Estos valores esperados, en el supuesto de que fuera cierto el caso hipotético de igualdad entre lo comparado, son los que las técnicas estadísticas comparan con lo que realmente ven en las muestras de esos estudios. En función de esta comparación, en función de la distancia entre lo esperado y lo observado, acaban dictaminando si eso que vemos es coherente o no con la igualdad presupuesta de esos grupos comparados.

Para ver cómo opera una técnica estadística para comparar lo esperado, bajo el supuesto de que los grupos comparados son iguales, con lo observado, vamos a centrarnos en dos de esos tres casos y vamos a ver, en ellos, cómo opera la técnica estadística.

Recordemos que el primer caso analizado era el estudio del páncreas artificial. De los 54 pacientes 7 tenían problemas con el páncreas artificial y con el control habitual el número de problemas ascendía a 22.

7 de 54 y 22 de 54 son distintos, evidentemente. Son matemáticamente distintos. Pero, esta diferencia, ¿es estadísticamente SIGNIFICATIVA? Este es el problema. El análisis estadístico es quien lo dirá, es el que determinará si esa diferencia entre 7 y 22 es una diferencia estadísticamente SIGNIFICATIVA.

Para empezar el análisis vamos a suponer, vamos a partir de la suposición, de que los dos métodos, los dos tratamientos, tienen la misma eficacia. Por lo tanto, elaboraremos un mundo ficticio donde los dos métodos que estamos comparando fueran, en realidad, idénticos.

Si los dos métodos fueran idénticos, que dieran el mismo número de problemas, el mismo número de situaciones de hipoglucemia, esperaríamos una probabilidad de hipoglucemia, durante una noche, del 26,8%, porque tenemos, en un método, un 12,9% de hipoglucemias y, en el otro, un 40,7%. El 26,8% es el promedio de estos dos porcentajes. Por lo tanto, este mundo ficticio que construimos lo hacemos adoptando un valor que, en global, refleja la realidad. En lo que hemos visto, en el estudio, en total, se produce un 26,8% de hipoglucemias (si juntamos las de un método y las del otro).

Vamos a hacer una simulación, vamos a construir experimentos posibles. Esto actualmente no es nada extraño. Vivimos rodeados de simulación: de una carrera de motos, de un partido de fútbol, etc. Esto que nos proponemos hacer, ahora, es posible gracias a la informática. Generaremos experimentos posibles pero bajo el supuesto de que los dos métodos tienen el mismo porcentaje de problemas, bajo el supuesto de esta ficción que hemos creado. Generaremos 100.000 experimentos equivalentes al del estudio, pero bajo el supuesto de que los dos métodos son igual de eficaces; o sea, con una probabilidad de hipoglucemia, en ambos métodos, del 26,8%.

Haciendo esto estaremos viendo qué variaciones posibles veríamos en experimentos donde fuera cierto que los dos métodos son iguales. De esta forma podremos situar nuestro experimento real, que sólo tenemos uno, dentro de este inmenso conjunto de experimentos simulados bajo el supuesto de igualdad. Será ésta la forma de evaluar la posición relativa de lo que vemos en el conjunto de lo que deberíamos ver si fuera cierto que los dos métodos son iguales.

Si hacemos estos 100.000 experimentos obtendremos parejas de valores como, por ejemplo: (15, 17), (14, 15), (17, 13), (16, 16), etc, que serán valores posibles a ver de hipoglucemias entre 54 pacientes en cada uno de los dos métodos, pero, siempre, bajo el supuesto que la probabilidad de hipoglucemia es la misma en cada uno de los dos sistemas: 26,8%.

En el estudio real la pareja de valores que hemos obtenido era (7, 22). Una diferencia de 15. Vamos a restar nosotros las 100.000 parejas de valores del número de hipoglucemias simuladas con un tratamiento y con el otro. Los valores de esas 100.000 resta que obtenemos son los presentados en el siguiente gráfico:

IMG_7199

Como puede verse lo habitual, lo más frecuente, es que la diferencia sea pequeña. Diferencias de 0, 1, -1, 2, -2, 3, -3, 4 y -4 son las más frecuentes. Conforme buscamos restas mayores vamos viendo que la frecuencia va decreciendo. Pero lo trascendente aquí es ver que la diferencia de 15, que es justo la diferencia entre 22 y 7 que nosotros vemos en el estudio, es extraordinariamente improbable. Aparece en poquísimas ocasiones. Esto es lo que hace dudar de que lo que vemos sea algo procedente de dos métodos equivalentes. Ante esta poca probabilidad es razonable pensar que la diferencia observada obedezca a una diferencia real. Que si lo lleváramos a millones y millones de personas, no sólo a 54 personas, acabaríamos viendo un resultado equivalente al que estamos viendo en este estudio.

Esto es como cuando decimos que un partido de baloncesto ya está ganado cuando, faltando 1 minuto, nuestro equipo gana de 10. La probabilidad de perder es lo suficientemente baja como para pensar que este partido ya está ganado. Por eso hablamos de un resultado SIGNIFICATIVO, porque es muy poco probable ver lo que estamos viendo en el caso de que los grupos comparados realmente se comportaran poblacionalmente de forma equivalente y, muestralmente, viéramos lo que estamos viendo.

Veamos el segundo caso, el del Clostridium difficile. Cojamos de las cuatro situaciones experimentadas los datos de las dos situaciones descritas en el centro de la tabla: el caso de tratamiento con infusión que tiene un 93,8% de éxito y el de la vancomicina, que tiene un 30,8% de éxito. Se trata ahora de simular experimentos de los que supusiésemos que la probabilidad de éxito es la misma entre entre ellos. Para ello podemos pensar en un valor promedio de los dos vistos: un promedio entre 93,8 y 30,8; o sea, 62,3%.

Podemos ahora simular 100.000 experimentos equivalentes pero bajo el supuesto que sean iguales las probabilidades de éxito mediante los dos procedimientos. Generar, por lo tanto, parejas de valores basados en muestras de tamaño 16 y 13 cada experimento con una probabilidad de éxito del 62,3%. Así tendríamos parejas de valores como: (10, 7), (11, 6), (9, 7), etc. Ahora las 100.000 parejas las transformamos a porcentajes de éxito de porcentaje, relativo siempre a los 16 y 13 de tamaño muestral de cada uno de los dos experimentos: el primero siempre respecto a 16 y el segundo respecto a 13. Así tendríamos, en los casos ejemplificados antes: (62.5, 53.8), (68.7, 46.1), (56.2, 53.8), etc. Si ahora hacemos las 100.000 restas de estas parejas de porcentajes tendremos el siguiente histograma:

IMG_7213

Como puede apreciarse, bajo el supuesto de que los dos métodos tengan la misma probabilidad de éxito los valores de las restas obtenidas al azar se sitúan mayoritariamente entre -40 y 40. Luego, los valores observados: (93.8, 30.8) que tienen una resta de 63 se trata de un valor muy extraño, muy poco probable verlo. Por lo tanto, debemos decantarnos por pensar que realmente no deben ser iguales SIGNIFICATIVAMENTE las probabilidades de éxito de estos dos tratamientos, porque de serlo deberíamos, en un experimento, ver mayor proximidad.

De nuevo esto es como cuando en un partido de baloncesto, en el que falta 1 minuto para acabar y nuestro equipo gana de 10 puntos, decimos que el partido está ganado. La probabilidad de perder es lo suficientemente baja como para pensar que el partido está ganado.

Por eso hablamos de que estamos ante un resultado SIGNIFICATIVO, porque es muy poco probable ver lo que estamos viendo y que sea cierto que los dos tratamientos sean iguales.

Puede parecer sorprendente pero lo cierto es que la Estadística y todas las Ciencias se basan, se apoyan, en análisis estadísticos como estos que acabamos de ver. La Estadística elabora y aplica métodos para diagnosticar lo SIGNIFICATIVO y todos ellos tienen como principio básico estas ideas de hemos intentado explicar aquí.

La Ciencia es un Estado de Estadística

Cuando hay un problema social y político en el que alguien abusa de su nombre o de su cargo y consideramos que está actuando fuera de la ley reclamamos airadamente el Estado de Derecho. “Hemos de reivindicar el Estado de Derecho”, “Se están cargando el Estado de Derecho”, oímos y decimos, frecuentemente, en estas situaciones.

Un Estado de Derecho es un Estado donde la ley está por encima de todos. DE TODOS. O sea, significa que en ese Estado el rey, o el presidente o el primer ministro, y a partir de ellos, todos, estamos bajo la ley, estamos sometidos a las leyes. Las leyes están por encima, son los faros que guían las relaciones sociales y políticas.

Pues, la Ciencia es un Estado de Estadística. La Estadística está por encima de todo. Las decisiones en Ciencia no se toman porque un determinado científico de mucho prestigio lo diga. Las decisiones se toman porque una técnica estadística adecuada al caso, porque un contraste de hipótesis, en definitiva, lo dice.

Es muy importante entender el paralelismo. Si lo entendemos veremos que estamos ante una disciplina realmente trascendente, ante un disciplina nuclear en el ámbito del conocimiento. Ante una disciplina que vale la pena conocer y dominar.

Las tres revoluciones en la historia de la Estadística

En la Historia de la Estadística ha habido tres grandes revoluciones:

  1. Estadística paramétrica
  2. Estadística no paramétrica
  3. Remuestreo

 Veamos con un poco de detalle lo que supone cada una de ellas:

  1. La primera gran revolución es la creación de la llamada Estadística paramétrica. Pearson, Fisher, Student y otros estadísticos emprendieron la labor de crear procedimientos de decisión estadística: estimación puntual, estimación por intervalos y contrastes de hipótesis, basados en unas suposiciones prefijadas sobre la distribución de las variables analizadas, especialmente la suposición de normalidad. A partir de esta suposición construían una serie de procedimientos que permitían tomar decisiones.
  2. La segunda gran revolución la introducen unos estadísticos que perciben que las suposiciones de la Estadística paramétrica son muy exigentes y que, en muchas ocasiones, no se cumplen. En este caso usar un método paramétrico es arriesgado porque estás tomando decisiones en base a unos criterios que no son ciertos. Percibieron que habían de construir mecanismos de decisión estadísticos que no dependieran de suposiciones tan exigentes. Y construyeron una estadística cuyos estadísticos, cuyos cálculos a una muestra para tomar decisiones, su distribución dependiera de ellos mismos, de su estructura, no de la distribución de la población.
  3. La tercera gran revolución viene de la mano de la simulación, del remuestreo, de las posibilidades ofrecidas por la informática y la programación. Estos procedimientos han permitido encontrar la distribución de un estadístico de test cualquiera puesto que la simulan. Además lo pueden hacer bajo el supuesto de ser cierta la Hipótesis nula. Y lo hacen a través de una genialidad: catapultando la muestra a población. Haciendo de la muestra la población. Y generando, así, desde esta población artificial muchas muestras posibles bajo las condiciones que se quiera. Así podemos encontrar cuál es la distribución simulada de un estadístico y construir intervalos de confianza, realizar contrastes de hipótesis, etc.

La Estadística es un diálogo entre el indicativo y el subjuntivo

La Estadística es la ciencia que utiliza más el subjuntivo. Tiene su razón de ser. Y, además, esta razón de ser está en la propia esencia de lo que es la Estadística.

Observemos las siguientes frases:

“… el promedio teórico de los cálculos que pudiésemos hacer si tuviésemos todas las muestras posibles”

“… el p-valor, que es una medida objetiva de la posición de los que vemos respecto a lo que podríamos ver si tuviésemos todas las muestras posibles en el caso de que fuese cierta la H0.

Estas frases son el día a día en un curso de Estadística. Porque en Estadística siempre estamos estableciendo comparaciones entre lo que tenemos y lo que pudiésemos tener. Pensemos que muchas técnicas estadística en su proceso de decisión comparan el llamado “Observado” (la muestra que se tiene) con el llamado “Esperado” (lo que deberíamos ver si fuera cierta la Hipótesis nula.

El mismo p-valor, columna vertebral de las decisiones estadísticas, está fundamentado en este diálogo. De hecho, se puede decir que el p-valor es la traducción numérica de este diálogo entre lo que tenemos (Indicativo) y lo que pudiésemos (Subjuntivo) tener en el caso de que fuese (Subjuntivo) cierta la Hipótesis nula.

En realidad, en Estadística, y, por lo tanto, en Ciencia, las decisiones se toman a partir de una muestra, pero siempre tratándola de situar en relación a las muestras que hubiésemos podido tener en el caso que fuese cierta la Hipótesis nula, que es lo que podemos decir antes de hacer cualquier estudio de una realidad determinada.

En Estadística, por lo tanto, siempre estamos estableciendo un diálogo entre lo que vemos (el Indicativo) y lo que hubiésemos (el Subjuntivo) podido ver en unas circunstancias determinadas que nos interesa evaluar.

Las tres formas de decir cosas en inferencia estadística

En inferencia Estadística hay tres formas básicas de decir cosas:

  1. Estimación puntual.
  2. Estimación por intervalos de confianza.
  3. Contrastes de hipótesis.

Veamos un poco lo que supone cada una de estas tres formas:

  1. En la Estimación puntual se pretende pronosticar un valor poblacional a través de un cálculo muestral. La finalidad es construir, pues, un estimador, una maquinaria matemática, como la media muestral, la mediana muestral, la Odds ratio muestral, la correlación muestral, etc, que nos proporcione un pronóstico de un valor poblacional desconocido y que lo haga con el máximo de calidad: sin sengo (que el promedio teórico de los cálculos que pudiéramos hacer con todas las muestras posibles sea justo el valor buscado), con poca Desviación estándar (que en el contexto de un estimador siempre la llamamos Error estándar, porque depende también del tamaño muestral).
  2. En la Estimación por intervalos de confianza se pronostica, también, como en la Estimación puntual, pero mediante un intervalo de confianza. No se da un valor pronóstico sino que se da un intervalo de valores entre los cuales con una confianza prefijada (normalmente del 95%) estará el valor real que se pretende pronosticar. Es importante porque, así como la Estimación puntual únicamente nos proporciona un número, sin más, un intervalo de confianza nos da muchas cosas: nos da una predicción puntual también, pero, además, nos da un intervalo de confianza y nos proporciona, también, a través de la longitud del intervalo, una medida del nivel de información que tenemos en el estudio. Pensemos que esta longitud depende del Error estándar, por lo tanto tenemos una información adicional muy valiosa que no tenemos en la Estimación puntual.
  3. En el contraste de hipótesis se contraponen dos afirmaciones, la llamada Hipótesis nula: H0, y la denominada Hipótesis alternativa: H1. Y después de un anàlisis de la muestra que tenemos nos decidimos por una u otra, pero de una forma un poco peculiar: La H0 parte como cierta y sólo nos decantaremos por la H1 si la H0 es absurdo mantenerla viendo lo que vemos en la muestra. Por eso a la H1 se le denomina alternativa, porque es la alternativa de la nula cuando ésta no es lógico mantenerla tras analizar la muestra. De nuevo, como en los intervalos de confianza, tenemos un procedimiento que analiza con profundidad la información y nos lo muestra a través de un p-valor, que es una medida objetiva de la posición de los que vemos respecto a lo que deberíamos ver si fuera cierta la H0. Por eso cuando el p-valor es muy pequeño rechazamos esta hipòtesis, porque està muy lejos lo que vemos de lo que deberíamos ver.

La Estadística es como un partido de baloncesto

La Estadística es como un partido de baloncesto. En Estadística buscamos la significación, que es equivalente a preguntarnos en qué momento, a lo largo de un partido de baloncesto, podemos decir que el partido está ganado.

En Estadística casi todo gira en torno a la noción de contraste de hipótesis: una decisión entre dos afirmaciones. A una de ellas, que es la preferente, que afirma lo que podemos decir antes de empezar cualquier estudio, la llamamos Hipótesis nula. A la otra, la que aceptaremos sólo cuando rechacemos la Hipótesis nula, la llamamos Hipótesis alternativa. Otra forma de decisión en Estadística es a través de un intervalo de confianza, que, desde otro punto de vista, es otra forma de contrastar. Si dentro del intervalo está lo afirmado en la Hipótesis nula, la mantenemos, sino la rechazamos y aceptamos la Hipótesis alternativa.

En los contrastes de hipótesis contrastamos: Igualdad versus diferencia, No relación versus relación, Odds ratio igual a uno versus Odds ratio diferente de uno, Pendiente de una recta de regresión igual a cero versus Pendiente de la recta distinta de cero, Distribución normal versus Distribución no normal, etc. Partiendo, siempre, de que, “a priori”, es cierta la Hipótesis nula. O sea, que lo que podemos decir, antes de hacer cualquier estudio, son cosas como: las poblaciones que comparamos son iguales, las variables que estamos estudiando no tienen relación, la Odds ratio es uno, la pendiente de una recta de regresión es cero, la distribución de una variable es la normal, etc.

En Ciencias, son las diferencias, las relaciones, la no normalidad, lo que debe demostrarse. Las igualdades, las no relaciones o la normalidad parten como ciertas. La Estadística, como lenguaje de las Ciencias que es, está centrada en esta fundamental actividad de contraste de hipótesis.

Bueno, y ¿todo esto que tiene que ver con el baloncesto? Pues mucho. Muchísimo. Veamos.

Una cosa muy importante: en baloncesto no existe el empate. Siempre gana un equipo u otro. Si se acaba con los mismos puntos se hace una prórroga de 5 minutos. Si aún así no gana ninguno se continúa haciendo prórrogas hasta que uno acabe ganando.

En los contrastes de hipótesis podemos decir claramente que, en realidad, siempre es cierta la Hipótesis alternativa. Sorprendente, ¿no? O sea, las medias de dos poblaciones que comparamos son siempre distintas, la correlación entre dos variables nunca es cero, siempre es distinta de cero. Una Odds ratio nunca es uno, es siempre distinta de uno. La pendiente de una recta nunca es cero. Una variable nunca sigue una campana de Gauss. Siempre la cierta es, en realidad, la Hipótesis alternativa. El problema es en qué momento lo podemos decir. En qué momento podemos decir que una población es mayor que la otra y no al revés. En qué momento podemos decir que la correlación es positiva y no negativa. En qué momento podemos decir que la Odds ratio es mayor o menor que 1. Que la pendiente no es cero. Que la distribución no es normal. Etc.

También es así en un partido de baloncesto. En qué momento podemos decir, con pocas probabilidades de equivocarnos, que el que está ganando ahora va a ganar.

Si el resultado de un partido lo expresáramos en términos estadísticos, lo haríamos así:

H0: Empate.

H1: Gana algún equipo de los dos.

Sabemos ciertamente que la nula (H0) no es cierta, que la cierta es la alternativa (H1). El problema es en qué momento podemos decir que la nula la rechazamos porque ya sabemos, con muchas posibilidades de acertar, cómo es lo afirmado en la Hipótesis alternativa. A la Hipótesis alternativa vamos a ir únicamente cuando sea fiable lo que podamos decir. Como en un partido de baloncesto: únicamente diremos que no se empata (que, en realidad, no se acabará empatando nunca) cuando podamos concretar con precisión qué equipo romperá el empate.

Antes de empezar el partido no podemos decir quién va a ganar, por lo que es razonable partir de una hipótesis nula como ésta. Pero sabiendo que no es cierta, sabiendo que es una provisionalidad que mantendremos hasta que no podamos concretar con mucha verosimilitud quién va a ganar. El problema, pues, es en qué momento lo podremos decir. En qué momento del partido podremos decir quién lo ganará. En qué momento podremos decir quién ganará y que tal afirmación esté hecha con una probabilidad muy baja de equivocarnos. Sólo en ese momento rechazaremos la H0, a pesar de que sabemos que no es cierta.

A los 10 minutos de partido si nuestro equipo gana de 15 puntos no diremos que ya hemos ganado, porque muchas veces, en situaciones como ésta, faltando 30 minutos de partido, y con una diferencia de 15 puntos, el equipo que iba ganando ha acabado perdiendo. Esta misma diferencia de 15 puntos faltando dos minutos sí que muy posiblemente nos permita decir que el partido está ganado.

Si pudiéramos ver entre millones de partidos de baloncesto en cuántos partidos, faltando el tiempo que falta para acabar y con la diferencia de puntos que hay en ese momento, ha acabado perdiendo el equipo que estaba ganando, podríamos decidir con más criterio. Por ejemplo, se podría establecer el protocolo siguiente: si ha cambiado el resultado final en menos del 5% de los casos, podemos decir que el partido está ya ganado. Si hiciéramos esto estaríamos haciendo algo equivalente al procedimiento seguido en la decisión estadística en un contraste de hipótesis.

Si la diferencia de puntos es muy pequeña deberemos esperar siempre mucho para hacer un pronóstico fiable, un pronóstico significativo. A veces, en ciertos partidos muy igualados, necesitaremos mucho tiempo de partido para decir, con significación, quién ganará. En Estadística para decir que hay una diferencia significativa o que hay una correlación significativa, necesitamos, a veces, una muestra muy grande. Otras veces, con un tamaño de muestra relativamente pequeño nos bastará para afirmar diferencias o relaciones significativas. Dependerá, como en el baloncesto, de la cantidad de muestra que tengamos y de la diferencia que haya entre las medias de las muestras a comparar, del valor de correlación muestral o de la Odds ratio que tengamos.

La Estadística es, pues, como un partido de baloncesto. La equivalencia está en la voluntad de pronosticar qué sucederá al final del partido (cuando tengamos toda la población) durante el partido (con una muestra). Y hacer no un pronóstico cualquiera, no un pronóstico un tanto al azar, sino un pronóstico significativo, un pronóstico casi seguro, un pronóstico que tenga muy pocas posibilidades de ser erróneo, porque en miles y miles de circunstancias equivalentes casi nunca ha sucedido algo diferente a lo que se está afirmando en el pronóstico.

El concepto de significación es nuclear en la Estadística. Posiblemente pueda definirse a la Estadística como la ciencia de la significación.