Archivo del Autor: estadisticallopis

Solución Situación 5

Saber, realmente, cuántas personas miden más de 184 cm, en esa población, sólo lo podríamos llegar a saber si midiéramos la altura de la población entera. Esto es evidente, pero es necesario decirlo para poder situar bien lo que estamos haciendo. En Estadística pronosticamos valores, realizamos afirmaciones acerca de poblaciones inaccesibles y lo hacemos siempre a partir de información parcial de ellas, a partir de muestras.
Por lo tanto, no podemos saber el valor real solicitado, pero lo que sí podemos hacer es una estimación, podemos hacer un pronóstico de cuántos miden, en esa población, más de 184 cm. Y como la población no la tenemos construimos un modelo de ella, un sustituto de ella. Hacemos una representación mediante una maquinaria matemática.
Cuando tenemos una variable definida en una población los modelos matemáticos que dibujan, que representan, la variabilidad de esa variable, son las llamada Funciones de distribución. La más conocida y usada de ellas es la distribución normal, porque muchas variables en la Naturaleza se distribuyen según el ritmo de esa distribución. Esa fue la gran intuición que tuvo el genial Gauss ya hace siglos.
En el planteamiento de la Situación se nos dice que la muestra que tenemos se distribuye de una forma análoga a como se distribuyen las áreas bajo una campana de Gauss.
Si tomamos, pues, la distribución normal como modelo, como la media y la desviación de la muestra son 170 y 7, respectivamente, podemos decir que un modelo de nuestra población es la distribución normal N(170, 7).
Al construir el modelo es como si ya tuviéramos la población. Un poco es como cuando nos dan un plano a escala de un piso: es como si lo tuviéramos ya el piso, sin en realidad tenerlo. Podemos calcular cosas al plano y es como si le calculásemos, en realidad, al piso (metros cuadrados de una determinada habitación, etc). Pues lo mismo sucede con un modelo matemático. Le calculamos cosas y esos cálculos, si la modelización es buena, podemos proyectarlos al conjunto de la población de la que queremos decir cosas.
Observemos, ahora, que 184 es igual a la Media más dos DE (170+(2×7)=184) y como sabemos que en una distribución normal la media más menos dos desviaciones estándar cubre un 95% de los valores, a la derecha de 184 habrá un 2,5% de la población; o sea 25000 personas.
Este 25000 es, como hemos dicho, un pronóstico. Pero un pronóstico hecho mediante un procedimiento razonable, siguiendo los pasos de la modelización matemática.
Observemos que aquí el tamaño de muestra no ha jugada ningún papel. Cuanto más grande sea la muestra la estimación de la media y de la desviación estándar es más fiable, pero una vez se tiene un tamaño de muestra y una estimación de la media y de la Desviación estándar el procedimiento es el mismo, se tenga el tamaño de muestra que se tenga. Este tamaño no influye en el cálculo del pronóstico.

Solución Situación 4

Como el intervalo de confianza de la media es del 95% y éste se construye con la media, que es 7, más menos dos errores estándar (en nuestro caso es 7 más menos 2) el Error estándar es 1.
Hemos de tener en cuenta que tenemos la siguiente ecuación que relaciona el Error estándar, la Desviación estándar y el tamaño de muestra: EE=DE/raiz(n). Como DE, en nuestro caso, es 5, n debe ser 25, porque EE=5/raiz(25)=1.

Solución Situación 3

No necesariamente será positiva la correlación. Podría ser negativa, perfectamente. El hecho de que con una n=4 tengamos una r=0,85 que no es significativa (p=0,42) es porque todo está abierto aún. Con una muestra tan pequeña todo puede ocurrir todavía. Por esto, precisamente, el contraste de hipótesis dice que esta correlación calculada no es significativa, porque no se fía de este valor, podría ser fruto del azar del muestreo. Una muestra tan pequeña puede dar un resultado muy alejado del poblacional, del real.
Obsérvese el gráfico adjunto. A la izquierda tenemos una representación posible de nuestro punto de partida. Con cuatro valores así perfectamente podríamos tener esos valores: r=0,85(p=0,42). Pero si aumentamos el tamaño de muestra pueden pasar muchas cosas diferentes. En los dibujos de la derecha los nuevos valores, tras aumentar el tamaño muestral, aparecen con otro color. Puede ser que se confirme esta tendencia vista con cuatro valores y que la correlación acabe siendo positiva y de elevada magnitud, como se ve a la derecha arriba. Pero puede ser también que empiecen a salir valores que no sólo rompen la correlación negativa sino que incluso acaben decantando la correlación hacia un signo negativo, como podemos ver en el gráfico de la derecha abajo. Y, entre estas situaciones se pueden dar otras de intermedias.
Por esto la técnica estadística con la poca información que tenemos al principio, aunque la correlación sea grande, no se moja, no se decanta todavía. Necesita ver con más claridad, con más observaciones, para hablar de resultado significativo, estable, fiable.
Este es un buen ejemplo para entender la lógica de funcionamiento de las decisiones en Estadística y, por lo tanto, en Ciencia.

Tema 13: INTRODUCCIÓN A LAS TÉCNICAS DE COMPARACIÓN

1. Hasta ahora nos hemos centrado en técnicas de descripción y de relación.

2. Si en las técnicas de relación se focaliza en las variables, se busca posibles relaciones entre ellas, en las técnicas de comparación se focaliza en las poblaciones, se busca la igualdad o la diferencia entre ellas.

3. En las técnicas de comparación se focaliza en grupos de individuos que están (estudios observacionales) o que se les sitúa (estudios experimentales) en diferentes condiciones que interesa comparar.

4. Las técnicas de comparación también podemos plantearlas como una evaluación del signo, la magnitud y la significación de las diferencias que hay en algún valor medible en esos grupos comparados.

5. Observemos que eso del signo, de la magnitud y de la significación ha sido, también, el hilo conductor de lo visto en la correlación.

6. Supongamos que un profesor de matemáticas que tiene dos grupos de estudiantes les explica un tema de dos formas distintas a los dos grupos.

7. Estas dos formas de explicación son: 1) La clásica (como lo ha hecho siempre). 2) Mediante un procedimiento nuevo que él quiere ensayar.

8. Al finalizar el experimento pone un examen común a todos los alumnos. Tendrá, entonces, dos muestras: una de un grupo y otra del otro. Y dos medias muestrales.

9. Alguien puede pensar: si tiene las notas de todos los alumnos de los dos grupo tiene poblaciones, no muestras.

10. Pero como está ensayando dos métodos con finalidad de aplicación potencial a otros, sus alumnos son, en realidad, una muestra de los alumnos futuros. En realidad, aunque las muestras que tengamos son las únicas observaciones existentes, en Estadística siempre hemos de pensar que se trata de una muestra y no de la población entera. Siempre hay que pensar en una población potencial que esté por encima de lo que tenemos.

11. Si queremos comparar los dos grupos lo podemos hacer de formas distintas: una posibilidad es hacerlo comparando las medias muestrales.

12. Pero hay muchas comparaciones a hacer: comparar las desviaciones estándar o comparar los porcentajes de alumnos que en cada grupo tienen más que un 7, comparar las medianas, etc.

13. De momento nos centraremos en comparar medias. Pues bien, si restamos las dos medias tendremos un signo, que nos dirá qué grupo ha obtenido un promedio mejor.

14. El valor absoluto de la resta nos dará la magnitud. Pero, como siempre en Estadística, necesitamos tener la significación.

15. Mediante ella podremos saber si aquella diferencia es fiable o si podría ser un efecto del azar del muestreo.

16. Observemos que el contexto es otro pero el procedimiento estadístico será el mismo: un contraste de hipótesis: (H0: m1=m2, H1: m1<>m2).

17. Como siempre en la hipótesis nula (H0) tenemos lo que podemos decir antes de empezar: las medias son iguales. No hay diferencias.

18. En el mundo de la Estadística hay presunción de igualdad. Las medias, las desviaciones estándar, las medianas, los porcentajes, son iguales mientras no se demuestre lo contrario.

19. Tenemos, en Estadística, pues, usando el lenguaje del mundo judicial, presunción de igualdad.

20. Al comparar las medias de dos grupos a través de sus respectivas muestras ver el signo y la magnitud de la diferencia es trivial.

21. Lo complejo es encontrar la significación de esa diferencia. Para encontrarla necesitamos de una técnica estadística que nos dé un p-valor.

22. Veremos a partir de ahora diferentes técnicas para comparar dos grupos. Todas ellas funcionan de una forma muy similar.

23. Tres factores juegan, siempre, un papel nuclear en esas técnicas: la diferencia de medias, la dispersión y el tamaño de muestra.

24. Vamos a ver el papel que juega cada uno de esos tres factores y la relación que hay entre ellos a la hora de delimitar la significación.

25. Para ello vamos a ver posibles situaciones experimentales con muestras dibujadas sobre la recta real. Voy a mostrar tres dibujos.

26. En cada dibujo veremos la influencia de uno de estos tres factores a la hora de decidir si la diferencia es o no significativa.

27. En cada gráfico veremos tres experimentos diferentes entre los cuales únicamente uno de los tres factores presenta diferencias.

28. Los otros dos factores serán iguales en los tres experimentos de cada dibujo.

29. De esta forma podremos ver el papel de cada factor a la hora de dar un p-valor. Porque cada técnica estadística de comparación analiza, siempre, esos tres factores conjuntamente.

30. Y a través de ese análisis de la diferencia de medias, de la dispersión y del tamaño de muestra la técnica nos proporciona un p-valor.

31. Veamos la influencia de la diferencia de medias:

Escanear0003

32. Observemos en los tres experimentos de comparación de dos muestras que se dibujan en el gráfico anterior que los tamaños muestrales (n=5) y las dispersiones de las muestras son iguales en las tres comparaciones. Vemos en cruces los valores muestrales y en una línea la media muestral. Cada color hace referencia a un grupo distinto. La única diferencia está, en este caso, en la diferencia de medias: Arriba, es pequeña, en medio, intermedia, y, abajo, es muy grande. Ante los datos de arriba la técnica estadística debe mantener la hipótesis nula (H0) de igualdad de medias a nivel poblacional. La diferencia de medias muestrales no es significativa. Se trata de una diferencia muestral no fiable porque podría ser perfectamente el fruto del azar del muestreo. La técnica estadística proporciona, en este caso, un p-valor superior a 0,05. Ante los datos de abajo, por el contrario, la técnica estadística verá que la H0 no puede mantenerse. De ser ésta cierta es muy poco probable ver unas muestras como las que se ven abajo. Parece que, en este caso, la posibilidad de equivocarse al decir que hay diferencia de medias, a nivel poblacional, es muy baja. Por esto el p-valor es inferior a 0,05. En la situación del medio estamos ante un caso dudoso, por esto no ponemos p-valor. Pero arriba y abajo los resultados son muy claros.

33. Veamos, ahora, la influencia de la dispersión:

Escanear0004

34. Observemos en los tres experimentos que se muestran en el gráfico anterior que, ahora, los tamaños muestrales (n=5) y las diferencias de medias son iguales en las tres comparaciones. La única diferencia está en la dispersión que, arriba, es grande, en medio, intermedia, y, abajo, es muy pequeña. Ante los datos de arriba la técnica estadística debe mantener la H0 de igualdad de medias a nivel poblacional. La diferencia de medias muestrales no es significativa, las muestras están muy solapadas, y, por lo tanto, la técnica estadística proporciona un p-valor superior a 0,05. Ante los datos de abajo, por el contrario, la técnica estadística verá que la H0 no puede mantenerse. De ser ésta cierta es muy poco probable ver unas muestras como las que se ven abajo, tan distanciadas la una de la otra como efecto de la pequeñísima dispersión. Parece que en este caso la posibilidad de equivocarse al decir que hay diferencia de medias es muy baja. Por esto el p-valor es inferior a 0,05. En la situación del medio estamos en un caso dudoso, por esto no ponemos p-valor. Pero arriba y abajo los resultados son muy claros.

35. Y veamos, finalmente, cómo influye el tamaño de muestra:

Escanear0006

36. Observemos en los tres experimentos que se muestran en el gráfico anterior que las dispersiones de las muestras y las diferencias de medias son iguales en las tres comparaciones. La única diferencia está, ahora, en los tamaños muestrales. Arriba, el tamaño muestral es 3, en medio 5 y, abajo, es muy grande. Ante los datos mostrados arriba la técnica estadística debe mantener la H0 de igualdad de medias a nivel poblacional. La diferencia de medias muestrales no es significativa, en este caso, está basada en muestras de tamaño ridículo (n=3) y, por lo tanto, ante la duda, proporciona un p-valor superior a 0,05. Ante los datos de abajo, por el contrario, la técnica estadística verá que la H0 no puede mantenerse. De ser ésta cierta es muy poco probable ver unas muestras como las que se ven abajo. En este caso las medias muestrales son muy fiables, están basadas en muestras grandes y difícilmente obtendríamos resultados muy distintos si volviéramos a hacer el mismo experimento de nuevo. Parece que en este caso la posibilidad de equivocarse al decir que hay diferencia de medias es muy baja. Por esto el p-valor es inferior a 0,05. En la situación del medio estamos en un caso dudoso, por esto no ponemos p-valor. Pero arriba y abajo los resultados son muy claros.

37. Hemos visto, pues, en estos tres gráficos, cómo influyen individualmente estos tres factores para que las técnicas estadísticas de comparación de medias se decidan o por mantener la hipótesis nula de igualdad o por pasar a la alternativa de desigualdad de medias.

38. Las técnicas estadísticas, ante dos muestras, analizan los tres factores conjuntamente y acaban dando un veredicto mediante un p-valor.

Solución Situación 2

Las dos son correlaciones significativas (p-valor<0,05). Y pensemos que la significación es una cuestión de sí o de no. No hay situaciones intermedias. Como en una sentencia judicial. Un juez no puede decir en una sentencia: “Usted es parcialmente inocente” o “Usted es culpable pero por poquito”. Debe decir “culpable” o “inocente”. Y punto. El que el p-valor sea 0,0003 ó 0,03 no cambia las cosas. Ambos son menores de 0,05. Y esto basta. Por lo tanto, si las dos correlaciones son significativas, r=0,65 es una correlación mayor que r=0,45. Y esta es la respuesta correcta a la pregunta de esta Situación.

Otra cosa sería si, a priori, nos hubiéramos impuesto un nivel de significación distinto. Por ejemplo, que nos hubiéramos impuesto un nivel del 0,01 para hablar de significación. Un nivel, por lo tanto, más exigente. En Estadística diríamos: un criterio más conservador, más proteccionista de la Hipótesis nula. En este caso la r=0,65 no sería significativa, porque 0,03 no es menor que 0,01. Y, por lo tanto, en este caso, diríamos que 0,45 es una correlación mayor que 0,65, porque ésta no sería, en realidad, una correlación significativa, no sería una correlación fiable.

Pero, en Estadística, si no se dice lo contrario, se entiende que el nivel de significación es 0,05.

Tema 10: SIGNIFICACIÓN FORMAL versus SIGNIFICACIÓN MATERIAL. TAMAÑO DEL EFECTO

1. En Estadística trabajamos con la significación estadística, que viene a ser una significación formal, una significación sin un contenido específico. Es un hablar abstracto: igualdad o diferencia, relación o no relación. Otra cosa es la significación médica, económica, biológica, psicológica, lingüística, etc, que la deben dictaminar los médicos, economistas, biólogos, psicólogos, lingüistas, etc, y que se trata de una significación material, con contenido. Es, ahora, un hablar concreto. Por ejemplo: “este aumento de respuesta genera una mejor calidad de vida”, “este tratamiento permite una movilidad que transforma a la persona en autónoma”. Sin embargo, veremos, al final de este tema, que también se han creado mecanismos matemáticos para establecer una medida lo más objetiva posible, mediante cálculos matemáticos, de la significación material.

2. Voy a centrarme, a continuación, en un tema médico y por eso hablaré de Significación médica, pero lo que diga sería perfectamente extrapolable a cualquier otro ámbito material y entonces deberíamos hablar de significación económica, biológica, psicológica, etc.

3. En un estudio nos podemos encontrar con resultados que nos lleven a una de estas cuatro combinaciones posibles: 1) Significación estadística y Significación médica. 2) Significación estadística y No Significación médica. 3) No Significación estadística y No Significación médica. 4) No Significación estadística y Significación médica.

4. El primer caso (Significación estadística y Significación médica) es la situación ideal. Nada que comentar. Todo perfecto. Hemos conseguido un resultado fiable estadísticamente y relevante médicamente.

5. El segundo caso (Significación estadística y No Significación médica) implica también un final del estudio, habitualmente.

6. La Significación estadística implica que los resultados son fiables, pero el que no sean significativos desde el punto de vista médico implica que es un resultado que no tiene ninguna trascendencia médica.

7. Supongamos que un estudio demuestra que un determinado fármaco permite un descenso en la proteinuria, en enfermos con una nefropatía.

8. Supongamos que este descenso sea desde un valor promedio de 425 mg/día a un valor de 405 mg/día, tratándose éste de un descenso estadísticamente significativo.

9. Y ahora supongamos que un nefrólogo nos dice que para obtener un descenso promedio de este nivel no compensa tomar ese fármaco.

10. Nos dice que no compensa tomarlo porque ese fármaco tiene unos efectos secundarios que no vale la pena asumir para obtener un descenso en la proteinuria que, en realidad, no cambia nada de la nefropatía del paciente.

11. Esta es una de las muchas situaciones posibles en las que podemos encontrar Significación estadística acompañada de No Significación médica.

12. Esto es muy importante tenerlo en cuenta porque a veces pensamos que el objetivo último y único es la Significación estadística. Y este es un error frecuente.

13. Tener Significación estadística pero No Significación médica sirve para muy poco, si es que sirve, en realidad, para algo. Por lo tanto, suele ser un punto y final de un estudio, habitualmente. Lo veremos de nuevo, este caso, en los puntos 53 y 54.

14. El tercer caso (No Significación estadística y No Significación médica) poco nos dice, al menos de momento. Los resultados no son fiables y tampoco apuntan una buena tendencia.

15. Además, lo que vemos promete poco desde el punto de vista médico (o económico o lingüístico, etc). Al menos de momento, claro.

16. Los estadísticos en estas situaciones acostumbramos a decir que todo está abierto, que puede pasar, todavía, cualquier cosa.

17. En estos casos conviene ampliar el estudio aunque los resultados, de momento, apunten que podemos acabar encontrando Significación estadística aumentando la muestra pero difícilmente encontremos Significación médica, porque el efecto que se observa, de momento, es muy pequeño. No obstante, en principio debemos pensar que está todavía todo abierto. Pero la perspectiva es mala.

18. El cuarto caso (No Significación estadística y Significación médica) es el que tiene más interés comentar. Además, es muy frecuente, y genera muchos dolores de cabeza en el mundo de la ciencia.

19. Veámoslo mediante un ejemplo donde se comparan dos procedimientos terapéuticos.

20. Ante el tratamiento ante un infarto de miocardio es habitual ensayar comparativamente distintos protocolos de actuación.

21. Imaginémonos que se ha hecho una comparación entre dos protocolos y se ha contabilizado los que han muerto y los que no han muerto.

22. Tenemos, pues, dos variables cualitativas con dos categorías cada una: Mueren y No mueren, una de las variables. Protocolo 1 y Protocolo 2, la otra.

23. Supongamos la siguiente tabla de contingencias:

IMG_4372

24. En el Protocolo 1 mueren 7 y no mueren 93; o sea, muere el 7%. En el Protocolo 2 mueren 6 y no mueren 94; o sea, muere el 6%. Ante estos datos la OR es 1.18 y un intervalo de confianza del 95% es (0.38, 3.64).

25. A partir de estos valores la conclusión estadística es que no hay una relación entre tipo de protocolo y éxito porque no podemos rechazar la hipótesis nula (OR=1).

26. Observemos que la conclusión del contraste la obtenemos a partir de observar el intervalo.

27. Pero también podemos llegar a ella a partir del p-valor. El p-valor en este caso es 0.77, por lo que al ser superior a 0.05 estamos ante una OR no significativa.

28. Por lo tanto, no podemos decir que haya diferencias significativas entre los resultados de los protocolos que estamos comparando. Pero esto nos lleva a un tema muy importante.

29. Los cardiólogos que han propuesto el Protocolo 2 pueden pensar: Con el Protocolo 1 muere un 7%, con el Protocolo 2 el 6%; o sea, de cada cien infartos salvamos una vida.

30. Esto es relevante desde el punto de vista médico. Cualquier posición que suponga salvar vidas podemos entender que es relevante médicamente, si es que no hay secuelas adicionales. Por lo tanto, estamos ante un resultado con Significación médica pero el Tribunal estadístico dice: «no significativo».

31. Y la estadística está por encima de todo. Esto es muy importante tenerlo bien claro. Es el Tribunal que dicta la última sentencia ante unos datos concretos.

32. Y si no es estadísticamente significativo no podemos decir que el Protocolo 2 salva más vidas, porque podría ser fruto del azar del muestreo.

33. Podría pasar perfectamente que pasáramos al Protocolo 2 y acabáramos viendo que al aplicarlo a miles y miles de personas los resultados obtenidos no fueran los que apuntaba el estudio. Y esto sería muy grave.

34. Esto es lo que significa que algo no sea estadísticamente significativo: que no es fiable. Que podría la realidad no ser como lo que estamos viendo en la muestra.

35. Pero pasar de un 7 a un 6% es Significativo médicamente. Tenemos, pues, la situación planteada: No Significación estadística y Significación médica.

36. En estos casos la Estadística claramente sólo debe dar una respuesta: Hay que aumentar el tamaño de muestra.

37. Al aumentar el tamaño de muestra pueden darse dos situaciones: 1) Que la Estadística tenía razón al ser cautelosa y al aumentar la muestra la diferencia que antes se veía se disuelve y ya o no existe o es tan pequeña que ya no es Significativa médicamente. 2) Que se mantenga la diferencia y al aumentar la muestra pase ya a ser Significativa estadísticamente y, por lo tanto, pasemos a una situación del primer tipo: Significación estadística y Significación médica.

38. Para situaciones de este tipo en las que una pequeña diferencia puede tener Significación médica y en las que es necesario grandes tamaños de muestra para tener Significación estadística, se han desarrollado mucho, últimamente, dos tipos de estudios: 1) Los estudios multicéntricos. 2) El metaanálisis.

42. En ambos casos la finalidad es aumentar el tamaño de muestra para encontrar, así, Significación estadística.

43. En los estudios multicéntricos se hace coordinando diferentes centros en un único estudio y en el metaanálisis coordinando en un estudio descoordinados estudios paralelos.

44. Volvamos a los datos anteriores de la comparación de protocolos. La OR era 1.18, el intervalo del 95% (0.38, 3.64) y el p-valor 0.77.

46. El Protocolo 1 tiene un 7% de muertes y, en cambio, el Protocolo 2 un 6%. Y decíamos que para un cardiólogo la diferencia es relevante. Pero no tiene Significación estadística.

47. Vamos a ver qué pasaría si tuviéramos un tamaño de muestra superior. Supongamos la siguiente:

IMG_4369

48. Con esta muestra la OR sigue siendo la misma; o sea, 1.18, porque lo único que hemos hecho es multiplicar por 10 cada valor.

49. El intervalo de confianza del 95% es, ahora, (0.86, 1.68) y el p-valor es 0.36. Seguimos igual, por lo tanto. Aumentemos aún más el tamaño muestral.

50. Supongamos que tenemos ahora:

IMG_4370

Ahora hemos multiplicado por 100. La muestra es muy grande.

51. La OR sigue, lógicamente, siendo 1.18, porque las proporciones no han cambiado, pero el intervalo del 95% sí que ha cambiado. Ahora es: (1.05, 1.32) y el p-valor también: 0.004. Ahora ya es estadísticamente significativo.

52. Observemos que ahora el 1 no está dentro del intervalo de confianza de la OR. Ahora la Estadística apuesta por pensar en una diferencia fiable. Ahora esta diferencia entre un 7% y un 6% entre los dos protocolos comparados tiene Significación estadística y Significación médica. Hemos alcanzado la situación ideal. Pero, en circunstancias como estas, a unos resultados así, con un tamaño de muestra tan grande, únicamente es posible llegar o mediante estudios multicéntricos o de metaanálisis, como hemos comentado.

53. El aumentar mucho el tamaño de muestra nos puede llevar, no obstante, en ocasiones, a una situación peligrosa. A encontrar Significación estadística (formal) pero no Significación médica o del tipo que sea (material), como hemos visto antes en el segundo caso posible (puntos 5-13) . Esto seguramente se entendería si en lugar de hablar de medicina estuviéramos hablando de otro ámbito puesto que en Medicina es posible que cualquier mejora, por pequeña que sea, resulte verse como significativa. Pero, esto no siempre es así. Vemos la situación planteada en el punto siguiente.

54. Supongamos que en el caso médico planteado anteriormente valoramos que o bien el coste del Protocolo 2 es muy elevado, y entendemos que es inasumible puesto que la mejora obtenidad es muy leve para el coste económico-social que supone; o bien que este Protocolo 2 implica un riesgo muy elevado para la vida futura del paciente, por la aparición muy frecuente de complicaciones secundarias. Posiblemente en este caso diríamos que estamos ante una situación en la que tenemos Significación estadística pero no Significación médica. En términos técnicos diríamos que el «Tamaño del efecto» es demasiado pequeño.

55. En Estadística, tradicionalmente, como hemos estado comentando a lo largo de todo este tema, el problema ha sido valorar si hay significación estadística o no, lo que quiere decir que la Estadística se ha preocupado, fundamentalmente, de la Significación formal, no de la Significación material. Y la Significación formal es, también, muy importante.

56. En ciertos campos del conocimiento, especialmente en Psicometría y en Ciencias humanas y sociales, se han desarrollado unos procedimientos para medir la Significación material, el denominado “Tamaño del efecto”. En inglés: “Effect size”.

57. Así como en un juicio se evalúa fundamentalmente la culpabilidad o la inocencia, en Estadística nos interesa, básicamente, ver la igualdad versus la diferencia, la no relación respecto a la relación, etc. En definitiva, lo que se pretende es establecer mecanismos para decidir entre dos opciones.

58. En Estadística nos interesa ver si, con lo que vemos, con la información de que disponemos, podemos afirmar, con pocas probabilidades de equivocarnos, si dos medias poblacionales son distintas porque podamos delimitar ya el signo de tal desigualdad, o podemos afirmar que hay relación entre dos variables pudiendo delimitar el signo de esa relación, etc. No nos interesa tanto precisar el grado de esa diferencia, el grado de esa relación. Esto se suele reservar más a los especialistas.

59. Es como lo que sucede en el mundo judicial con un tribunal: le interesara delimitar, básicamente, la inocencia o la culpabilidad y luego, una vez establecida la culpabilidad, si es que acaba estableciéndose, reservar a otros el papel de aplicar la pena adecuada al infractor.

60. La Estadística centra sus esfuerzos en ver si alguien es un ladrón o no, no en precisar si lo que ha robado es poco o mucho. Esto es otro problema. Un problema distinto. En definitiva, la Estadística fundamentalmente se centra en esta Significación formal.

61. Lo importante, en primer lugar, en Estadística, es, pues, delimitar eso. ¿De qué sirve decir que a alguien se le acuse de robar mil millones de euros si, después, se acaba demostrando que no es culpable? Hasta que no se ha demostrado que es un ladrón aunque sea mucho lo que presuntamente ha robado en realidad no podemos decir que lo ha robado. La Estadística se reserva a este paso: Es o no un ladrón. Y aquí básicamente se acaba nuestro trabajo. Valorar si es mucho o no es otro tema, ya no estadístico.

62. La d de Cohen, el factor F, la eta al cuadrado, son ejemplos de cálculo del tamaño del efecto. Existen y pueden crearse muchos mecanismos para evaluar el tamaño del efecto; o sea, el tamaño de la diferencia de las medias de dos grupos o el tamaño de la relación que hay entre dos variables, etc.

62. Veamos la d de Cohen. Se aplica en el contexto de la t de Student, en la comparación de las medias de dos poblaciones, una técnica que veremos en el tema 14. Pero el caso, por su sencillez, nos puede servir para delimitar con precisión de lo que estamos hablando en este tema.

63. La d de Cohen es el siguiente cálculo:

 IMG_5980

64. El objetivo, como puede verse perfectamente en la fórmula, es ver si la diferencia entre las medias muestrales es muy distinta relativamente a la dispersión que tenemos en las muestras que comparamos. Distingue situaciones como las siguientes:

 IMG_5981

65. Observemos que en estas tres comparaciones de dos grupos, la diferencia de medias muestrales es la misma, sin embargo, arriba la dispersión es muy pequeña y, por el contrario, abajo, la dispersión es muy grande. Relativamente son mucho más distantes las medias de arriba que las de abajo. Esto es lo que mide la d de Cohen y, en definitiva, lo que miden todos los procedimientos enmarcado en este ámbito del Tamaño del efecto (Effect size).

66. Se pretende medir, pues, el grado de separación, el grado de efecto distancia, el grado de segregación que hay entre los grupos que estamos comparando.

67. En cuanto a cómo interpretar un determinado valor de d de Cohen, suele considerarse que una d en torno a 0,2 es un efecto pequeño, una d en torno a 0,5 un efecto moderado y una d por encima de 0,8 un efecto grande. El valor de d puede ser potencialmente muy grande.

68. Es importante entender bien que aquí no se tiene en cuenta el tamaño de muestra. El tamaño muestral no juega ningún papel. Todo lo contrario que en la Significación formal, donde el tamaño de muestra juega un papel decisivo. Esto es muy importante. En los cálculos del Tamaño del efecto no se tiene en cuenta el tamaño muestral, como puede verse en el cálculo de la d de Cohen.

69. Observemos los siguientes dos casos:

IMG_5982

70. Como la d de Cohen sólo tiene en cuenta la diferencia de medias y la desviación estándar, en el caso de arriba tenemos una d pequeña, sin embargo, abajo tenemos una d grande porque las medias de las dos muestras están bastante separadas para el nivel de dispersión que tenemos. Como en el cálculo de la d de Cohen no juega ningún papel el tamaño muestral estaríamos viendo como mucho más interesante la situación de abajo que la de arriba desde el punto de vista del Tamaño del efecto, pero desde el punto de vista estadístico, de Estadística formal, de Estadística donde la Significación formal es lo esencial, el caso de arriba es fiable, es significativo, es estable; sin embargo, el de abajo no lo es, es poco fiable, no está establecido de forma sólida.

71. Es como si tuviéramos dos presuntos ladrones: Uno ha robado presumiblemente mil millones de euros y el otro mil euros. Parece que el primero ha conseguido un robo más censurable. El Tamaño del efecto es mayor. Pero hasta que no tengamos la significación formal de este robo no podemos valorar su importancia. Es posible que al final no sea aquél el que ha materializado el robo, o no se pueda demostrar y, a lo mejor, el segundo ladrón, con poco Tamaño del efecto, se demuestre claramente que fue realmente él el que materializó el robo.

72. Es cierto que una vez vista la Significación formal es interesante valorar aspectos cuantitativos de la Significación material. Pero, siempre, como un segundo nivel. Jerárquicamente es claro que debe estar una Significación (la formal) por encima de la otra (la material).