1. Hasta ahora nos hemos centrado en técnicas de descripción y de relación.
2. Si en las técnicas de relación se focaliza en las variables, se busca posibles relaciones entre ellas, en las técnicas de comparación se focaliza en las poblaciones, se busca la igualdad o la diferencia entre ellas.
3. En las técnicas de comparación se focaliza en grupos de individuos que están (estudios observacionales) o que se les sitúa (estudios experimentales) en diferentes condiciones que interesa comparar.
4. Las técnicas de comparación también podemos plantearlas como una evaluación del signo, la magnitud y la significación de las diferencias que hay en algún valor medible en esos grupos comparados.
5. Observemos que eso del signo, de la magnitud y de la significación ha sido, también, el hilo conductor de lo visto en la correlación.
6. Supongamos que un profesor de matemáticas que tiene dos grupos de estudiantes les explica un tema de dos formas distintas a los dos grupos.
7. Estas dos formas de explicación son: 1) La clásica (como lo ha hecho siempre). 2) Mediante un procedimiento nuevo que él quiere ensayar.
8. Al finalizar el experimento pone un examen común a todos los alumnos. Tendrá, entonces, dos muestras: una de un grupo y otra del otro. Y dos medias muestrales.
9. Alguien puede pensar: si tiene las notas de todos los alumnos de los dos grupo tiene poblaciones, no muestras.
10. Pero como está ensayando dos métodos con finalidad de aplicación potencial a otros, sus alumnos son, en realidad, una muestra de los alumnos futuros. En realidad, aunque las muestras que tengamos son las únicas observaciones existentes, en Estadística siempre hemos de pensar que se trata de una muestra y no de la población entera. Siempre hay que pensar en una población potencial que esté por encima de lo que tenemos.
11. Si queremos comparar los dos grupos lo podemos hacer de formas distintas: una posibilidad es hacerlo comparando las medias muestrales.
12. Pero hay muchas comparaciones a hacer: comparar las desviaciones estándar o comparar los porcentajes de alumnos que en cada grupo tienen más que un 7, comparar las medianas, etc.
13. De momento nos centraremos en comparar medias. Pues bien, si restamos las dos medias tendremos un signo, que nos dirá qué grupo ha obtenido un promedio mejor.
14. El valor absoluto de la resta nos dará la magnitud. Pero, como siempre en Estadística, necesitamos tener la significación.
15. Mediante ella podremos saber si aquella diferencia es fiable o si podría ser un efecto del azar del muestreo.
16. Observemos que el contexto es otro pero el procedimiento estadístico será el mismo: un contraste de hipótesis: (H0: m1=m2, H1: m1<>m2).
17. Como siempre en la hipótesis nula (H0) tenemos lo que podemos decir antes de empezar: las medias son iguales. No hay diferencias.
18. En el mundo de la Estadística hay presunción de igualdad. Las medias, las desviaciones estándar, las medianas, los porcentajes, son iguales mientras no se demuestre lo contrario.
19. Tenemos, en Estadística, pues, usando el lenguaje del mundo judicial, presunción de igualdad.
20. Al comparar las medias de dos grupos a través de sus respectivas muestras ver el signo y la magnitud de la diferencia es trivial.
21. Lo complejo es encontrar la significación de esa diferencia. Para encontrarla necesitamos de una técnica estadística que nos dé un p-valor.
22. Veremos a partir de ahora diferentes técnicas para comparar dos grupos. Todas ellas funcionan de una forma muy similar.
23. Tres factores juegan, siempre, un papel nuclear en esas técnicas: la diferencia de medias, la dispersión y el tamaño de muestra.
24. Vamos a ver el papel que juega cada uno de esos tres factores y la relación que hay entre ellos a la hora de delimitar la significación.
25. Para ello vamos a ver posibles situaciones experimentales con muestras dibujadas sobre la recta real. Voy a mostrar tres dibujos.
26. En cada dibujo veremos la influencia de uno de estos tres factores a la hora de decidir si la diferencia es o no significativa.
27. En cada gráfico veremos tres experimentos diferentes entre los cuales únicamente uno de los tres factores presenta diferencias.
28. Los otros dos factores serán iguales en los tres experimentos de cada dibujo.
29. De esta forma podremos ver el papel de cada factor a la hora de dar un p-valor. Porque cada técnica estadística de comparación analiza, siempre, esos tres factores conjuntamente.
30. Y a través de ese análisis de la diferencia de medias, de la dispersión y del tamaño de muestra la técnica nos proporciona un p-valor.
31. Veamos la influencia de la diferencia de medias:
32. Observemos en los tres experimentos de comparación de dos muestras que se dibujan en el gráfico anterior que los tamaños muestrales (n=5) y las dispersiones de las muestras son iguales en las tres comparaciones. Vemos en cruces los valores muestrales y en una línea la media muestral. Cada color hace referencia a un grupo distinto. La única diferencia está, en este caso, en la diferencia de medias: Arriba, es pequeña, en medio, intermedia, y, abajo, es muy grande. Ante los datos de arriba la técnica estadística debe mantener la hipótesis nula (H0) de igualdad de medias a nivel poblacional. La diferencia de medias muestrales no es significativa. Se trata de una diferencia muestral no fiable porque podría ser perfectamente el fruto del azar del muestreo. La técnica estadística proporciona, en este caso, un p-valor superior a 0,05. Ante los datos de abajo, por el contrario, la técnica estadística verá que la H0 no puede mantenerse. De ser ésta cierta es muy poco probable ver unas muestras como las que se ven abajo. Parece que, en este caso, la posibilidad de equivocarse al decir que hay diferencia de medias, a nivel poblacional, es muy baja. Por esto el p-valor es inferior a 0,05. En la situación del medio estamos ante un caso dudoso, por esto no ponemos p-valor. Pero arriba y abajo los resultados son muy claros.
33. Veamos, ahora, la influencia de la dispersión:
34. Observemos en los tres experimentos que se muestran en el gráfico anterior que, ahora, los tamaños muestrales (n=5) y las diferencias de medias son iguales en las tres comparaciones. La única diferencia está en la dispersión que, arriba, es grande, en medio, intermedia, y, abajo, es muy pequeña. Ante los datos de arriba la técnica estadística debe mantener la H0 de igualdad de medias a nivel poblacional. La diferencia de medias muestrales no es significativa, las muestras están muy solapadas, y, por lo tanto, la técnica estadística proporciona un p-valor superior a 0,05. Ante los datos de abajo, por el contrario, la técnica estadística verá que la H0 no puede mantenerse. De ser ésta cierta es muy poco probable ver unas muestras como las que se ven abajo, tan distanciadas la una de la otra como efecto de la pequeñísima dispersión. Parece que en este caso la posibilidad de equivocarse al decir que hay diferencia de medias es muy baja. Por esto el p-valor es inferior a 0,05. En la situación del medio estamos en un caso dudoso, por esto no ponemos p-valor. Pero arriba y abajo los resultados son muy claros.
35. Y veamos, finalmente, cómo influye el tamaño de muestra:
36. Observemos en los tres experimentos que se muestran en el gráfico anterior que las dispersiones de las muestras y las diferencias de medias son iguales en las tres comparaciones. La única diferencia está, ahora, en los tamaños muestrales. Arriba, el tamaño muestral es 3, en medio 5 y, abajo, es muy grande. Ante los datos mostrados arriba la técnica estadística debe mantener la H0 de igualdad de medias a nivel poblacional. La diferencia de medias muestrales no es significativa, en este caso, está basada en muestras de tamaño ridículo (n=3) y, por lo tanto, ante la duda, proporciona un p-valor superior a 0,05. Ante los datos de abajo, por el contrario, la técnica estadística verá que la H0 no puede mantenerse. De ser ésta cierta es muy poco probable ver unas muestras como las que se ven abajo. En este caso las medias muestrales son muy fiables, están basadas en muestras grandes y difícilmente obtendríamos resultados muy distintos si volviéramos a hacer el mismo experimento de nuevo. Parece que en este caso la posibilidad de equivocarse al decir que hay diferencia de medias es muy baja. Por esto el p-valor es inferior a 0,05. En la situación del medio estamos en un caso dudoso, por esto no ponemos p-valor. Pero arriba y abajo los resultados son muy claros.
37. Hemos visto, pues, en estos tres gráficos, cómo influyen individualmente estos tres factores para que las técnicas estadísticas de comparación de medias se decidan o por mantener la hipótesis nula de igualdad o por pasar a la alternativa de desigualdad de medias.
38. Las técnicas estadísticas, ante dos muestras, analizan los tres factores conjuntamente y acaban dando un veredicto mediante un p-valor.
Sobresaliente explicación.
Pingback: ¿Qué es Informática Médica? – informatica médica y bioestadistica