Archivos Mensuales: diciembre 2012

Tema 17: ANÁLISIS DE COMPONENTES PRINCIPALES

Toda la explicación que a continuación tenéis del Análisis de componentes principales la podéis seguir, también, paralalamente, con la explicación de los siguientes vídeos:

 

1. El Análisis de componentes principales (ACP) es una técnica estadística descriptiva que tiene como punto de partida una matriz de datos con una serie de individuos a los que se les ha medido varias variables. Por eso suele clasificarse como una técnica multivariante. Para guiarnos en esta técnica vamos a manejar unos datos como los que a continuación muestro:

IMG_4596

2. Se trata de unos datos que todos comprendemos perfectamente porque todos hemos sido estudiantes. Se trata de las notas de diferentes materias que obtienen 15 alumnos de bachillerato. Tenemos, pues, 15 individuos en el estudio; o sea, una muestra de tamaño 15 pero con ocho variables, tantas como asignaturas tenemos.

3. Si quisiéramos representar los 15 alumnos de esta muestra en un gráfico lo podríamos hacer tomando dos notas y representando los 15 puntos según sus valores en el eje de abscisas y de ordenadas. Podríamos también, eso sí, hacer una representación de tres de esas ocho variables en un gráfico tridimensional. Pero aquí se acaba. Ya no podríamos visualizar una representación en más dimensiones. Por lo tanto, es imposible ver en un gráfico una representación de los 15 individuos respecto a todas las variables al mismo tiempo.

4. El ACP tiene como objetivo básico inicial suplir este déficit. Pretende, cuando vale la pena hacerlo (ya veremos cuándo vale la pena y cuándo no), realizar una representación de una nube de puntos multidimensional (de más de tres dimensiones), en dos o tres dimensiones. En definitiva, se trata de visualizar lo que no vemos. En nuestro ejemplo de los estudiantes de bachillerato el ACP trataría de hacer una representación de los 15 alumnos en dos o tres dimensiones pero contemplando todas las variables, sin prescindir de ninguna de ellas en el análisis.

5.  Hay que hacer notar que, aunque el objetivo inicial es éste: la representación en dos o tres dimensiones de unos puntos que originariamente están en muchas dimensiones; o sea, visualizar lo que no vemos, la propia técnica, como consecuencia de su propio procedimiento, consigue crear unos objetos matemáticos (las componentes) muy interesantes que, en realidad, también podrían considerarse objetivos de la técnica porque, en muchas ocasiones, nos permiten establecer relaciones entre las variables, ver cómo se asocian, cómo se distancian, etc. De esto, no obstante, hablaré más tarde.

6. Vamos a ver el problema que estoy planteando pero miniaturizado. Así se entenderá mejor la esencia de la técnica. Supongamos que tenemos la siguiente representación bidimensional con dos variables X1 y X2:

IMG_4603

7. Y supongamos que unos seres unidimensionales, que únicamente ven las cosas si están en una dimensión, quieren representar, en una única dimensión, esta nube de puntos que ellos, evidentemente, no pueden ver. Observemos que si lo que quieren es no prescindir de ninguna de las dos variables lo que pueden hacer es representar las proyecciones de los puntos sobre un eje como el dibujado en la siguiente figura:

IMG_4597

8. Observemos que la nube de puntos roja, que está integrada por las proyecciones de los puntos originales sobre el nuevo eje, se parece bastante a la nube de puntos original. Las posiciones relativas de los puntos se respetan bastante. Y ahora los seres que sólo ven en una dimensión lo ven. Están viendo una representación unidimensional de una realidad bidimensional y lo hacen con bastante fidelidad. La nube de puntos roja se parece bastante a la negra. Ellos sólo ven la roja pero realmente es una buena aproximación de la original, que es la negra.

9. La representación en menos dimensiones no siempre tiene la misma calidad. En el gráfico siguiente vemos que a la izquierda la nube de puntos proyectada sobre el nuevo eje (la nube de puntos roja) se parece más a la original de lo que se parecen la roja y la negra en la situación mostrada en el gráfico de la derecha. Por lo tanto, en los datos de la derecha tiene menos valor realizar un ACP:

IMG_4605

10. Y observemos que cuando he dibujado el eje para proyectar los valores sobre él lo he hecho situándolo de una forma, pero lo hubiera podido situar de otra. Observemos en el gráfico siguiente que el eje dispuesto en el ejemplo de la derecha no consigue, mediante la proyección de los puntos sobre ella, una nube de puntos representativa de la nube de puntos original:

IMG_4598

11. Lo que hemos hecho es, en definitiva, un giro de los ejes de coordenadas sin tocar los puntos. Observemos lo que hemos hecho:

IMG_4599

12. Lo importante es que ahora vemos la nube de puntos desde unos ejes donde uno es mucho más importante que el otro. Ahora los ejes son Y1 y Y2. Si X1 y X2  eran dos variables que tenían la misma cantidad de información, ahora Y1 y Y2 no tienen la misma cantidad de información. Y1 tiene mucha más información que Y2. En Estadística información es equivalente a dispersión, a varianza. Una variable que no varía no tiene información. Una variable que varía mucho tener el valor de un individuo es muy informativo.

13. El objetivo de la técnica ACP es, pues, éste: conseguir girar los ejes de tal forma que exista la mayor desigualdad posible entre la varianza de la nube de puntos original en las proyecciones en cada uno de los respectivos nuevos ejes y que, además, estos ejes, estas nuevas variables, sean independientes entre sí; o sea, que tengan correlación cero.

14. La búsqueda de estos nuevos ejes se hace mediante el cálculo de los llamados valores propios y vectores propios de la matriz de correlaciones entre todas las variables del estudio. Puede hacerse también a partir de otra matriz, la de varianzas-covarianzas, pero ésta tiene el problema de que cuando las variables tienen unidades de escala muy diferentes introduce un exceso de influencia por parte de las variables con mayor varianza. Por esto suele trabajarse con la matriz de correlaciones. De esta forma se unifica el peso de las variables iniciales del estudio. Suele hablarse de variables estandarizadas cuando se trabaja con la matriz de correlaciones. Una variable es estandarizada cuando la muestra se transforma a media cero y Desviación estándar uno. Esto se hace restando a cada valor muestral la media muestral y dividiendo por la Desviación estándar. De esta forma todas las variables del estudio tienen la misma media y la misma Desviación estándar y ninguna pesa más que otra. De esta forma la vocalización del estudio se pone en cómo es la forma de la nube de puntos, de cuáles son las relaciones entre las variables que permiten reducir dimensiones perdiendo el mínimo de información.

15. Algo muy importante: ¿Cuál es la relación existente entre las variables originales y las nuevas variables, los nuevos ejes; o sea, cuál es la relación, en el caso que hemos dibujado entre las variables X1 y X2  y las variables Y1 y Y2?

16. En primer lugar decir que a las variables Y1 y Y2, que son, eso, variables, también, como las originales, las llamamos en esta técnica “Componentes”. Y son cada una de ellas una combinación de las variables originales. Observemos la fórmula de esa combinación:

IMG_4600

17. En realidad estos coeficientes que multiplican a las variables originales son los vectores propios de la matriz de correlaciones, es la fórmula de la transformación lineal realizada. Hemos cambiado de ejes y para llegar de los ejes originales a los nuevos ejes hace falta esta transformación. En definitiva, si tenemos un punto representado por las coordenadas originales, éstas son las fórmulas necesarias para conseguir las coordenadas de la nueva representación: la representación mediante los ejes constituidos por las componentes.

18. Si en el lugar de estar trabajando con dos variables originales estuviéramos trabajando con d variables originales la fórmula de las d componentes sería:

IMG_4601

19. Se llama a la técnica Análisis de componentes principales porque transforma a las variables originales en nuevas variables, las componentes, las cuales tiene desigualdad en cuanto a la información explicada, lo que significa que tenemos unas componentes muy informativas y otras que no. Por eso tenemos unas componentes principales, que son las que usaremos para hacer la representación. Esta desigualdad generada al crear las componentes nos permite elegir, entre ellas, las principales y eliminar las poco importantes, cosa que no sucedía con las originales porque ellas eran todas principales, todas eran importantes, no podíamos prescindir de ninguna de ellas.

20. A los datos de los 15 estudiantes que se les ha evaluado en las ocho materias citadas en la matriz de datos mostrada al principio de este tema si se les hace un ACP tenemos la siguiente representación usando las dos primeras componentes principales: PCOMP_1 y PCOMP_2:

IMG_4620

21. Observemos ahora que esta representación se asemeja mucho a la original en ocho dimensiones. Si observamos en el gráfico de dos dimensiones el alumno 1 y el 9 están muy próximos, prácticamente solapados. Miremos qué sucede en la matriz de datos. Observaremos que las notas, excepto Educación física, son prácticamente las mismas. Lo de Educación física tiene una explicación que ahora veremos.

22. Si, por el contrario, elegimos los individuos 5 y 12 vemos que en nuestro gráfico de dos dimensiones están completamente en los extremos, están en dos vértices de la representación. Si ahora miramos la matriz de datos veremos que el alumno 5 lo aprueba todo con buenas notas excepto la Educación física. En cambio el alumno 12 lo suspende todo, incluso la Educación física. Sorprendentemente en este caso son en todo distintos excepto en la Educación física que tienen justo la misma nota.

23. Por lo tanto, con el gráfico de dos dimensiones estamos viendo una muy buena fotografía de las posiciones relativas de los puntos en la representación de ocho dimensiones original que no vemos. Digo fotografía porque la metáfora es apropiada. Pensemos que cuando estamos viendo una fotografía en realidad estamos viendo una representación bidimensional de una realidad tridimensional. En el ACP estamos haciendo algo similar. Miramos de hacer una fotografía bidimensional o tridimensional, para que la podamos visualizar, de una realidad constituida por muchas dimensiones y que no visualizamos. Por lo tanto, en nuestro caso estamos viendo una fotografía bidimensional de una realidad ochodimensional.

24. Pero, algo muy importante: ¿Qué cantidad de información perdemos? Y, ¿qué representan los nuevos ejes?

25. Respecto a la cantidad de información observemos la siguiente tabla:

IMG_4618

26. Los valores propios de cada componentes nos indican la cantidad de varianza, la cantidad de información que tiene cada componente. Como podemos ver en esta tabla la primera componente tiene un 46.38% de información y la segunda un 35.76%. Las dos juntas tienen un 82.14. Por lo tanto, haciendo una representación en dos dimensiones con esas dos primeras componentes perdemos un 17.86% de información únicamente.

27. Respecto a lo que representan los nuevos ejes observemos la fórmula de las dos primeras componentes principales:

IMG_4619

28. Esto indica que la primera componente principal tiene los coeficientes de la primera columna y la segunda componente tiene los coeficientes de la segunda. O sea, que para conocer las coordenadas que tendrá cada alumno de esas dos componentes hay que multiplicar sus ocho notas por sus coeficientes respectivos. Y así es como obtenemos la representación gráfica bidimensional mostrada antes.

29. Para interpretar una componente hay que seguir el siguiente procedimiento: 1) Mirar el valor absoluto de los coeficientes distinguiendo los que tienen un valor grande y un valor pequeño. En nuestro caso en la primera componente observemos que Lengua, Inglés, Filosofía e Historia tienen coeficientes con valor absoluto grande, cercano en todos los casos a 0.5. Los demás ya son bastante más pequeños, pesan mucho menos en esta componente. En la segunda componente el peso principal se lo llevan Matemáticas, Física y Química, con coeficientes cercanos a 0.57. Las demás asignaturas pesan poco. 2) Mirar entre los coeficientes con valor absoluto grande el juego de signos que hay. En nuestro caso el signo es el mismo, por lo tanto, las variables que pesan en una componente y en la otra todas van en la misma dirección. Pero en otro caso nos podríamos encontrar con valores de signo contrario. Entonces hay que interpretar el juego de fuerzas de los signos.

30. En el ejemplo que venimos usando la interpretación es muy clara. En la primera componente tenemos reunidas las materias de letras. En la segunda componente tenemos reunidas, por el contrario, las materias de ciencias. La educación física no pesa ni en una ni en otra. Porque no tiene ninguna relación ni con las materias de letras ni con las de ciencias.

31. Viendo el gráfico bidimensional donde en el eje de las abscisas tenemos la primera componente y en el eje de las ordenadas tenemos la segunda componente podemos ver que los alumnos buenos en ciencias y letras estarán situados a la derecha y arriba, los alumnos buenos en letras y malos en ciencias se situarán a la derecha y abajo, los buenos en ciencias y malos en letras a la izquierda y arriba y, finalmente, los malos en ciencias y letras se situarán a la izquierda y abajo.

32. Veamos otro ejemplo de ACP. La matriz de datos son variables meteorológicas según comarcas catalanas el año 2005. Los datos son los siguientes:

IMG_4623

33. Al hacer un ACP, los valores propios de las componentes principales son los siguientes:

IMG_4624

34. Como puede verse con las dos primeras componentes explicamos el 77.41% de la varianza, de la información contenida en la nube de puntos original.

35. Y los vectores propios; o sea, los coeficientes de las dos primeras componentes, son los siguientes valores:

IMG_4625

36. En la primera componente pesan; o sea, tiene valor absoluto grande, las tres variables de temperatura y la altitud media de la comarca. Además lo hacen las temperaturas con signo positivo y la altitud con signo negativo. Lo que indica que valores grandes de la primera componente corresponden a comarcas con temperaturas altas y altitud baja. Altitud baja porque como el coeficiente es negativo para que la componente tenga un valor alto hace falta que la altitud reste poco, sea un valor pequeño. Contrariamente, valores pequeños de esta primera componente indica temperaturas bajas y altitud alta.

37. En la segunda componente pesan especialmente las variables Precipitaciones, Humedad y Velocidad del viento. Las dos primeras con signo positivo y la tercera con signo negativo. Valores grandes de esta componente indicarán zonas con mucha lluvia, mucha humedad y poco viento. Por el contrario, valores bajos de esta segunda componente corresponderán a comarcas de bajas precipitaciones, baja humedad y alta velocidad del viento.

38. La representación de las comarcas según las dos primeras componentes es la siguiente:

IMG_4626

39. Viendo el gráfico y la anterior interpretación de las componentes podemos dividir el gráfico en cuatro cuadrantes y afirmar: 1) Arriba a la derecha: Comarcas calurosas y húmedas. 2) Abajo a la derecha: Comarcas calurosas y secas. 3) Arriba a la izquierda: Comarcas frías y húmedas. 4) Abajo a la izquierda: Comarcas frías y secas.

40. Observemos, pues, que conseguimos con esta técnica representar en pocas dimensiones una realidad multidimensional y, también, crear estas componentes, estas variables de variables, variables que son combinación de las variables originales. Y estas combinaciones son interesantes en sí mismas, porque nos ayudan a crear una especie de conglomerados de variables combinadas de una forma que, en realidad, reflejan la vida interna que tienen ellas entre sí en cuanto a la covariación conjunta.

41. En el primer ejemplo, el caso de las notas, las componentes nos han creado la noción de Letras y la noción de Ciencias, reflejando una idea que todos tenemos en mente: que las capacidades hacia un ámbito u otro son como dos dimensiones independientes que se pueden tener ambas, que se puede tener una y no otra o que se puede, también, no tener ninguna.

42. En el segundo ejemplo, las componentes nos separan dos elementos independientes: aspectos de frío o calor, ligados a la altitud de la zona, por un lado, y aspectos referentes a la humedad climática, por otro. Aspectos que pueden ir asociados entre sí de forma independiente creando cuatro tipos de comarcas o de zonas distintas según la combinación de los valores extremos de estas dos componentes.

43. Otro ejemplo de Análisis de componentes aplicado a datos de jugadores de baloncesto se puede consultar en el fichero Análisis de componentes principales aplicado a datos de jugadores de baloncesto.

44. Otro ejemplo interesante es el planteado en la Situación 66, donde aparecen unos datos de diferentes países y las proporciones que tienen que hay en ellos en cuanto a las distintas formaciones universitarias. El análisis de los datos los podéis ver en la Solución Situación 66.

45. Otro ejemplo, ahora con Pokémons, está planteado en la Situación 47. La solución se puede ver en el fichero Solución Situación 47.

46. Un ejemplo de fútbol lo tenemos en la Situación 46. La solución puede verse en el fichero Solución Situación 46.

47. Como puede verse, en este tema hemos hablado de una técnica esencialmente descriptiva. No hemos hablado, aquí, de otra cosa que de muestras. No hay voluntad inferencial en esta técnica. Es cierto que se ha estudiado y creado técnicas inferenciales relacionadas con el ACP pero no es muy utilizada en la práctica. Es por ello que debemos considerarla una técnica descriptiva, una técnica que intenta buscar la representación de una muestra de individuos de los que tenemos muchas variables de interés. Una técnica donde la muestra es la finalidad.

48. Podéis practicar los conceptos de este tema con ejercicios comentados en el siguiente:

ANOVA de dos factores a efectos aleatorios

En el ANOVA de dos factores a efectos aleatorios tenemos tres contrastes a realizar, uno por cada factor y otro para la interacción. Pensemos que estamos en factores cruzados. En ANOVA si hay más de un factor si no se dice lo contrario los factores están cruzados.

La clave en estos tres contrastes de hipótesis es qué cocientes hay que hacer a la hora de dividir cuadrados medios (MS) en la F-ratio. Por eso pongo las esperanzas de los cuadrados medios. Viendo esas esperanzas y bajo la Hipótesis nula vemos por qué los cocientes son los que son. Se trata de que los cocientes, bajo la Hipótesis nula tengan la misma esperanza. De esta forma valores pequeños de la F-ratio nos permitirán mantener la Hipótesis nula y, por el contrario,  valores grandes de la F-ratio nos permitirán rechazarla y pasarnos a la Hipótesis alternativa.

IMG_4617

Test de Mann-Whitney

El Test de Mann-Whitney es un test no paramétrico que contrasta la igualdad de medianas de dos poblaciones. A este Test también se le llama, a veces, Test de Mann-Whitney-Wilcoxon o, también, Test de Wilcoxon de la suma de rangos.
Consiste en realizar nxm comparaciones: todos los valores de una muestra se comparan con los de la otra y se cuenta el número de veces que los de una muestra son superiores a los de la otra. El estadístico de test U es ese contador.

IMG_4615

Test de Wilcoxon

El Test de Wilcoxon es similar al Test de los signos pero no sólo tiene en cuenta los signos sino que tiene también en cuenta el valor absoluto de las diferencias de cada valor muestral respecto al valor mo de Mediana poblacional que se quiere contrastar. O sea, tiene en cuenta los rangos, por esto se le conoce, también, como el Test de los rangos con signo de Wilcoxon. No hay que confundirlo con el Test de la suma de rangos de Wilcoxon que es como se llama, a veces, al Test de Mann-Whitney. El Test de los rangos con signo, que es el que estamos viendo ahora, es para muestras relacionadas, apareadas. El Test de la suma de rangos es para muestras independientes.

Se suele utilizar, como el Test de los signos, para contrastar la igualdad de medianas en datos apareados en los que no se cumplen las suposiciones para realizar el Test de la t de Student. En este caso se restan uno a uno los valores apareados de ambas muestras y se contrasta la Hipótesis que la Mediana poblacional es cero.

IMG_4614

Test de los signos

En el Test de los signos se contrasta si la Mediana poblacional tiene un cierto valor mo. El estadístico de test consiste en contar el número de valores muestrales que están por encima de este valor mo. Por esto se cuenta el número de valores positivos.

Un ámbito donde se suele aplicar este Test es para muestras apareadas donde se quiera contrastar la igualdad de medias y no se cumplen las condiciones para realizar un Test de la t de Student de datos apareados. En este caso se restan los valores muestrales, individuo por individuo, y se realiza este contraste con mo=0.

IMG_4613

ANOVA de dos factores a efectos fijos

En el ANOVA de dos factores a efectos fijos tenemos tres contrastes a realizar, uno por cada factor y la interacción. Pensemos que estamos en factores cruzados. En ANOVA si hay más de un factor si no se dice lo contrario los factores están cruzados.

La clave en estos tres contrastes de hipótesis es qué cocientes hay que hacer a la hora de dividir cuadrados medios (MS) en la F-ratio. Por eso pongo las esperanzas de los cuadrados medios. Viendo esas esperanzas y bajo la Hipótesis nula vemos por qué los cocientes son los que son. Se trata de que los cocientes, bajo la Hipótesis nula tengan la misma esperanza. De esta forma valores pequeños de la F-ratio nos permitirán mantener la Hipótesis nula y, por el contrario,  valores grandes de la F-ratio nos permitirán rechazarla y pasarnos a la Hipótesis alternativa.

 IMG_4608

ANOVA de dos factores a efectos mixtos

En el ANOVA de dos factores a efectos mixtos, uno fijo y uno aleatorio, tenemos tres contrastes a realizar, uno por cada factor y otro para la interacción. Pensemos que estamos en factores cruzados. En ANOVA si hay más de un factor si no se dice lo contrario los factores están cruzados.

La clave en estos tres contrastes de hipótesis es qué cocientes hay que hacer a la hora de dividir cuadrados medios (MS) en la F-ratio. Por eso pongo las esperanzas de los cuadrados medios. Viendo esas esperanzas y bajo la Hipótesis nula vemos por qué los cocientes son los que son. Se trata de que los cocientes, bajo la Hipótesis nula tengan la misma esperanza. De esta forma valores pequeños de la F-ratio nos permitirán mantener la Hipótesis nula y, por el contrario,  valores grandes de la F-ratio nos permitirán rechazarla y pasarnos a la Hipótesis alternativa.

IMG_4607

Funciones de distribución

1. Una función matemática es un tipo de relación establecido entre dos o más variables. Cuando escribimos y=f(x) estamos estableciendo una relación entre la variable “x” y la variable “y”.

2. Una de las peculiaridades de la funciones matemáticas es que pueden ser usados como modelos de relaciones entre variables reales.

3. En Estadística las funciones matemáticas más utilizadas como modelos son las llamadas funciones de distribución.

4. Las funciones de distribución son modelos de la variabilidad, modelos de la forma de la variación que tiene una variable. En esas funciones la variable “x”, en la típica estructura de una función: y=f(x), son los valores que se pueden dar de la variable estudiada y los valores de la variable “y”, son la probabilidad de que se den; o sea, la abundancia relativa de ese valor en la población.

5. Las funciones de distribución, como su nombre indica, son representaciones de cómo, potencialmente, puede distribuirse una variable. Y no lo olvidemos: son funciones matemáticas. No son variables reales como la altura, el peso, el número de hermanos, el ser hombre o mujer, etc. Lo que sucede es que se han construido de tal forma que pueden actuar de maquetas de esas variables reales, porque modelizan bien su variabilidad.

6. Es evidente que no se distribuye de la misma forma una variable como el número de hermanos que tiene una persona, su altura, el sexo o el grado de dolor que tiene una persona tras una cirugía.

7. La normal, la binomial, la Poisson, la Bernouilli, la exponencial, etc., son distintas distribuciones, distintas formas de dibujar, matemáticamente, a través de una función, la variabilidad con la que se nos presentan las variables que estudiamos.

8. La modelización estadística, en general, consiste en la representación de una situación estadística real mediante un modelo matemático.

9. Una de las modelizaciones estadísticas más usuales es la de la variabilidad de una variable mediante una función de distribución.

10. El contraste de hipótesis de la modelización estadística es siempre: H0: El modelo se ajusta a la realidad. H1: El modelo no se ajusta.

11. En el caso concreto de una función de distribución el contraste es: H0: La variable sigue una distribución determinada. H1: No la sigue.

12. Por ejemplo, es muy habitual en Estadística el contraste siguiente: H0: La variable sigue una distribuión normal. H1: No la sigue.

13. Estos contrastes siguen la misma operatividad que siguen todos los contrastes de hipótesis estadísticos: una muestra y una técnica que decide, proporcionando un p-valor, si tiene sentido, a la luz de lo que dice la muestra, mantener la hipótesis nula o si debemos rechazarla y aceptar la alternativa.

14. Todas las técnicas estadísticas cuyos contrastes de hipótesis ajustan una función de distribución a unos datos se denominan técnicas bondad de ajuste a una distribución. En la sección Herbario de técnicas se pueden consultar varias de ellas.

15. Vamos a ver a continuación las distribuciones más usadas como modelos de la variación. En la siguiente tabla podemos ver el nombre de la distribución, la nomenclatura habitualmente usada y su función de densidad:

IMG_4547

16. Es importante conocer cuál es la esperanza y cuál es la varianza de cada una de estas distribuciones. De esta forma tenemos un valor de referencia de cada una de ellas: el valor promedio y la dispersión de sus valores:

IMG_4548

17. Y estas distribuciones tienen, evidentemente, unas formas peculiares. Las tres primeras sólo tienen probabilidad valores enteros (son distribuciones discretas), las otras dos tienen probabilidad intervalos reales (son distribuciones continuas). Las dos primeras además de ser discretas son finitas (sólo tienen probabilidad un número finito de valores: dos la distribución Bernouilli y n+1 la distribución Binomial. Es la peculiar forma de cada una de ellas lo que nos sirve de modelo de la variabilidad. Veamos la forma general de cada una de estas distribuciones:

IMG_4550

18. Los parámetros de cada distribución, que son las letras entre paréntesis en la nomenclatura de la distribución, son como las tallas del modelo. Una vez adaptada (ajustada, solemos decir los estadísticos) una distribución a una variable real conviene seleccionar el valor más adecuado del parámetro, o de los parámetros, a los datos que se tienen de la variable en la muestra. Esto es como cuando compramos unos zapatos, primero elegimos el modelo y luego la talla. Con la talla buscamos un ajuste del zapato a nuestro pie. Pues esto también hacemos con las distribuciones.

19. Entre la distribución Binomial, la Poisson y la Normal existen posibilidades de usar unas por otras en determinadas circunstancia. Esto se basa en el hecho de que en esas circunstancias en las que es posible la aproximación los contornos, las formas, la distribución de probabilidades, se aproxima mucho entre ellas. Y muchas veces calcular áreas mediante una distribución Binomial o una Poisson es largo y pesado, en cambio pasar a una distribución es muy sencillo y rápido.

20. Veamos a continuación el mapa de estas aproximaciones:

IMG_4553

21. Las aproximaciones son, como puede verse, de la Binomial a la Poisson, de la Binomial a la Normal y de la Poisson a la Normal. En rojo están las condiciones en las que esto es posible. Y en negro están cómo se calcula el parámetro o los parámetros de la nueva distribución a partir del parámetro o de los parámetros de la antigua.

22. Como se puede ver la distribución normal es finalmente una distribución muy utilizada tanto como representación de la variabilidad de una variable en la naturaleza, porque muchas variables tienen un compartamiento de campana de Gauss, y porque muy frecuentemente otras distribuciones (la binomial y la Poisson) se pueden aproximar a una normal y los cálculos en ésta son mucho más sencillos.

23. Para ver con detalle las peculiaridades de la distribución normal puede consultarse el artículo dedicado a ella. Allí se podrá comprobar el uso de las tablas de la normal.

24. Alguien pensará: ¿Y la distribución t de Student? ¿Y la distribución F de Fisher? ¿Y la distribución ji-cuadrado de Pearson? Estas no son distribuciones usadas como modelo de la variación. Pero son muy importantes en Estadística, evidentemente. Son usadas continuamente. Pero son usadas como distribuciones de estadísticos de test en ciertos contrastes.

25. Estas tres distribuciones (la t de Student, la F de Fisher y la ji-cuadrado de Pearson) se les denomina distribuciones derivadas de la normal, porque son las distribuciones de ciertos estadísticos si la variable de estudio es una distribución normal.

26. Veamos un caso de aplicación de una distribución Binomial:

IMG_5206

27. Veamos, ahora, un caso de aplicación de una distribución Poisson:

IMG_4562

28. Veamos un caso de una distribución Normal (Ver el artículo dedicado a la Distribución normal donde se explican la estandarización y el uso de la tabla de la N(0, 1)):

IMG_4563

29. Para ver cómo se maneja la tabla de la distribución normal para poder calcular esas áreas puede consultarse el artículo dedicado a esa distribución.

30. Y ahora un caso de aplicación de una distribución Exponencial:

IMG_4565

31. Veamos a continuación dos problemas donde se usa la posibilidad de aproximar una función de distribución por otra función de distribución. Las aproximaciones que usaremos son las vistas en el cuadro descrito en el punto 20. Veremos que en el caso de usar una aproximación de una función Binomial o Poisson mediante una distribución Normal, es recomendable hacer una corrección por aproximación de una distribución discreta por una distribución continua.

IMG_5266

32. Esta corrección por aproximación, como podemos ver en el apartado 2 del problema anterior, es importante. Puede comprobarse, porque esta resuelto sin aplicar y aplicando la corrección, que el resultado cambia sensiblemente. Para entender este concepto pensemos que estamos calculando la probabilidad de que el valor sea igual o superior a 120. Si lo calculamos mediante la distribución Normal calculamos área a partir sólo del 120, dejando el espacio del 119 al 120 como área sin contar. Se suele coger desde la mitad de estos valores para que una mitad vaya a un lado y la otra mitad al otro. Se consiguen así mejores aproximaciones.

33. Veamos el otro problema de aproximaciones de una distribución por otra distribución:

IMG_5267

34. Obsérvese que ahora, como lo que se pide es la probabilidad de ser mayor estricto a 12, la corrección se aplica contando el área a partir de 12, porque en realidad es como si tuviéramos que calcular la probabilidad de que la variable discreta fuera igual o mayor que 13.

Una clase transcrita: “Introducción a la noción de distribución”

        Vamos a empezar hoy la clase jugando: Voy a pensarme un número entero del 1 al 100. ¡Ya lo he pensado! Ahora se trata de que vosotros lo adivinéis a base de preguntas que me podéis ir haciendo, y a las que yo puedo contestar únicamente: sí o no.

        Seguro que inmediatamente se ha generado en vosotros un estado de duda: “¿Qué número será?” Vamos a intentar representar este estado de duda mediante una función matemática. Sí, digo bien, mediante una función matemática.

         Recordemos -pues se trata de un concepto fundamental- que una función, en matemáticas, es una regla mediante la cual a todo elemento de un conjunto, llamado dominio, se le asigna un único elemento de otro conjunto, llamado recorrido o codominio. Algo tan sencillo y a la vez tan complejo como eso. De hecho es lo que empezasteis a estudiar en la primaria. Recordad.

         Como vosotros no me conocéis, tampoco debéis de conocer mis preferencias en cuanto a números, por lo tanto, es coherente representar vuestro estado de duda con una función que asigne un valor constante; o sea, que asigne el mismo valor a todos los números que yo puedo haber pensado: 1, 2, 3, … , 100. A los que no pueden ser les asignaremos, también a todos ellos, el mismo valor y distinto al anterior. Además, una función definida en los números reales, que a los números que no puedo haber pensado les asigne el cero y a los que, por el contrario, sí pueda haber pensado, les asigne un valor distinto del cero, parece ciertamente coherente para modelar este estado de duda.

         No perdamos de vista lo que en realidad estamos haciendo. Estamos intentando traducir a lenguaje matemático lo que está en vuestra cabeza, vuestro estado de duda. Estamos traduciendo un estado, digamos, cerebral a un lenguaje matemático. Estamos creando una maquinaria construida con piezas matemáticas: conjunto de los números reales, función, etc., para utilizarla como un dibujo de un estado real.

         Asignemos el valor que asignemos a los números 1, 2, 3, … , 100, con la condición que sea el mismo para todos y distinto de cero, estaremos reflejando de forma abstracta este estado de duda generado con el juego. Pero por convenio podemos adoptar la siguiente opción: les daremos un valor encaminado a que la suma de todos ellos resulte ser uno. Podríamos adoptar otros convenios, por ejemplo que la suma fuera cien, veintiuno o treinta y dos. Pero para situarnos dentro de una teoría generalmente adoptada, que veremos más adelante, adoptaremos el uno, por lo que la posibilidad, de cada uno de los números factibles, la representaremos en tanto por uno. En nuestro caso, a cada uno de los números posibles le asignaremos el valor 1/100, para que la suma de los cien valores sea uno.

         Por lo tanto, la función creada tiene una forma como la que sigue:

 IMG_4555

         Si ahora se me hace alguna pregunta, mi respuesta posiblemente cambie el estado de duda y por consiguiente también la función que lo trata de representar o modelar. A ver, ¿quién me hace una pregunta?

         – ¿Es un número par?

         Me preguntan si se trata de un número par. Yo respondo: ¡No!.

         Fijaos: Al responder que no a la pregunta de vuestro compañero, automáticamente se produce un cambio de estado de duda en vosotros. ¿Cómo reflejar esta transformación mediante lenguaje matemático? Es como si, de repente, en la función anteriormente creada, los palos de los números pares se encogieran hasta el cero y los de los números impares ascendieran recogiendo lo que los pares han dejado. Como la altura total debe ser uno, si unos números ceden altura otros la deben de tomar para sí. Tendremos, pues, ahora, una nueva función: los números impares del 1 al 99 tendrán asignado el valor 1/50 y el resto el cero. La función será la siguiente:

 IMG_4556

         Sucesivamente, si se me van preguntando cosas, se irá haciendo cada vez más concreta la función hasta que finalmente la posibilidad esté toda concentrada en un único número, justo el que había pensado inicialmente.

         Cada estado de duda tiene su función matemática que lo puede representar. Esto es lo fundamental.

         Supongamos que estamos de nuevo en la posición inicial. No me habéis hecho ninguna pregunta todavía. Os pido ahora que me hagáis una pregunta tal que mi respuesta genere en vosotros un estado de duda que, para ser representado matemáticamente, necesite la creación de un modelo, de una función, donde los valores con posibilidad no tengan todos la misma, como sí ha ocurrido en el caso anterior. ¿Me entendéis?

         Venga, pues. ¿Quién se atreve?

         – ¿Tiene dos cifras el número?

         Mira. Fíjate que si yo respondo que sí todos los números que están formados por una única cifra pasan a tener probabilidad cero, pero entre todos los demás no tienes ninguna razón para dar más probabilidad a unos o a otros. ¿Te das cuenta?

         Venga, pues. Otra pregunta.

         – ¿Es número primo?

         Tampoco. Fíjate. Si yo te digo que no, ¿qué ocurre? ¿Cómo modelarías vuestro estado de duda? Todos los números que no fueran el 1, 2, 3, 5, 7, etc, que son los números primos, todos ellos tendrían la misma probabilidad y yo pido, fíjate bien, una pregunta que mi respuesta origine la necesidad de crear un modelo en el que los números posibles no tengan la misma posibilidad.

         -¿Es un número próximo al 50?

         ¡Exacto!.¡Perfecto! Esto es lo que quería. Yo a esta pregunta respondo que sí. Entonces: ¿Cómo dibujar mediante una función vuestro estado de duda actual? Observad bien que ahora todos los números siguen teniendo algo de posibilidad, pero los centrales, los próximos a 50, tienen más posibilidad, porque yo he respuesto que sí a la pregunta de vuestra compañera. El problema es que, según la idea de proximidad que tenga cada uno de los participantes en el juego, la función será distinta. Pero tendrán todas ellas algo en común: la unidad de posibilidad a repartir estará más concentrada en valores centrales y cuanto más nos alejemos del centro más deberá disminuirse la altura o los valores asignados a aquellos números. Una posible función de las muchas posibles sería la siguiente:

 IMG_4557

         ¿De acuerdo? ¿Me habéis seguido? ¿Alguna duda?… ¿No?

         Cambiemos de juego. Si lanzamos al aire una moneda, la situación es parecida, pero más sencilla de modelar matemáticamente. Estamos de nuevo ante una situación de incertidumbre porque hay variabilidad de valores posibles. Una variabilidad más pequeña que antes, pero lo cierto es que antes de lanzar no sabemos el resultado que vamos a obtener. Fijaos que si a cara le asigno el valor 0 y a cruz el 1, antes de lanzar la moneda parece coherente dibujar el estado de duda, acerca de cuál será el desenlace del juego, mediante una función que asigne un valor de 1/2 al 0, de 1/2 también al 1 y cero al resto de los números reales. Por lo tanto, esta función será una traducción a lenguaje matemático de un estado mental.

         Puesto que ahora, después de haber hecho todo lo que hemos hecho, puede que ya os empiece a gustar este inesperado uso de unos conceptos matemáticos que creíamos muy alejados de la realidad, vamos a intentar representar, mediante lenguaje matemático, otra situación. Supongamos que queremos pronosticar la altura que tendrá la primera persona que pase por la calle cuando salgamos. Alturas nos podemos encontrar desde un mínimo si es que pasa un niño, hasta un máximo que lo podemos cifrar en la altura máxima en humanos. Pero las posibilidades sabemos que no son las mismas para esta enorme variedad de alturas con las que en potencia podemos encontrarnos. Fijémonos que la popular campana de Gauss puede reflejar esta situación. Un buen dibujo del estado de duda generado ahora sería una función en forma de campana que tuviera el máximo próximo al número que prevemos que sea la altura media de la población en la que estamos realizando el juego. Y si queremos ser más precisos, la altura media de los que pueden circular por aquella calle y a aquella hora.

         Esta situación última es un poco más sofisticada que las anteriores, pero esencialmente la misma. En definitiva, utilizamos estructuras matemáticas para reflejar estados reales, para reflejar la organización de la variabilidad, para dibujar nuestra incertidumbre. Esta  perspectiva de la matemática puede sorprender de entrada, pero debemos ver que toda la metodología utilizada en los estudios secundarios es parte de un contexto más general donde existe una serie de estructuras matemáticas que tienen su dimensión aplicada.

         La variabilidad la encontramos en todas partes. La longitud de un organismo cualquiera, el peso, cualquier medida que estudiemos en él. El tiempo de vida de un organismo, de una lámpara. El número de coches que irá a una gasolinera en una hora, el número de llamadas telefónicas a un determinado número en un día. Todas éstas son situaciones donde se presenta variabilidad. Mediante funciones como las que hemos visto y como las que iremos viendo a lo largo del curso intentaremos  modelar esta variabilidad.

         La estadística es el estudio de la variabilidad. Es el estudio de la variabilidad realizado mediante las herramientas aportadas por las matemáticas. Donde hay variabilidad la estadística tiene algo que decir. Las situaciones que hemos planteado anteriormente son situaciones de variabilidad. Variabilidad de números que yo he podido pensar, variabilidad de los resultados posibles en el lanzamiento de una moneda, variabilidad de alturas en una población.

         La estadística es, pues, el arte de utilizar estructuras matemáticas para responder a preguntas acerca de la variabilidad que hay en una población, en una población que se nos escapa por enorme o por impredecible. Estas imágenes con las que hemos empezado son una caricatura, pero una caricatura de lo que es en realidad la actividad estadística. Además, estas imágenes recogen bien los rasgos fundamentales sobre los que descansa este esfuerzo de decir cosas de un todo a partir de una pequeña parte de este todo.

         Podemos distinguir como mínimo dos mundos: En primer lugar, el de nuestra realidad, de las cosas que nos rodean; o sea, el mundo de los animales, de los vegetales, de las bacterias, de los hombres y de todos nuestros objetos. En segundo lugar, el mundo de los objetos matemáticos; o sea, el mundo de los conjuntos, de las funciones, de las matrices, etc.

         El mundo de los objetos matemáticos es un mundo que tiene una realidad al margen del nuestro. Ésta es una distinción que guiará continuamente nuestro recorrido y nos ayudará a comprender la verdadera naturaleza de la actividad estadística. Pensemos que la estadística es una forma de hacer matemáticas, por lo tanto, es importante situar bien qué es en realidad lo que hacemos cuando hacemos matemáticas.

         La matemática ha sido siempre básicamente, a lo largo de toda la historia, una diversión útil. Una diversión que ha entretenido a muchos hombres a lo largo de la historia, pero una diversión que ha ido dejando su sedimento, y del que la humanidad ha ido sacando paulatinamente provecho. Este entretenimiento, esta diversión, ha dado lugar, ciertamente, a una de las piezas más extraordinarias del espíritu humano. Si uno se sorprende ante un cuadro de Goya o ante una sinfonía de Mozart, no causan menor sorpresa muchos de los conceptos matemáticos que han sido creados a lo largo de la historia.

         Un curso de matemáticas es un viaje a otro mundo. Un viaje es, sin duda -supongo que estaréis de acuerdo conmigo- más atractivo si el camino se realiza tocando lo que se ve. El mundo de la matemática se digiere mejor tocando los objetos que se van viendo por el camino. El mundo de las cosas que nos rodean ha sido creado a base de millones de años, el de la matemática tiene tan sólo unos pocos miles de años, pero tiene una riqueza que impresiona a quien se introduce en él. En este curso viajaremos por el mundo de las matemáticas y tocaremos todo lo que veamos en él. Además, crearemos cosas, añadiremos cosas a este mundo. Crearemos objetos para que habiten en el mundo de las matemáticas.

         Las matemáticas pueden verse como un gran museo. Un museo donde se exponen creaciones humanas. Para mirarlas hay que realizar un esfuerzo intelectual considerable. Por ejemplo, ante una función deberemos agudizar nuestra mirada. Ver qué pasa en las proximidades de un punto cualquiera, qué sucede cuando nos alejamos hacia un extremo de la gráfica, etc. Los conjuntos y las funciones son las piezas que descansan en los pedestales, pero hay un enorme repertorio de carteles escritos, como teoremas, que han ido dejando visitantes ilustres, en los cuales constan leyes generales que pueden encontrarse entre toda aquella inmensa masa de fascinantes piezas.

         En el museo de las matemáticas algunos objetos son, además, herramientas para entender otros objetos. Se trata de un sistema profundamente interconectado. No son piezas aisladas. El museo está constituido de una red no visible de conexiones que, visitas sucesivas a él, nos van permitiendo desentrañar. Estamos, además, ante un museo que tiene algo ciertamente muy especial, algo que no ocurre en ningún otro museo: es un mundo abierto. Al salir, si hemos agudizado nuestro ingenio y nuestros deseos de crear, podemos dejar, en su interior, nuestras propias creaciones.

         La idea de museo nos aportará una dimensión importante para ver de otra forma las matemáticas. Normalmente un estudiante ante una pregunta acerca del límite de una función en un punto, acerca de la derivada de una función o acerca del desarrollo de Taylor de una función suele ver un problema meramente de cálculo. Éste es en gran parte el problema de las matemáticas. Las operaciones, el cálculo, son una fachada que no deja ver lo que hay dentro y que es realmente lo interesante. Hay que descubrir que estos cálculos tienen una finalidad fundamental: conocer unas formas, unas formas, en la mayor parte de los casos, bellas y sorprendentes. Tanto el límite de una función en un punto, como la derivada de una función, como un desarrollo de Taylor y otras muchas técnicas matemáticas, son herramientas para conocer mejor los verdaderos protagonistas de la escena matemática: las funciones. Hay que cambiar el enfoque en la mirada matemática.

         El museo de la matemática tiene, finalmente, una característica que lo transforma en un recinto ciertamente especial: sus límites no tienen límite, su ubicación está allí donde una cabeza humana, preparada para imaginar, comience a tocar y a descubrir los entresijos de unas piezas que se mueven mediante la fuerza de una profunda reflexión. El mundo de los objetos matemáticos se expone allí donde alguien esté dispuesto a pensar.

         Bueno, hasta el próximo día.

Tema 16: DETERMINACIÓN DEL TAMAÑO DE MUESTRA

1. La pregunta que más se le hace a un estadístico es: “¿Qué tamaño de muestra necesito?”.

2. El problema que tiene esta pregunta es que, así, sin más, no tiene respuesta. Es una pregunta que engendra preguntas porque el estadístico, sin más información, no puede decir nada, como veremos a continuación.

3. Es conveniente diferenciar dos ámbitos distintos en la determinación del tamaño de muestra: a) Cuando hacemos una predicción. b) Cuando hacemos un contraste de hipótesis. Empezaremos planteando el primer caso y, en concreto, ejemplificado en la predicción de una media poblacional.

4. El radio (r) de un intervalo de confianza de la predicción de la media poblacional, la Desviación estándar (DE) y el tamaño muestral (n) mantienen una relación que puede expresarse en una ecuación muy importante en Estadística:

IMG_4906

5. Recordemos que un intervalos de confianza de la media como, por ejemplo: (5, 15), tiene como radio 5 y como diámetro tendría 10. Y recordemos, también, que estos intervalos tienen un porcentaje de confianza. Recordemos, también, que esta expresión la podemos deducir de todo lo visto en el Tema 3: Intervalos de confianza.

6. Esta constante k dependerá de ese porcentaje de confianza con el que queramos expresar el pronóstico. En el caso de que estemos trabajando con la media poblacional y en caso de seguir, nuestra variable, la distribución normal, o, si no es así, que el tamaño muestral sea grande (superior a 30) este valor de k, si el nivel de confianza es del 95%, es aproximadamente 2.

7. Por lo tanto, la ecuación quedaría así:

IMG_4907

8. Vamos a reflexionar algunas cosas importantes que se desprenden de esta importantísima igualdad.

9. Esta ecuación no aparece por arte de magia, surge de la fundamental noción de Error estándar (EE), cuya expresión recordemos que, para el pronóstico de la media poblacional, es EE=DE/raiz(n).

10. De hecho, ya lo hemos dicho en diferentes ocasiones, que en cualquier estimación, en cualquier pronóstico, está implicado el Error estándar. El EE es una DE, pero es la DE de una predicción. Esto es lo que lo caracteriza.

11. Pero, además, hemos visto también que la noción de EE era fundamental para la construcción del intervalo de confianza del 95%.

12. Y en la ecuación r=2•DE/raiz(n) la parte derecha de la igualdad es esa expresión de dos veces el error estándar.

13. Otra forma de expresar esa ecuación, despejando la n, es:

IMG_4908

donde ya la tenemos en la forma deseada, porque lo que queremos es determinar el tamaño de muestra, la n, en un estudio concreto.

14. Una vez tenemos la ecuación podemos hacer afirmaciones a partir de ella. En una ecuación la posición relativa de los conceptos es muy importante. Veamos: Si hay mucha dispersión necesitamos más n. Si hay poca dispersión no necesitaremos tanto tamaño de muestra. La relación entre n y la DE es directa. A más DE más n. A menos DE menos n.

15. Si necesitamos una precisión grande en nuestras predicciones; o sea, un radio r pequeño, entonces deberemos tener una muestra grande. Si no necesitamos mucha precisión; o sea, si no precisamos un radio r muy pequeño, la muestra podrá ser menor. Por lo tanto, el tamaño de muestra está relacionado de forma inversa con ese radio del intervalo.

16. O sea, a la hora de elegir un tamaño de muestra debemos saber qué precisión necesitamos y qué dispersión podemos prever que tendremos en la futura muestra. Necesitamos saber, pues, cómo será la muestra que aún no tenemos.

17. Esta paradoja es importante: para elegir un tamaño de muestra ideal necesitamos saber cómo será la dispersión de esa futura muestra.

18. El conocimiento de lo que todavía no conocemos lo debemos suplir por información de otros estudios previos o por una muestra piloto, una pequeña muestra previa, una premuestra, que nos permita hacer una previsión de la dispersión que tenemos en el estudio.

19. Respecto a la precisión requerida en el estudio, expresada ésta por el radio del intervalo (r), no siempre uno sabe lo que le interesa o lo que necesita. En este caso lo que uno quiere es estar lo más cerca del valor que estima. Pero es necesario especificar, de antemano, esa precisión porque de ello depende el tamaño de muestra que hemos de tomar. Porque está en la ecuación.

20. Un ejemplo: Estamos estudiando la media de altura de una población adulta y queremos construir un intervalo de confianza del 95% de la media poblacional cuyo radio no sea mayor que 1; o sea, queremos construir un intervalo de confianza con el valor de la media muestral más menos 1.

21. Observemos que a partir de la ecuación n=4•DE2/r2 sabemos r que vale 1, pero nos falta saber DE. Si sabemos, por otros estudios, que la DE en estas poblaciones es un valor cercano a 10 ya lo tenemos todo para determinar el tamaño de muestra que necesitamos. Entonces el tamaño de muestra ideal para trabajar es: n=4*100/1=400. Con este tamaño de muestra y con esta dispersión podremos construir un intervalo de confianza del 95% de la media poblacional a partir de la media muestral que calculemos a la muestra con un radio de 1.

22. Observemos ahora lo mismo pero visto desde el otro lado: Tomamos una muestra de tamaño 400 y calculamos la media que es, por ejemplo, 170 y la DE que resulta ser, finalmente 10, como ya habíamos predicho por estudios previos. Entonces, al calcular el intervalo de confianza de la media poblacional lo haríamos sumando y restando dos veces el Error estándar. Y el Error estándar, en esta muestra, sería 10/raíz(400)=0.5. El intervalo de confianza sería, entonces, 170±1, que es del nivel de precisión que queríamos.

23. Si la variable es dicotómica (una variable como hombre-mujer o tiene o no diabetes) la fórmula es la misma pero ahora la DE es raíz cuadrada de p(1-p), que es la Desviación estándar de una variable dicotómica. O sea, debemos saber cuál debe ser, aproximadamente, el valor de p que acabaremos estimando para ponerlo en la ecuación. Ante la duda se elige como p el valor de 0.5 que nos daría el máximo valor posible de tamaño muestral. Supongamos que queremos estimar la prevalencia de la diabetes en un país y queremos determinar el tamaño de muestra. Sabemos por otros estudios que debe estar en torno al 10% (0.1 en tanto por 1). Queremos tener un radio del intervalo del 1%. Entonces la fórmula sería: n=4*0,1*0,9/0,0001=3600. El 0,0001 es por el 0,01 al cuadrado. La fórmula general en una variable dicotómica es, pues:

img_3388

24. Con esto hemos visto que el tamaño de muestra n en un caso de estimación de un valor poblacional, en un caso de un pronóstico poblacional, es una función de la DE y de la precisión requerida, expresada como el radio del intervalo de confianza. Sin estos dos valores no es posible determinar el tamaño de muestra requerido; o sea, expresado en forma funcional, podemos decir que n es función de DE y de r:

IMG_4909

25. Sorprende mucho a todo no estadístico que consulta por el tamaño de muestra que necesita (lo repito porque es muy importante que quede muy claro)  que precise de la DE antes de coger la muestra, porque es precisamente la muestra la que le acabará dando esa DE. Es aparentemente un círculo vicioso, pero es así. No hace falta tener un valor exacto pero sí aproximado de cuál será la DE con la que se encontrará. Esto puede llegar a saberlo por estudios previos equivalentes hechos por otros o mediante una muestra piloto, o premuestra.

26. Cuando el problema es determinar el tamaño de muestra en un contraste de hipótesis la situación es otra (Recordemos que en el punto 3 hemos visto que la determinación del tamaño de muestra es conveniente verla en dos ámbitos por separado). Entran en juego, ahora, muchos más elementos. En el caso, por ejemplo, de un contraste de la diferencia de medias tendríamos ahora una función de cuatro variables como la siguiente:

IMG_4910

donde alfa es el nivel de significación, 1-beta es la potencia, DE es, como antes, la Desviación estándar y d es la diferencia mínima que interesa detectar.

27. Una función, pues, que depende de cuatro factores, de cuatro valores. Necesitamos más cosas, pues, que antes. Veámoslas una a una: La primera, la alfa, es la menos problemática, es el nivel de significación, es el error de tipo I (Ver el artículo La noción de potencia estadística), solemos fijarla siempre en el valor 0.05.

28. La 1-beta es la potencia estadística (Ver, de nuevo, también, el artículo La noción de potencia estadística). Interesa que sea un valor alto. La beta es, como se puede ver también en ese artículo citado, el denominado error de tipo II, un error que no está fijado de antemano, como sí sucede con el error de tipo I, y que, por lo tanto, conviene conocerlo, puesto que para que el procedimiento de decisión sea bueno deben ser pequeños los dos tipos de error que se pueden cometer. La potencia suele aceptarse que a partir de 0.8 es ya una potencia considerable. Lo ideal, no obstante, sería tenerla de 0.95.

29. Con la DE pasa lo de antes, necesitamos buscar información de estudios similares o tomar una premuestra para saber aproximadamente cuál es su valor.

30. La d suele ser compleja. Al estadístico es lo que le cuesta más conseguir del profesional que necesita de la Estadística. Es, en el caso de tratarse de una comparación de medias, la diferencia mínima que interesa detectar, la diferencia mínima relevante desde el punto de vista médico, económico, lingüístico, etc. (Ver el Tema 9: Significación formal versus Significación material). Podríamos decir que esa d es el valor mínimo por el que tendría valor haber hecho la propia comparación. Un ejemplo, si se trabaja con pacientes hipertensos con media 160 y se ensaya un antihipertensivo se puede fijar una diferencia mínima a detectar de 20 (que baja a 140 la presión, como mínimo), puesto que si es menos de eso no será un buen antihipertensivo.

31. Existen fórmulas para casos específicos, como sucede con la siguiente fórmula para el Test de la t de Student de una muestra:

IMG_4551

32. Observemos que esta fórmula es interesante para entender todos los conceptos de los que estamos hablando en este tema. Hay en el numerador del cociente interior al paréntesis dos constantes: una que depende de la alfa y otra que depende de la beta. Dependen, pues, ambas constantes, del error que estemos dispuestos a cometer en el proceso de decisión. Cuanto menor sea alfa y beta más grandes serán esas constantes y, por lo tanto, mayor será el tamaño de muestra. Además, como puede verse perfectamente en esta fórmula, en un contraste de hipótesis la determinación del tamaño de muestra es una función de cuatro variables.

33. Existen aplicaciones diferentes muy bien diseñadas para poder elegir el tamaño muestral necesario para un estudio determinado. Pero es fundamental entender todo lo comentado en este Tema para poder usar esas aplicaciones y saber interpretar lo que obtenemos con ellas. Y es básico, además, porque en esta aplicaciones lo primero que te piden es elegir qué tipo de estudio (si comparación de proporciones, de medias, de Odds ratio, etc) y después qué DE tienes, la diferencia mínima a detectar, la potencia que quieres tener, etc.

34. Un enlace excelente para practica todo esto es el siguiente:

http://www.imim.es/ofertadeserveis/software-public/granmo/

35. Unos comentarios para el uso de este enlace. Cuando se comparan dos poblaciones se pide la relación entre los tamaños de muestra. Si es que conviene o es inevitable tener más muestra en una u otra población. Si no es así se añade un 1, que simboliza que puede ser el mismo tamaño muestra. También pide una previsión de los valores que pueden perderse al ir analizando. Esto está pensando para casos donde sea previsible perder un porcentaje de muestra más o menos previsible. Si no se prevé pérdida se pone un 0 en esta opción. Por otro lado el manejo es bastante sencillo. La alfa suele elegirse 0.05, la beta 0.2 ó menos (por lo tanto, potencia 0.8 ó más), la DE la que podamos saber o prever y la diferencia a detectar la mínima que uno está dispuesto a aceptar como relevante antes de empezar el trabajo.

36. Y ahora un breve comentario final a las situaciones de muestras de poblaciones finitas. Nos referimos a situaciones donde la población es pequeña y puede modificar el tamaño de muestra. Hasta ahora estábamos bajo el supuesto de poblaciones lo suficientemente grandes como para considerarlas infinitas.

37. Veamos una fórmula usual que nos ayudará a aclarar las cosas:

IMG_4988

38. Como puede verse es una modificación de una que hemos visto al iniciar este tema. La N es el tamaño de la población. Evidentemente si este valor es muy grande los dos cocientes donde participa se hacen tan pequeños que son insignificantes. Si, por el contrario, esta N es pequeña estos cocientes pueden modificar la n necesaria para tener un determinado tipo de precisión y deberemos tenerla en cuenta.

39. A continuación muestro una tabla donde se expresan los cálculos de estas n en condiciones diferentes (en función del radio r y del tamaño poblacional):

IMG_4987