Archivo de la categoría: COMPLEMENTOS

La estimación mediante el método de la máxima verosimilitud

En Estadística se manejan diferentes tipos de modelos para representar una determinada situación real: funciones de distribución, modelos de regresión lineal simple, regresión lineal múltiple, regresión logística, regresión de Cox, anova de un factor, de dos factores, etc. Estos modelos tienen parámetros.

Los parámetros son valores abstractos, por eso se representan mediante letras. Sin embargo, cuando nos enfrentamos a un caso concreto y tenemos una muestra concreta de una realidad, interesa estimar unos valores concretos de esos parámetros. Porque de esta forma el modelo sustituye a la realidad, el modelo se convierte en una maquinaria matemática, en una maqueta matemática de esa realidad.

Los parámetros son como las tallas de camisas o zapatos. Debemos elegir un valor concreto que nos vaya bien a nosotros.

Una vez tenemos un modelo con valores concretos de los parámetros tenemos la realidad representada matemáticamente. Si es, por ejemplo, una función de distribución normal, al calcular la media y la desviación estándar de la muestra y elegir una normal con sus dos parámetros esos dos valores, tenemos entonces una normal concreta que se convierte en una maqueta matemática de la distribución poblacional de la variable estudiada. Si es, por ejemplo, una recta de regresión ocurre lo mismo pero con otros parámetros. Así sucesivamente. Podemos tener modelos con muchos parámetros y necesitaremos muchas estimaciones. Pero el procedimiento siempre es el mismo. Necesitamos estimar los parámetros del modelo, las medidas del modelo que se ajusten a lo que vemos.

El método de estimación de la máxima verosimilitud (en inglés se denomina el maximum-likelihood estimation) es un método universal (universal porque es una filosofía, una forma de hacer aplicable a todos los modelos) de estimar parámetros en un modelo matemático. Es el más utilizado y cotizado.

Es cierto que en muchas ocasiones el estudiante se desmoraliza viendo la complejidad de la nomenclatura del método. Pero la idea es muy sencilla y trivial.

La idea del método es muy sencilla y básica. Es la siguiente: Tenemos una muestra y tenemos que elegir unos valores de los parámetros del modelo. Pues elijamos aquellos valores que hacen máxima la probabilidad de ver lo que estamos viendo en la muestra. Tan sencillo como esto. Ni más ni menos.

Supongamos un caso muy sencillo. Supongamos que queremos ver la prevalencia de una determinada enfermedad en una determinada población. Tomamos una muestra de tamaño 100 y vemos que tenemos 7 personas con tal enfermedad. Un modelo matemático para representar la prevalencia de esa enfermedad en esa población es una distribución Bernouilli que suele escribirse como B(p) (Ver el artículo Funciones de distribución en el apartado de Complementos).

Tomar como modelo concreto la distribución Bernouilli B(0.07) es aplicar, de hecho, el método de la máxima verosimilitud. Porque observemos que si tomamos una muestra de tamaño 100 y observamos 7 enfermos, estamos haciendo, en realidad, una observación de una distribución Binomial y podemos crear, así, la siguiente función de p:

IMG_5380

Y esta es una función de una variable, la variable p. Parece coherente elegir como estimación de p el valor que haga máximo ese valor. Si representáramos esta función veríamos curiosamente que donde se produce el máximo es justo encima del valor 0.07:

IMG_5381

Es por esto que 0.07 es la estimación de máxima verosimilitud en este caso y, en general, en una muestra de una variable dicotómica siempre que calculamos, como estimación del parámetro p, el tanto por uno de observaciones vistas de uno de los dos resultados posibles de la variable, estamos aplicando el estimador de máxima verosimilitud.

Así sucede en todos los modelos. Siempre tenemos un estimador máximo verosímil. Y este método de estimación, esta filosofía de estimación, es la más usual en Estadística.

Comparación entre técnicas de comparaciones múltiples

Es muy interesante comparar las principales técnicas de comparaciones múltiples (LSD de Fisher, BSD de Bonferroni, HSD de Tukey, Duncan, Newman-Keuls y Scheffé). Todas ellas funcionan, como puede verse, buscando un umbral, fijo o móvil, a partir del cual establecer si hay diferencia significativa o no entre todas las posibles comparaciones múltiples. Para hacer una comparación veamos el umbral de cada una de ellas (Ver también el Herbario de técnicas para ver con más detalle de donde sale cada uno de estos umbrales):

IMG_5015

Veamos la aplicación de estas distintas técnicas a unos mismos datos. Se trata de una caso de un ANOVA de un factor a tres niveles fijos con los siguientes datos y con la siguiente tabla ANOVA:

IMG_5014

Este ANOVA ha resultado significativo. El p-valor es 0.0001. Por lo tanto, sabemos que no son iguales los tres niveles, porque rechazamos la Hipótesis nula de igualdad de medias entre los tres niveles. Sabemos, pues, que no son iguales, pero lo que no sabemos todavía es cuáles son las diferencias. En nuestro caso no sabemos si son los tres niveles distintos o si son dos iguales y uno tercero es el que es diferente.

Para responder a esta duda es para lo que disponemos de estas técnicas de comparaciones múltiples que estamos ahora comparando. Voy a aplicar, a continuación, a los mismos datos, los diferentes métodos de comparaciones múltiples que estamos viendo:

IMG_5013

Podemos ver que no todos dan lo mismo. Podemos ver que el Test de Bonferroni, el de Tukey y el de Scheffé son más conservadores, les cuesta más ver diferencias.

Cuando las cosas son claras todas las comparaciones múltiples dan el mismo perfil. Cuando las cosas son dudosas es cuando observaremos diferencias entre los perfiles aportados por uno u otro método de comparaciones múltiples. Cada uno tiene su particular exigencia a la hora de establecer una diferencia significativa entre dos medias. Pero, repito, si las cosas son muy claras todos acaban dibujando el mismo perfil.

Ejemplo de determinación del tamaño de muestra

Veamos un ejemplo en un artículo científico de cómo se cita la determinación del tamaño de muestra:

IMG_4979

Al calcular el tamaño muestral en un estudio con una variable dicotómica, como la de este trabajo: mortalidad (La gente tratada o no tratada se valora si muere o no muere después de un tiempo determinado), se necesita tener un valor estimado de la proporción de uno de los grupos. En este caso hablan del grupo control y dicen que anticipan que debe ser del 45%.

Establecen un error alfa (Aceptar la Hipótesis alternativa siendo cierta la Hipótesis nula) del 0.05 y un error beta (Aceptar la Hipótesis nula siendo cierta la Hipótesis alternativa) del 0.2. Digo 0.2 porque dicen que la potencia es al menos del 80% (=0.8, en tanto por uno).

Normalmente el error alfa se coge de este orden, 0.05, y el error beta de 0.2 ó menor. El que se tome un error beta superior al alfa es por la razón de que es más grave, en Ciencia, rechazar una Hipótesis nula cierta que no aceptar una Hipótesis alternativa cierta.

Consideran que para detectar una reducción del 20%; o sea, pasar del 45% del control al 36% del grupo de los tratados (El 20% de 45 es 9; si a 45 le restamos 9 tenemos 36), con estos errores alfa y beta.

El artículo dice que esto valdría para incluso que al final el valor de la mortilidad del grupo control sea del 37%. Y, como mínimo, se considera que la reducción de la mortalidad entre los tratados debe ser del 20% estaremos pasando de un 37% del grupo control a un 29.6% de los tratados (El 20% de 37 es 7.4; si a 37 le restamos 7.4 tenemos 29.6).

Vamos estos cálculos hechos con el calculador del link que aparece en el tema dedicado a la Determinación del tamaño de muestra.

Primero veamos la muestra que se requiere si el control tuviera el 45% y el tratamiento al menos con una reducción del 20%:

IMG_4980

Para esto necesitaríamos 466 valores de cada grupo, como puede leerse en el calculador.

Veamos qué pasaría si el grupo control tuviera una mortalidad del 37%:

IMG_4981

Ahora el tamaño de muestra necesario sería 635 por grupo.

Ellos en el artículo dicen 1200 (600+600). En realidad, en este caso más bajo, si la proporción del control fuera del 37% y hubiera una reducción del 20%, debería tomarse una muestra de tamaño 1270 entre los dos grupos.

Planteamiento de situaciones para aplicar el ANOVA

1) Se quiere saber si existen diferencias entre tres localidades concretas (1, 2 y 3) en el peso del insecto Tribolium castaneum. Se recogen muestras de estas tres localidades, obteniéndose los siguientes resultados:

IMG_4924

Se quiere ver si hay diferencias significativas en cuanto al peso de este insecto entre las tres localidades.

1 bis) Se quiere saber si existen diferencias entre localidades en cuanto al peso del insecto Tribolium castaneum. Se recogen muestras de tres localidades elegidas al azar, entre las muchas donde se encuentra este organismo, obteniéndose los siguientes resultados:

IMG_4924

Se quiere ver si hay diferencias significativas en cuanto al peso de este insecto entre localidades.

2) De las siete posibles discordancias entre alelos de HLA se ha realizado un estudio del tiempo hasta el rechazo de un trasplante de riñón. Los resultados obtenidos son los siguientes:

IMG_4925

(Cada columna tiene en su cabecera el número de discordancias entre los seis alelos (de 0 a 6), debajo constan el tiempo hasta el rechazo, expresado en años)

¿Podemos decir que hay diferencias significativas entres los distintos niveles de discordancias?

3) Se ha realizado un estudio clínico para ver si las vitaminas A y E mejoran la resistencia de la mucosa ante la afonía. Para ello se han seleccionado 12 profesores con problemas de afonía y con un nivel de resistencia de la mucosa muy similar. Se han distribuido en cuatro grupos. Durante tres meses un grupo tomó placebo, otro sólo vitamina A, otro grupo sólo vitamina E y finalmente el cuarto grupo tomó vitamina A y vitamina E conjuntamente. Se midió un índice de resistencia de la mucosa que va del 0 al 100. Los resultados obtenidos fueron los siguientes:

IMG_4926

¿Qué conclusiones podemos obtener de estos datos?

4) El asma bronquial es una enfermedad alérgica cuya virulencia depende de la estación. Se desean comparar tres fármacos antihistamínicos A, B, C en las cuatro estaciones del año. Se toma una muestra de 48 personas con asma crónico de intensidad análoga, que se divide en 12 grupos, uno para cada fármaco y estación, a razón de 4 enfermos por grupo. Los resultados se evaluaron en una escala objetiva que iba de 0 a 100 y fueron los siguientes:

IMG_4927

¿Qué conclusiones podemos obtener de estos datos?

4 bis) El asma bronquial es una enfermedad alérgica cuya virulencia depende de la estación. Se desean comparar los fármacos antihistamínicos para ver si hay una variabilidad significativa entre ellos. Se elige una muestra de tres antihistamínicos (A, B y C). Se toma una muestra de 48 personas con asma crónico de intensidad análoga, que se divide en 12 grupos, uno para cada fármaco y estación, a razón de 4 enfermos por grupo. Los resultados se evaluaron en una escala objetiva que iba de 0 a 100 y fueron los siguientes:

IMG_4927

¿Qué conclusiones podemos obtener de estos datos?

5) En una planta de producción trabajan 50 empleados y hay 25 máquinas. Existen dos turnos de trabajo. Es muy importante la rapidez en la que se elaboran unas piezas. Se quiere valorar si existe diferencia en el tiempo de producción según empleado, según máquina y, también, se quiere saber si los empleados trabajan más o menos rápido según la máquina con la que trabajen. Se eligen tres empleados al azar y tres máquinas también al azar. Se mide el tiempo, en segundos, que tardan en elaborar tres piezas cada empleado en cada máquina. Los resultados son los siguientes:

IMG_4928

¿Qué conclusiones podemos obtener de estos datos?

6) Se quiere estudiar la contaminación por dióxido de azufre durante el verano en una zona del Montseny. El análisis se hace en tres días tomados al azar en el mes de Julio y tres días también tomados al azar en el mes de Agosto. En cada día designado se toman cuatro registros de la variable y los resultados son los siguientes:

IMG_4970

¿Qué podemos concluir a partir de estos datos?

¿Qué cambios se producirían en el planteamiento si los tres días de Julio y los tres de Agosto se han tomado buscando que fueran: uno soleado, otro parcialmente nuboso y otro completamente nuboso?

7) Los cigarrillos producen cantidades apreciables de monóxido de carbono. Cuando se inhala el humo del cigarrillo, el monóxido de carbono se combina con la hemoglobina para formar carboxihemoglobina. En un estudio reciente ( Carbon monoxide and exercise tolerance in chronic bronchitis and emphysema, Brit.Med.J. 283(1981) 877-880, Calvery,M.A. y otros) los investigadores deseaban determinar si una concentración apreciable de carboxihemoglobina reduce la tolerancia al ejercicio en aquellos pacientes que sufren de bronquitis crónica y enfisema. Se seleccionaron 7 pacientes y en un ambiente controlado, se les pidió que caminaran durante 12 minutos respirando cada una de las siguientes combinaciones gaseosas: aire, oxígeno,aire más monóxido de carbono y oxígeno más monóxido de carbono (respectivamente A,B,C,D). La cantidad de monóxido de carbono respirado fue suficiente para elevar la concentración de carboxihemoglobina de cada sujeto en 9%. Para controlar el consumo de monóxido de carbono, se pidió a los siete fumadores que dejaran de fumar 12 horas antes del experimento. Los datos representan las distancias caminadas por los sujetos (en m.) en los 12 minutos para cada condición experimental.

IMG_4929

Estudiar si las diferencias entre las mezclas gaseosas son significativas.

8) Se ha medido la longitud del ala en dos especies de Drosophilla : melanogaster y simulans, mantenidas en condiciones de laboratorio. Las mediciones se hicieron en poblaciones capturadas en dos áreas de interés especial Los resultados fueron los siguientes :

IMG_4930

¿Qué conclusiones podemos obtener de estos datos?

 9) Se desea comparar el efecto de dos fármacos antidepresivos concretos. Se eligen 4 hospitales concretos que también nos interesa comparar. Cada hospital ensaya sólo un fármaco. Dentro de cada hospital se eligen 5 pacientes al azar. Se mide el grado de efectividad del fármaco de acuerdo a una variable que recoge la mejoría del estado después de la administración del fármaco. Se considera normalidad para la variable observada y homocedasticidad. Los datos obtenidos son:

IMG_4931

¿Qué conclusiones podemos obtener de estos datos?

10) Se toman 15 exámenes al azar de una misma materia de las PAAU  y  se eligen, también al azar, 3 correctores. Estos 15 exámenes se dividen al azar en tres grupos de 5. De cada uno de estos exámenes se hace una copia. Después, cada grupo de cinco exámenes, con sus copias, se mezcla junto con 200 exámenes más que tiene que corregir cada corrector, de modo que cada corrector habrá corregido dos veces cada uno de los cinco exámenes seleccionados al azar para él, sin saberlo, evidentemente. Las notas que los profesores han proporcionado de los 15 exámenes seleccionados han sido las siguientes:

IMG_4932

¿Qué conclusiones podemos obtener de estos datos?

11) En una zona que ha padecido recientemente una fuerte contaminación se desea estudiar la concentración de un determinado elemento. Después de ciertos análisis se supone una media de alrededor de 30 unidades. Sin embargo, una concentración superior a 37 unidades supondría un tóxico letal para la fauna que entrara en contacto. Algún científico desplazado para el estudio opina que sólo un 1% de la zona puede presentar tal concentración. No contentos con dicha afirmación, deseamos realizar un experimento con el fin de contrastar las opiniones del científico. Para ello se toman muestras de 3 zonas tomadas aleatoriamente en la zona global afectada. De cada zona se toman muestras de 2 subzonas y se realiza análisis y contraanálisis, puesto que sospecha de una cierta variabilidad en la toma de la medida. Los datos obtenidos son:

IMG_4933

¿Qué conclusiones podemos obtener de estos datos?

12) Se ensayan tres tipos de motor de coche (A, B, C), con tres tipos de ruedas (P, Q, R) y con tres tipos de asfalto (M, N, O) para ver qué factor tiene una mayor influencia en  el consumo de un tipo de gasolina durante 100 km a una velocidad constante. Para ello si diseña un experimento en cuadrados latinos y se obtienen los siguientes resultados:

IMG_4934

¿Qué conclusiones podemos obtener de estos datos?

 13) Tenemos 30 alumnos que al final de sus estudios de primaria y antes de comenzar la ESO se les hace una prueba homologada de nivel de inglés escrito y de nivel de inglés oral. A continuación se distribuyen en tres grupos en un centro de bachillerato donde se va a realizar un experimento didáctico durante toda la ESO. Los primeros 10 (el grupo 1) van a un grupo Control donde realizarán la formación de inglés clásica en una asignatura anual de inglés cada uno de los cuatro cursos. El grupo 2 se integra en un grupo donde se realizan dos horas más semanales de inglés, pero mediante el método clásico. El grupo 3 se integra en un grupo donde cada año van a tener una asignatura (Biología, Física, Matemáticas, etc.) en inglés. Aunque en el centro son muchos los alumnos distribuidos de esta forma se ha hecho un seguimiento focalizado de estos 30 alumnos. (En realidad, esto se podría hacer con todos los alumnos pero lo supongo así para que el número de datos a manejar sea más pequeño y se pueda apreciar, mirando los datos, lo que las técnicas van mostrando).

Estos alumnos integrados en sus grupos respectivos van a ser sometidos a un examen de inglés oral al final de cada curso: IO1, IO2, IO3 e IO4.

De los 10 alumnos de cada grupo se han tomado 5 con un nivel de aprobado únicamente de primaria y otros 5 con un nivel de notable o sobresaliente de primaria. Son los dos grupos de la columna encabezada como Nivel.

Los datos son los siguientes:

Captura de pantalla 2015-10-01 a las 7.36.21

¿Qué conclusiones podemos obtener?

La distribución hipergeométrica

La distribución hipergeométrica es la distribución que sigue la siguiente situación de incertidumbre: Tenemos N posibles observaciones, distribuidas en dos tipos distintos, en proporción r y N-r, y donde realizaremos n observaciones sin repetición. La incertidumbre es ver cuántas de estas n observaciones que tenemos son de un tipo o del otro.

La distribución hipergeométrica paradigmática es la de extracciones de una urna con bolas (N) de dos colores en una determinada proporción (r y N-r), de la que se extraen bolas (n) sin reemplazamiento y se pretende ver la probabilidad de una determinada combinación.

La función de densidad y la función de distribución de la distribución hipergeométrica es la siguiente:

IMG_4953

Veamos un ejemplo con la situación paradigmática de urna y bolas de dos colores:

IMG_4967

Existen tablas para valores concretos de N, de r y de n. Pero ocupan muchas páginas por la necesidad de ir combinando tres parámetros al mismo tiempo.

Para ver cómo funcionan las tablas aquí va la primera página. En ella se contemplan las situaciones en las que N es igual a 2, a 3, a 4, a 5 y a 6. El 7 no está completo:

IMG_4968

Debe tenerse en cuenta que son tablas donde aparece el acumulado.

Para practicar un poco cuelgo el fragmento de la tabla donde poder calcular las probabilidades del ejemplo anterior. Nuestro caso tenía los siguientes parámetros: N=10, r=4 y n=4. Está enmarcada la zona de las probabilidades buscadas, para x=0, x=1, x=2, x=3 y x=4:

IMG_4969

Para x=0, como puede verse, la probabilidad es 0,0714. Para x=1 hay que restarle a 0,4524 el valor de x=0. Será pues: 0,4524-0,0714=0,381. Para x=2 hay que restarle a 0,8810 el valor de x=1. Sólo este, porque en él ya está contemplado el valor x=0. Será pues: 0,8810-0,4524=0,4286. Y así podemos ir obteniendo las probabilidades de cada una de las posibles situaciones, obteniendo los valores vistos en el ejemplo anterior.

La distribución F de Fisher

La distribución F de Fisher es una distribución que depende de dos parámetros. Es una distribución que aparece, con frecuencia, como distribución de un estadístico de test, en muchos contrastes de hipótesis bajo las suposiciones de normalidad. Por ejemplo, todos los contrastres ANOVA (Ver Herbario de técnicas).

Su tabla es compleja porque al depender de dos parámetros complica su diseño. Se acostumbran, pues, a publicar tantas tablas como niveles de significación interese manejar. Aquí adjunto la del 0.05, la del 0.01 y la del 0.001:

IMG_4838

IMG_4839

IMG_4840

La distribución ji-cuadrado de Pearson

La distribución ji-cuadrado tiene un único parámetro. Es una distribución muy importante en muchos ámbitos de la Estadística. Es una distribución muy usada en muchos test estadísticos. Además, es habitual tanto en tests paramétricos como en tests no paramétricos. Es muy importante saber manejarla con soltura.

Veamos la tabla de esa distribución en función de los valores de su parámetro que aparecen en la primera columna encabezados por la letra v. Veremos dos tablas. En la primera se nos muestra valores a partir de los cuales tenemos las áreas señaladas en la primera columna: 0.9999, 0.9995, etc. El valor de la intersección de fila con columna es el valor a partir del cual hay una área señalada en el valor de arriba en una distribución ji-cuadrado con valor del parámetro el valor que hay en la izquierda. Por ejemplo, en una ji cuadrado de parámetro 5, a la derecha de 1.1455 hay un área de 0.95:

IMG_4836

Esta primera parte de la tabla es importante para controlar el lado izquierdo de la distribución ji-cuadrado, la zona próxima a cero. Y la siguiente parte es para controlar el lado derecho de la distribución. La lectura es la misma. Un ejemplo: En una distribución ji-cuadrado de parámetro 5 a la derecha del valor 11.0705 hay un área de 0.05:

IMG_4837

Ejemplos de uso de esta tabla en casos concretos pueden verse en el Tema 8: Relación entre variables cualitatitcas. Y también en el artículo «Un ejemplo de Test de McNemar en Medicina» en la sección Estadística y Medicina.

La distribución t de Student

La distribución t de Student tiene un único parámetro. Recuerda su forma mucho a la de una campana de Gauss, sin serlo. Siempre está centrada en el cero y lo que cambia es la dispersión. Es muy importante saber manejar las tablas de esa distribución porque en muchos contrastes de hipótesis en Estadística la distribución del estadístico de test utilizado sigue esta distribución.

Veamos las tablas de esta fundamental distribución:

IMG_4835

Funciones de distribución

1. Una función matemática es un tipo de relación establecido entre dos o más variables. Cuando escribimos y=f(x) estamos estableciendo una relación entre la variable “x” y la variable “y”.

2. Una de las peculiaridades de la funciones matemáticas es que pueden ser usados como modelos de relaciones entre variables reales.

3. En Estadística las funciones matemáticas más utilizadas como modelos son las llamadas funciones de distribución.

4. Las funciones de distribución son modelos de la variabilidad, modelos de la forma de la variación que tiene una variable. En esas funciones la variable «x», en la típica estructura de una función: y=f(x), son los valores que se pueden dar de la variable estudiada y los valores de la variable «y», son la probabilidad de que se den; o sea, la abundancia relativa de ese valor en la población.

5. Las funciones de distribución, como su nombre indica, son representaciones de cómo, potencialmente, puede distribuirse una variable. Y no lo olvidemos: son funciones matemáticas. No son variables reales como la altura, el peso, el número de hermanos, el ser hombre o mujer, etc. Lo que sucede es que se han construido de tal forma que pueden actuar de maquetas de esas variables reales, porque modelizan bien su variabilidad.

6. Es evidente que no se distribuye de la misma forma una variable como el número de hermanos que tiene una persona, su altura, el sexo o el grado de dolor que tiene una persona tras una cirugía.

7. La normal, la binomial, la Poisson, la Bernouilli, la exponencial, etc., son distintas distribuciones, distintas formas de dibujar, matemáticamente, a través de una función, la variabilidad con la que se nos presentan las variables que estudiamos.

8. La modelización estadística, en general, consiste en la representación de una situación estadística real mediante un modelo matemático.

9. Una de las modelizaciones estadísticas más usuales es la de la variabilidad de una variable mediante una función de distribución.

10. El contraste de hipótesis de la modelización estadística es siempre: H0: El modelo se ajusta a la realidad. H1: El modelo no se ajusta.

11. En el caso concreto de una función de distribución el contraste es: H0: La variable sigue una distribución determinada. H1: No la sigue.

12. Por ejemplo, es muy habitual en Estadística el contraste siguiente: H0: La variable sigue una distribuión normal. H1: No la sigue.

13. Estos contrastes siguen la misma operatividad que siguen todos los contrastes de hipótesis estadísticos: una muestra y una técnica que decide, proporcionando un p-valor, si tiene sentido, a la luz de lo que dice la muestra, mantener la hipótesis nula o si debemos rechazarla y aceptar la alternativa.

14. Todas las técnicas estadísticas cuyos contrastes de hipótesis ajustan una función de distribución a unos datos se denominan técnicas bondad de ajuste a una distribución. En la sección Herbario de técnicas se pueden consultar varias de ellas.

15. Vamos a ver a continuación las distribuciones más usadas como modelos de la variación. En la siguiente tabla podemos ver el nombre de la distribución, la nomenclatura habitualmente usada y su función de densidad:

IMG_4547

16. Es importante conocer cuál es la esperanza y cuál es la varianza de cada una de estas distribuciones. De esta forma tenemos un valor de referencia de cada una de ellas: el valor promedio y la dispersión de sus valores:

IMG_4548

17. Y estas distribuciones tienen, evidentemente, unas formas peculiares. Las tres primeras sólo tienen probabilidad valores enteros (son distribuciones discretas), las otras dos tienen probabilidad intervalos reales (son distribuciones continuas). Las dos primeras además de ser discretas son finitas (sólo tienen probabilidad un número finito de valores: dos la distribución Bernouilli y n+1 la distribución Binomial. Es la peculiar forma de cada una de ellas lo que nos sirve de modelo de la variabilidad. Veamos la forma general de cada una de estas distribuciones:

IMG_4550

18. Los parámetros de cada distribución, que son las letras entre paréntesis en la nomenclatura de la distribución, son como las tallas del modelo. Una vez adaptada (ajustada, solemos decir los estadísticos) una distribución a una variable real conviene seleccionar el valor más adecuado del parámetro, o de los parámetros, a los datos que se tienen de la variable en la muestra. Esto es como cuando compramos unos zapatos, primero elegimos el modelo y luego la talla. Con la talla buscamos un ajuste del zapato a nuestro pie. Pues esto también hacemos con las distribuciones.

19. Entre la distribución Binomial, la Poisson y la Normal existen posibilidades de usar unas por otras en determinadas circunstancia. Esto se basa en el hecho de que en esas circunstancias en las que es posible la aproximación los contornos, las formas, la distribución de probabilidades, se aproxima mucho entre ellas. Y muchas veces calcular áreas mediante una distribución Binomial o una Poisson es largo y pesado, en cambio pasar a una distribución es muy sencillo y rápido.

20. Veamos a continuación el mapa de estas aproximaciones:

IMG_4553

21. Las aproximaciones son, como puede verse, de la Binomial a la Poisson, de la Binomial a la Normal y de la Poisson a la Normal. En rojo están las condiciones en las que esto es posible. Y en negro están cómo se calcula el parámetro o los parámetros de la nueva distribución a partir del parámetro o de los parámetros de la antigua.

22. Como se puede ver la distribución normal es finalmente una distribución muy utilizada tanto como representación de la variabilidad de una variable en la naturaleza, porque muchas variables tienen un compartamiento de campana de Gauss, y porque muy frecuentemente otras distribuciones (la binomial y la Poisson) se pueden aproximar a una normal y los cálculos en ésta son mucho más sencillos.

23. Para ver con detalle las peculiaridades de la distribución normal puede consultarse el artículo dedicado a ella. Allí se podrá comprobar el uso de las tablas de la normal.

24. Alguien pensará: ¿Y la distribución t de Student? ¿Y la distribución F de Fisher? ¿Y la distribución ji-cuadrado de Pearson? Estas no son distribuciones usadas como modelo de la variación. Pero son muy importantes en Estadística, evidentemente. Son usadas continuamente. Pero son usadas como distribuciones de estadísticos de test en ciertos contrastes.

25. Estas tres distribuciones (la t de Student, la F de Fisher y la ji-cuadrado de Pearson) se les denomina distribuciones derivadas de la normal, porque son las distribuciones de ciertos estadísticos si la variable de estudio es una distribución normal.

26. Veamos un caso de aplicación de una distribución Binomial:

IMG_5206

27. Veamos, ahora, un caso de aplicación de una distribución Poisson:

IMG_4562

28. Veamos un caso de una distribución Normal (Ver el artículo dedicado a la Distribución normal donde se explican la estandarización y el uso de la tabla de la N(0, 1)):

IMG_4563

29. Para ver cómo se maneja la tabla de la distribución normal para poder calcular esas áreas puede consultarse el artículo dedicado a esa distribución.

30. Y ahora un caso de aplicación de una distribución Exponencial:

IMG_4565

31. Veamos a continuación dos problemas donde se usa la posibilidad de aproximar una función de distribución por otra función de distribución. Las aproximaciones que usaremos son las vistas en el cuadro descrito en el punto 20. Veremos que en el caso de usar una aproximación de una función Binomial o Poisson mediante una distribución Normal, es recomendable hacer una corrección por aproximación de una distribución discreta por una distribución continua.

IMG_5266

32. Esta corrección por aproximación, como podemos ver en el apartado 2 del problema anterior, es importante. Puede comprobarse, porque esta resuelto sin aplicar y aplicando la corrección, que el resultado cambia sensiblemente. Para entender este concepto pensemos que estamos calculando la probabilidad de que el valor sea igual o superior a 120. Si lo calculamos mediante la distribución Normal calculamos área a partir sólo del 120, dejando el espacio del 119 al 120 como área sin contar. Se suele coger desde la mitad de estos valores para que una mitad vaya a un lado y la otra mitad al otro. Se consiguen así mejores aproximaciones.

33. Veamos el otro problema de aproximaciones de una distribución por otra distribución:

IMG_5267

34. Obsérvese que ahora, como lo que se pide es la probabilidad de ser mayor estricto a 12, la corrección se aplica contando el área a partir de 12, porque en realidad es como si tuviéramos que calcular la probabilidad de que la variable discreta fuera igual o mayor que 13.

Una clase transcrita: «Introducción a la noción de distribución»

        Vamos a empezar hoy la clase jugando: Voy a pensarme un número entero del 1 al 100. ¡Ya lo he pensado! Ahora se trata de que vosotros lo adivinéis a base de preguntas que me podéis ir haciendo, y a las que yo puedo contestar únicamente: sí o no.

        Seguro que inmediatamente se ha generado en vosotros un estado de duda: «¿Qué número será?» Vamos a intentar representar este estado de duda mediante una función matemática. Sí, digo bien, mediante una función matemática.

         Recordemos -pues se trata de un concepto fundamental- que una función, en matemáticas, es una regla mediante la cual a todo elemento de un conjunto, llamado dominio, se le asigna un único elemento de otro conjunto, llamado recorrido o codominio. Algo tan sencillo y a la vez tan complejo como eso. De hecho es lo que empezasteis a estudiar en la primaria. Recordad.

         Como vosotros no me conocéis, tampoco debéis de conocer mis preferencias en cuanto a números, por lo tanto, es coherente representar vuestro estado de duda con una función que asigne un valor constante; o sea, que asigne el mismo valor a todos los números que yo puedo haber pensado: 1, 2, 3, … , 100. A los que no pueden ser les asignaremos, también a todos ellos, el mismo valor y distinto al anterior. Además, una función definida en los números reales, que a los números que no puedo haber pensado les asigne el cero y a los que, por el contrario, sí pueda haber pensado, les asigne un valor distinto del cero, parece ciertamente coherente para modelar este estado de duda.

         No perdamos de vista lo que en realidad estamos haciendo. Estamos intentando traducir a lenguaje matemático lo que está en vuestra cabeza, vuestro estado de duda. Estamos traduciendo un estado, digamos, cerebral a un lenguaje matemático. Estamos creando una maquinaria construida con piezas matemáticas: conjunto de los números reales, función, etc., para utilizarla como un dibujo de un estado real.

         Asignemos el valor que asignemos a los números 1, 2, 3, … , 100, con la condición que sea el mismo para todos y distinto de cero, estaremos reflejando de forma abstracta este estado de duda generado con el juego. Pero por convenio podemos adoptar la siguiente opción: les daremos un valor encaminado a que la suma de todos ellos resulte ser uno. Podríamos adoptar otros convenios, por ejemplo que la suma fuera cien, veintiuno o treinta y dos. Pero para situarnos dentro de una teoría generalmente adoptada, que veremos más adelante, adoptaremos el uno, por lo que la posibilidad, de cada uno de los números factibles, la representaremos en tanto por uno. En nuestro caso, a cada uno de los números posibles le asignaremos el valor 1/100, para que la suma de los cien valores sea uno.

         Por lo tanto, la función creada tiene una forma como la que sigue:

 IMG_4555

         Si ahora se me hace alguna pregunta, mi respuesta posiblemente cambie el estado de duda y por consiguiente también la función que lo trata de representar o modelar. A ver, ¿quién me hace una pregunta?

         – ¿Es un número par?

         Me preguntan si se trata de un número par. Yo respondo: ¡No!.

         Fijaos: Al responder que no a la pregunta de vuestro compañero, automáticamente se produce un cambio de estado de duda en vosotros. ¿Cómo reflejar esta transformación mediante lenguaje matemático? Es como si, de repente, en la función anteriormente creada, los palos de los números pares se encogieran hasta el cero y los de los números impares ascendieran recogiendo lo que los pares han dejado. Como la altura total debe ser uno, si unos números ceden altura otros la deben de tomar para sí. Tendremos, pues, ahora, una nueva función: los números impares del 1 al 99 tendrán asignado el valor 1/50 y el resto el cero. La función será la siguiente:

 IMG_4556

         Sucesivamente, si se me van preguntando cosas, se irá haciendo cada vez más concreta la función hasta que finalmente la posibilidad esté toda concentrada en un único número, justo el que había pensado inicialmente.

         Cada estado de duda tiene su función matemática que lo puede representar. Esto es lo fundamental.

         Supongamos que estamos de nuevo en la posición inicial. No me habéis hecho ninguna pregunta todavía. Os pido ahora que me hagáis una pregunta tal que mi respuesta genere en vosotros un estado de duda que, para ser representado matemáticamente, necesite la creación de un modelo, de una función, donde los valores con posibilidad no tengan todos la misma, como sí ha ocurrido en el caso anterior. ¿Me entendéis?

         Venga, pues. ¿Quién se atreve?

         – ¿Tiene dos cifras el número?

         Mira. Fíjate que si yo respondo que sí todos los números que están formados por una única cifra pasan a tener probabilidad cero, pero entre todos los demás no tienes ninguna razón para dar más probabilidad a unos o a otros. ¿Te das cuenta?

         Venga, pues. Otra pregunta.

         – ¿Es número primo?

         Tampoco. Fíjate. Si yo te digo que no, ¿qué ocurre? ¿Cómo modelarías vuestro estado de duda? Todos los números que no fueran el 1, 2, 3, 5, 7, etc, que son los números primos, todos ellos tendrían la misma probabilidad y yo pido, fíjate bien, una pregunta que mi respuesta origine la necesidad de crear un modelo en el que los números posibles no tengan la misma posibilidad.

         -¿Es un número próximo al 50?

         ¡Exacto!.¡Perfecto! Esto es lo que quería. Yo a esta pregunta respondo que sí. Entonces: ¿Cómo dibujar mediante una función vuestro estado de duda actual? Observad bien que ahora todos los números siguen teniendo algo de posibilidad, pero los centrales, los próximos a 50, tienen más posibilidad, porque yo he respuesto que sí a la pregunta de vuestra compañera. El problema es que, según la idea de proximidad que tenga cada uno de los participantes en el juego, la función será distinta. Pero tendrán todas ellas algo en común: la unidad de posibilidad a repartir estará más concentrada en valores centrales y cuanto más nos alejemos del centro más deberá disminuirse la altura o los valores asignados a aquellos números. Una posible función de las muchas posibles sería la siguiente:

 IMG_4557

         ¿De acuerdo? ¿Me habéis seguido? ¿Alguna duda?… ¿No?

         Cambiemos de juego. Si lanzamos al aire una moneda, la situación es parecida, pero más sencilla de modelar matemáticamente. Estamos de nuevo ante una situación de incertidumbre porque hay variabilidad de valores posibles. Una variabilidad más pequeña que antes, pero lo cierto es que antes de lanzar no sabemos el resultado que vamos a obtener. Fijaos que si a cara le asigno el valor 0 y a cruz el 1, antes de lanzar la moneda parece coherente dibujar el estado de duda, acerca de cuál será el desenlace del juego, mediante una función que asigne un valor de 1/2 al 0, de 1/2 también al 1 y cero al resto de los números reales. Por lo tanto, esta función será una traducción a lenguaje matemático de un estado mental.

         Puesto que ahora, después de haber hecho todo lo que hemos hecho, puede que ya os empiece a gustar este inesperado uso de unos conceptos matemáticos que creíamos muy alejados de la realidad, vamos a intentar representar, mediante lenguaje matemático, otra situación. Supongamos que queremos pronosticar la altura que tendrá la primera persona que pase por la calle cuando salgamos. Alturas nos podemos encontrar desde un mínimo si es que pasa un niño, hasta un máximo que lo podemos cifrar en la altura máxima en humanos. Pero las posibilidades sabemos que no son las mismas para esta enorme variedad de alturas con las que en potencia podemos encontrarnos. Fijémonos que la popular campana de Gauss puede reflejar esta situación. Un buen dibujo del estado de duda generado ahora sería una función en forma de campana que tuviera el máximo próximo al número que prevemos que sea la altura media de la población en la que estamos realizando el juego. Y si queremos ser más precisos, la altura media de los que pueden circular por aquella calle y a aquella hora.

         Esta situación última es un poco más sofisticada que las anteriores, pero esencialmente la misma. En definitiva, utilizamos estructuras matemáticas para reflejar estados reales, para reflejar la organización de la variabilidad, para dibujar nuestra incertidumbre. Esta  perspectiva de la matemática puede sorprender de entrada, pero debemos ver que toda la metodología utilizada en los estudios secundarios es parte de un contexto más general donde existe una serie de estructuras matemáticas que tienen su dimensión aplicada.

         La variabilidad la encontramos en todas partes. La longitud de un organismo cualquiera, el peso, cualquier medida que estudiemos en él. El tiempo de vida de un organismo, de una lámpara. El número de coches que irá a una gasolinera en una hora, el número de llamadas telefónicas a un determinado número en un día. Todas éstas son situaciones donde se presenta variabilidad. Mediante funciones como las que hemos visto y como las que iremos viendo a lo largo del curso intentaremos  modelar esta variabilidad.

         La estadística es el estudio de la variabilidad. Es el estudio de la variabilidad realizado mediante las herramientas aportadas por las matemáticas. Donde hay variabilidad la estadística tiene algo que decir. Las situaciones que hemos planteado anteriormente son situaciones de variabilidad. Variabilidad de números que yo he podido pensar, variabilidad de los resultados posibles en el lanzamiento de una moneda, variabilidad de alturas en una población.

         La estadística es, pues, el arte de utilizar estructuras matemáticas para responder a preguntas acerca de la variabilidad que hay en una población, en una población que se nos escapa por enorme o por impredecible. Estas imágenes con las que hemos empezado son una caricatura, pero una caricatura de lo que es en realidad la actividad estadística. Además, estas imágenes recogen bien los rasgos fundamentales sobre los que descansa este esfuerzo de decir cosas de un todo a partir de una pequeña parte de este todo.

         Podemos distinguir como mínimo dos mundos: En primer lugar, el de nuestra realidad, de las cosas que nos rodean; o sea, el mundo de los animales, de los vegetales, de las bacterias, de los hombres y de todos nuestros objetos. En segundo lugar, el mundo de los objetos matemáticos; o sea, el mundo de los conjuntos, de las funciones, de las matrices, etc.

         El mundo de los objetos matemáticos es un mundo que tiene una realidad al margen del nuestro. Ésta es una distinción que guiará continuamente nuestro recorrido y nos ayudará a comprender la verdadera naturaleza de la actividad estadística. Pensemos que la estadística es una forma de hacer matemáticas, por lo tanto, es importante situar bien qué es en realidad lo que hacemos cuando hacemos matemáticas.

         La matemática ha sido siempre básicamente, a lo largo de toda la historia, una diversión útil. Una diversión que ha entretenido a muchos hombres a lo largo de la historia, pero una diversión que ha ido dejando su sedimento, y del que la humanidad ha ido sacando paulatinamente provecho. Este entretenimiento, esta diversión, ha dado lugar, ciertamente, a una de las piezas más extraordinarias del espíritu humano. Si uno se sorprende ante un cuadro de Goya o ante una sinfonía de Mozart, no causan menor sorpresa muchos de los conceptos matemáticos que han sido creados a lo largo de la historia.

         Un curso de matemáticas es un viaje a otro mundo. Un viaje es, sin duda -supongo que estaréis de acuerdo conmigo- más atractivo si el camino se realiza tocando lo que se ve. El mundo de la matemática se digiere mejor tocando los objetos que se van viendo por el camino. El mundo de las cosas que nos rodean ha sido creado a base de millones de años, el de la matemática tiene tan sólo unos pocos miles de años, pero tiene una riqueza que impresiona a quien se introduce en él. En este curso viajaremos por el mundo de las matemáticas y tocaremos todo lo que veamos en él. Además, crearemos cosas, añadiremos cosas a este mundo. Crearemos objetos para que habiten en el mundo de las matemáticas.

         Las matemáticas pueden verse como un gran museo. Un museo donde se exponen creaciones humanas. Para mirarlas hay que realizar un esfuerzo intelectual considerable. Por ejemplo, ante una función deberemos agudizar nuestra mirada. Ver qué pasa en las proximidades de un punto cualquiera, qué sucede cuando nos alejamos hacia un extremo de la gráfica, etc. Los conjuntos y las funciones son las piezas que descansan en los pedestales, pero hay un enorme repertorio de carteles escritos, como teoremas, que han ido dejando visitantes ilustres, en los cuales constan leyes generales que pueden encontrarse entre toda aquella inmensa masa de fascinantes piezas.

         En el museo de las matemáticas algunos objetos son, además, herramientas para entender otros objetos. Se trata de un sistema profundamente interconectado. No son piezas aisladas. El museo está constituido de una red no visible de conexiones que, visitas sucesivas a él, nos van permitiendo desentrañar. Estamos, además, ante un museo que tiene algo ciertamente muy especial, algo que no ocurre en ningún otro museo: es un mundo abierto. Al salir, si hemos agudizado nuestro ingenio y nuestros deseos de crear, podemos dejar, en su interior, nuestras propias creaciones.

         La idea de museo nos aportará una dimensión importante para ver de otra forma las matemáticas. Normalmente un estudiante ante una pregunta acerca del límite de una función en un punto, acerca de la derivada de una función o acerca del desarrollo de Taylor de una función suele ver un problema meramente de cálculo. Éste es en gran parte el problema de las matemáticas. Las operaciones, el cálculo, son una fachada que no deja ver lo que hay dentro y que es realmente lo interesante. Hay que descubrir que estos cálculos tienen una finalidad fundamental: conocer unas formas, unas formas, en la mayor parte de los casos, bellas y sorprendentes. Tanto el límite de una función en un punto, como la derivada de una función, como un desarrollo de Taylor y otras muchas técnicas matemáticas, son herramientas para conocer mejor los verdaderos protagonistas de la escena matemática: las funciones. Hay que cambiar el enfoque en la mirada matemática.

         El museo de la matemática tiene, finalmente, una característica que lo transforma en un recinto ciertamente especial: sus límites no tienen límite, su ubicación está allí donde una cabeza humana, preparada para imaginar, comience a tocar y a descubrir los entresijos de unas piezas que se mueven mediante la fuerza de una profunda reflexión. El mundo de los objetos matemáticos se expone allí donde alguien esté dispuesto a pensar.

         Bueno, hasta el próximo día.