En Estadística se manejan diferentes tipos de modelos para representar una determinada situación real: funciones de distribución, modelos de regresión lineal simple, regresión lineal múltiple, regresión logística, regresión de Cox, anova de un factor, de dos factores, etc. Estos modelos tienen parámetros.
Los parámetros son valores abstractos, por eso se representan mediante letras. Sin embargo, cuando nos enfrentamos a un caso concreto y tenemos una muestra concreta de una realidad, interesa estimar unos valores concretos de esos parámetros. Porque de esta forma el modelo sustituye a la realidad, el modelo se convierte en una maquinaria matemática, en una maqueta matemática de esa realidad.
Los parámetros son como las tallas de camisas o zapatos. Debemos elegir un valor concreto que nos vaya bien a nosotros.
Una vez tenemos un modelo con valores concretos de los parámetros tenemos la realidad representada matemáticamente. Si es, por ejemplo, una función de distribución normal, al calcular la media y la desviación estándar de la muestra y elegir una normal con sus dos parámetros esos dos valores, tenemos entonces una normal concreta que se convierte en una maqueta matemática de la distribución poblacional de la variable estudiada. Si es, por ejemplo, una recta de regresión ocurre lo mismo pero con otros parámetros. Así sucesivamente. Podemos tener modelos con muchos parámetros y necesitaremos muchas estimaciones. Pero el procedimiento siempre es el mismo. Necesitamos estimar los parámetros del modelo, las medidas del modelo que se ajusten a lo que vemos.
El método de estimación de la máxima verosimilitud (en inglés se denomina el maximum-likelihood estimation) es un método universal (universal porque es una filosofía, una forma de hacer aplicable a todos los modelos) de estimar parámetros en un modelo matemático. Es el más utilizado y cotizado.
Es cierto que en muchas ocasiones el estudiante se desmoraliza viendo la complejidad de la nomenclatura del método. Pero la idea es muy sencilla y trivial.
La idea del método es muy sencilla y básica. Es la siguiente: Tenemos una muestra y tenemos que elegir unos valores de los parámetros del modelo. Pues elijamos aquellos valores que hacen máxima la probabilidad de ver lo que estamos viendo en la muestra. Tan sencillo como esto. Ni más ni menos.
Supongamos un caso muy sencillo. Supongamos que queremos ver la prevalencia de una determinada enfermedad en una determinada población. Tomamos una muestra de tamaño 100 y vemos que tenemos 7 personas con tal enfermedad. Un modelo matemático para representar la prevalencia de esa enfermedad en esa población es una distribución Bernouilli que suele escribirse como B(p) (Ver el artículo Funciones de distribución en el apartado de Complementos).
Tomar como modelo concreto la distribución Bernouilli B(0.07) es aplicar, de hecho, el método de la máxima verosimilitud. Porque observemos que si tomamos una muestra de tamaño 100 y observamos 7 enfermos, estamos haciendo, en realidad, una observación de una distribución Binomial y podemos crear, así, la siguiente función de p:
Y esta es una función de una variable, la variable p. Parece coherente elegir como estimación de p el valor que haga máximo ese valor. Si representáramos esta función veríamos curiosamente que donde se produce el máximo es justo encima del valor 0.07:
Es por esto que 0.07 es la estimación de máxima verosimilitud en este caso y, en general, en una muestra de una variable dicotómica siempre que calculamos, como estimación del parámetro p, el tanto por uno de observaciones vistas de uno de los dos resultados posibles de la variable, estamos aplicando el estimador de máxima verosimilitud.
Así sucede en todos los modelos. Siempre tenemos un estimador máximo verosímil. Y este método de estimación, esta filosofía de estimación, es la más usual en Estadística.