Es interesante comparar este modelo y el del ANOVA de un factor a efectos fijos. La única diferencias básica es que aparece otro parámetro en el modelo, escrito como Ai y que este parámetro en lugar de sumar cero, como sucedía en el caso de efectos fijos, sigue una distribución normal. Aquí está en esencia la idea de factor aleatorio, puesto que los niveles tomados como muestra sólo son eso, niveles muestra para hablar de la población de niveles. Y esa población de niveles es la que nos interesa. También cambia el contraste. Ahora el contraste de hipótesis esencial es el de que la Desviación estándar al cuadrado en esa población de niveles es igual a cero versus la alternativa que esa dispersión es mayor que cero.
Archivo de la categoría: HERBARIO
Test de Kruskal-Wallis
ANOVA de un factor a efectos fijos
Test de la t de Student para una muestra
El Test de la t de Student para una muestra permite comprobar si es posible aceptar que la media de la población es un valor determinado. Se toma una muestra y el Test permite evaluar si es razonable mantener la Hipótesis nula de que la media es tal valor.
Se trata de un Test paramétrico; o sea, parte de la suposición de que la variable analizada en el conjunto de la población sigue una variabilidad, una distribución como la de la campana de Gauss. Por lo tanto, podemos pensar que la distribución normal es un buen modelo de esa población.
Puede observarse que se construye un estadístico que sigue la distribución t de Student si es cierta la Hipótesis nula. Por lo tanto, como siempre, el cálculo del estadístico a la muestra que tenemos es un número. Un número que pondremos en relación con la distribución del estadístico en caso de ser cierta la Hipótesis nula. Si cae en una zona central de esa distribución de probabilidad 0.95 (el 95%, porcentualmente) mantendremos la Hipótesis nula. Si cae fuera de esa zona, la rechazaremos y nos decantaremos por la alternativa. Este es el proceder de siempre en Estadística. Veamos el esquema del Test:
(Cuando en Estadística se escriben tres líneas paralelas horizontales a la derecha de un cálculo, de un estadístico, y a continuación se escribe una determinada distribución nos referimos a que tal estadístico sigue esa distribución)
Test de la t de Student para datos apareados
Test de la t de Student para muestras independientes y varianzas desiguales
Coeficiente de determinación
Es un importante estadístico en la Regresión. Es una medida del grado de relación existente entre la variable dependiente y las variables independientes (si es una regresión simple, entonces «la variable independiente»). Mide cuánto está determinada la variable dependiente respecto a la variable o variables independientes.
Aunque es un valor que va del 0 al 1, suele darse en porcentaje.
Puede observarse el cálculo y, también, un caso de valor alto y otro de valor bajo de este coeficiente:
Observemos el siguiente gráfico que tal vez aclare mejor los dos ejemplos:
A la izquierda tenemos el caso con coeficiente bajo y a la derecha el caso con coeficiente de determinación alto.
En cada uno de los casos tenemos arriba el numerador del cálculo del coeficiente y abajo el denominador del cálculo. Líneas verdes para el numerador y azules para el denominador.
Observemos que en el caso de la izquierda las líneas azules son mucho más largas que las verdes. Esto indica que nuestra recta de regresión no explica mucho la posición de los valores en la relación dibujada entre las dos variables.
En cambio, en el caso de la derecha hay una gran aproximación de las líneas verdes a las azules. Esto indica que realmente nuestra recta de regresión consigue situarse muy próxima a la realidad posicional de los puntos en el diagrama de dispersión.
Observemos qué pasaría si los puntos se adaptaran totalmente a la línea recta:
En este casos las distancias verdes y azules son exactamente las mismas. No las dibujo porque se superpondrían, evidentemente. En este caso el coeficiente de determinación valdría 1.
En una regresión lineal simple el coeficiente de determinación coincide con la correlación de Pearson elevada al cuadrado.
Sin embargo, este coeficiente es utilizado en cualquier modelo de regresión.
A veces, este coeficiente de determinación se plantea de otra forma, aunque equivalente, de esta forma:
En forma más explícita:
Puede comprobarse en los dos ejemplos extremos expuestos cómo se trata de una formulación equivalente a la anterior.
Contraste de Hipótesis de la pendiente de Regresión
Este constraste de hipótesis es conceptualmente muy importante. Implica un entrar en profundidad en lo que supone en sí la construcción de un modelo de Regresión. También, como siempre en Estadística, implica un analizar los datos desde una serie de perspectivas siempre presentes, y por lo tanto recurrentes: Tamaño de muestra, dispersión de los valores.
Obsérvese que en este caso acabamos descomponiendo la dispersión de los valores de la variable dependiente en dos fuentes de variabilidad y que es, precisamente, el cociente de esas dos fuentes el que nos dará la pauta de si debemos o no seguir manteniendo la Hipótesis nula, a la luz de los datos que tenemos.
Observemos muy bien lo que hay en el numerador y lo que hay en el denominador del conciente F. Veamos que cuando este cociente sea pequeño deberemos mantener la Hipótesis nula y, en cambio, cuando sea grande deberemos rechazarla. En el numerador está presente lo que explica la pendiente de la variabilidad de los datos y en el denominador está presente la dispersión no explicada, está lo que no somos capaces de explicar: el residuo.
Estimación de los coeficientes de Regresión mediante el método de los mínimos cuadrados
Criterio de Cook de influencia en Regresión
El criterio de Cook consiste en construir un intervalo de confianza de los coeficientes de regresión del 50%. Estimar de nuevo estos coeficientes sin el valor que se quiere ver su influencia. Si el nuevo valor estimado queda dentro del intervalo de confianza anterior se considera una influencia aceptable. Si, por el contrario, se sale de este intervalo, estamos ante un exceso de influencia que conviene replantearse. Una opción clara es eliminar el valor del análisis.













