Archivo del Autor: estadisticallopis

Tema 14: COMPARACION DE DOS POBLACIONES

Este tema está explicado en los vídeos siguientes:

1. Vamos a ver ahora técnicas estadísticas concretas de comparación de dos poblaciones.

2. Es muy importante ver con detalle cómo elegir, en una determinada situación concreta, la técnica adecuada entre las muchas disponibles.

3. Es muy importante elegir bien la técnica más adecuada en cada circunstancia para afinar así más la propia maquinaria de la técnica y que, de esta forma, las decisiones tomadas sean más fiables.

4. Voy a trazar un mapa de las técnicas más usuales de comparación de dos poblaciones y lo voy a hacer estructurado a modo de protocolo de actuación, de decisión.

5. Pensemos que dejamos una decisión trascendental (elegir entre H0 y H1) en manos de una maquinaria matemática, como es una técnica estadística, por lo que elegir la más ajustada al caso optimiza el funcionamiento de la propia técnica y su fiabilidad.

6. Protocolo de decisión entre técnicas de comparación de dos grupos:

IMG_8307

Este mismo protocolo puede presentarse en forma de diagrama de flujo. Este gráfico lo ha elaborado un alumno de este curso (Bruno Splendiani):

20140325-133316.jpg

Otras dos presentaciones de este mismo esquema me los ha facilitado Laura Ripoll muy amablemente:

Utilizad el que os resulte más cómodo.

 

7. Veamos con detalle el funcionamiento de este protocolo de actuación: Lo primero es ver si estamos ante una variable continua o dicotómica.

8. Se trata de ver si continuamos por el apartado 1 ó el 2 del protocolo. Si es una variable continua iremos por 1, si es dicotómica, por 2.

9. Supongamos que nuestro objeto de estudio es una variable dicotómica, con sólo dos valores posibles, por ejemplo: hombre/mujer, enfermo/sano, dolor/no dolor, opina A/opina B, etc. Estamos, claramente, en el punto 2. Y habremos de decidir si las dos muestras comparadas son independientes o relacionadas. En definitiva, si son dos poblaciones formadas por individuos distintos (independientes) o por los mismos individuos a los que se les mide la variable dicotómica en dos momentos distintos (muestras relacionadas).

10. Supongamos primero que estamos estudiando si la proporción de estudiantes mujeres en una facultad de Medicina y en una de Económicas es distinta. Tomaremos dos muestras, una de cada facultad, y veremos qué proporción de mujeres hay en cada muestra. Pe: obtenemos: 60% y 50%.

11. ¿Es esta diferencia estadísticamente significativa? Que hay diferencia muestral es evidente. 60% y 50% evidentemente son distintos. Pero esto es muestral, es diferencia muestral. Y nuestro interés es poblacional, como siempre. Debemos aplicar una técnica estadística para ver si esta diferencia es significativa, si es extrapolable a la población.

12. Deberemos aplicar un Test de comparación de dos proporciones, también llamado, sencillamente, Test de proporciones. Se trata de dos muestras claramente independientes. En éste, como siempre, en la H0 tendremos la igualdad de proporciones poblacionales (p1=p2) y en la H1 la desigualdad (p1<>p2).Y el p-valor del contraste de hipótesis nos dirá si, por el tamaño de muestra que tenemos, podemos considerar que esa diferencia del 10% es o no significativa. Esta misma situación resuelta por este Test de proporciones podría plantearse con el Test de la ji-cuadrado. De hecho, si repasamos los visto en el tema 8, una situación de comparación de proporciones puede resolverse, también, desde este Test de la ji-cuadrado.

13. El Test proporciones, para funcionar bien, requiere un tamaño muestral mínimo de 30 por grupo y que el producto del tamaño muestral por el tanto por uno esperado bajo la hipótesis nula del suceso que se analiza sea superior o igual a 5, en ambas muestras. Por ejemplo: Supongamos que tenemos una muestra de 50 por cada uno de los dos grupos a comparar. En una muestra tenemos sólo un caso del suceso analizado y en la otra tenemos 4 casos. Si la hipótesis nula (igualdad de proporciones) fuera cierta esperaríamos ver 5 casos de cada 100; o sea, un 0.05 por uno. Si multiplicamos este 0.05 por 50 nos da 2.5 sucesos esperados por grupo. Como es menor que 5 estamos fuera de las condiciones de aplicación de este Test de proporciones y deberíamos aplicar el Test exacto de Fisher.

14. Supongamos, ahora, que queremos ver antes y después de un determinado acontecimiento si un cierto número de personas opinan A o si opinan B (Por ejemplo, si votarían sí o no en un determinado referéndum). Habrá los que opinaban A y después B, los que opinaban A y continúan opinando A, los que opinaban B y luego continúan opinando B y, finalmente, los que opinaban B y pasan a opinar A. Es un claro ejemplo de muestras relacionadas. La variable es dicotómica pero es un mismo grupo de individuos a los que se les mide la misma variable en dos momentos distintos. Aplicaremos, en este caso, el Test de McNemar (Ver Herbario de técnicas).

15. Supongamos que ahora queremos ver el nivel de inglés de los estudiantes en esas mismas facultades vistas antes (Medicina y Económicas) mediante un examen con notas del 0 al 10, estaremos ahora ante una variable claramente continua.

16. Hay muchos valores posibles potencialmente entre 0 y 10. Estamos, ahora, en el apartado 1 de nuestro protocolo de decisión.

17. Y ahora no tenemos todavía el test a realizar, sino que debemos continuar examinando las especificaciones del protocolo y, nos tocaría, como siguiente paso, decidir si las muestras son independientes o relacionadas.

18. Aquí se trata de ver si los individuos de las dos muestras son los mismos o si son distintos.

19. En este caso que planteo, el del nivel de inglés de alumnos en dos facultades, es claro que se trata de dos muestras con individuos distintos. Se trata, por lo tanto, de muestras independientes.

20. Pero, imaginemos que en lugar de ser dos facultades, las estudiadas, fueran unos mismos estudiantes de una facultad (Pe: Medicina) y que tenemos el nivel de inglés de una muestra de estudiantes al empezar sus estudios universitarios y al final de esos mismos estudios. Y queremos comprobar si ha habido un cambio en ese nivel.

21. En este caso estaríamos ante muestras relacionadas. De unos mismos individuos tenemos dos medidas y queremos ver si hay diferencias. Es muy importante saber distinguir, pues, si las muestras son independientes o relacionadas (a veces se les denomina también apareadas, porque los valores van por pares: dos de cada individuo).

22. En el caso, pues, de las dos facultades, con muestras independientes, estaríamos en el caso 1a del protocolo y en el caso de una única facultad, con muestras relacionadas, estaríamos en el 1b.

23. El siguiente paso, que nos llevará a los apartados 1ai, 1aii, 1bi o 1bii del protocolo, es la comprobación de la normalidad, o no, de ambas muestras.

24. En el tema dedicado a Intervalos de confianza hemos hablado de la noción de ajuste de una muestra a una distribución normal. Y hemos presentado allí que la curtosis estandarizada y la asimetría estandarizada eran unos criterios útiles para comprobar el ajuste de una muestra a la distribución normal. Ahora hemos de dar un paso más y presentar la noción de comprobación estadística de la normalidad de una muestra mediante un contraste de hipótesis.

25. Para decidir si la variabilidad de una muestra sigue una determinada distribución, mediante un contraste de hipótesis, disponemos de las denominadas técnicas de «Bondad de ajuste».

26. Para la comprobación de la normalidad de una muestra existen diferentes técnicas de «Bondad de ajuste a la normal».

27. Todas ellas tienen la misma estructura:

H0: Normalidad.

H1: No normalidad.

Hay, pues, en Estadística, presunción de normalidad, porque la normalidad está en la Hipótesis nula.

28. Por lo tanto, en un Test de Bondad de ajuste a la normal con un p-valor superior a 0.05 mantendremos la suposición de normalidad. Estaremos ante una muestra que podríamos ver en el caso de tener en la población una distribución normal.

29. Como siempre en un contraste de hipótesis valoramos si lo que vemos en la muestra, lo que observamos en ella, encaja, es factible verlo, en el caso de ser cierto lo afirmado en la Hipótesis nula. O sea, que lo que vemos, lo Observado está dentro de la esfera de lo Esperado bajo la Hipótesis nula.

30. En cambio, si la p es inferior a 0.05 debemos rechazar la normalidad: la estructura de los datos no nos permiten pensar que la población de donde se ha tomado la muestra tenga una variabilidad en forma de campana de Gauss.

31. Los tests de bondad de ajuste a la normal más usados son el Test de la ji-cuadrado de ajuste a una distribución, Test de kolmogorov de bondad de ajuste a una distribución normal y el Test de Shapiro-Wilk (Ver Herbario de técnicas).

32. En las muestras independientes, para seguir por la vía 1ai las dos muestras deben seguir la normalidad. Si no es así seguimos por 1aii.

33. En las muestras relacionadas, apareadas, se suele calcular la muestra resta a partir de las dos muestras.

34. Como son una serie de individuos de los que se tienen dos valores: uno en cada muestra, se hacen las restas de los valores por individuo, creando una única muestra: la muestra de la resta de los valores de la variable en los dos tiempos o, en general, de los dos valores relacionados.

35. La normalidad se contrasta en esa muestra de restas obtenida a partir de los valores de las dos muestras relacionadas.

36. Si sigue la normal estaremos en 1bi y si no la sigue estaremos en 1bii. En el primer caso, siguiendo el protocolo, aplicaremos el Test de la t de Student para datos apareados (o relacionados) y, en el segundo caso, aplicaremos el Test de los signos o el Test de Wilcoxon (Ver Herbario de técnicas).

37. En muestras independientes, si no hay normalidad de las dos muestras (estamos, pues, en 1aii) aplicaremos el Test de Mann-Whitney (Ver Herbario de técnicas). A este Test también se le llama, a veces, Test de Mann-Whitney-Wilcoxon o, también, Test de Wilcoxon de la suma de rangos. Si, por el contrario, hay normalidad y, por lo tanto, estamos en el apartado 1ai, necesitamos realizar un nuevo paso.

38. Para decidir si aplicar el Test de la t de Student para muestras independientes y varianzas iguales o el Test de la t de Student para muestras independientes y varianzas distintas hay que aplicar un Test sobre las varianzas, un Test que nos permita decidir si las varianzas poblacionales son o no distintas.

39. El Test tiene la estructura de siempre: presunción de igualdad. De igualdad, en este caso, de varianzas o de desviaciones estándar.

40. El contraste es: H0: σ12, H1: σ1<>σ2. El Test más conocido y usado para resolver este contraste es el denominado Test de Fisher de igualdad de varianzas o también llamado Test de Fisher-Snedecor (Ver Herbario de técnicas). Evidentemente estamos hablando de Desviaciones estándar poblacionales, no muestrales. El problema es, ahora, decidir si las diferencias muestrales entre las Desviaciones muestrales nos permite pensar que son inferibles a nivel poblacional, o no.

41. Si el p-valor es mayor que 0,05 mantendremos la hipótesis de iguadad y aplicaremos, entonces, para comparar las medias de las dos poblaciones, el Test de la t de Student de varianzas iguales.

42. Si el p-valor es menor que 0,05 rechazaremos H0, aceptaremos H1 y aplicaremos el Test de la t de Student de varianzas desiguales.

43. Con esto tenemos, pues, explicado todo el mapa trazado en el esquema del protocolo.

44. Las diferentes técnicas de la t de Student son técnicas llamadas «paramétricas», porque para funcionar bien necesitan que las variables sigan una distribución concreta: la distribución normal.

45. El Test de Mann-Whitney, el Test de los signos y el Test de Wilcoxon son, por el contrario, técnicas llamadas «no paramétricas». Estas técnicas precisan pocas condiciones previas.

46. Observemos que se trata de técnicas donde las variables no necesitan seguir una distribución concreta: ni una dicotómica ni una normal.

47. Estas técnicas sólo precisan la continuidad de las variables; o sea, que sean variables con muchos valores posibles.

48. Las técnicas de la Estadística no paramétrica son técnicas «todo terreno». Aplicables en muchas más situaciones. Al no precisar una determinada distribución son más versátiles.

49. Esta mayor versatilidad la pagan con menor potencia: Son técnicas más conservadoras que las denominadas paramétricas, lo que significa que cuesta más rechazar la hipótesis nula. Tienen menor capacidad de detectar diferencias.

50. Una peculiaridad de las técnicas no paramétricas es que los contrastes de hipótesis no son sobre la media sino que lo son sobre la mediana; o sea: H0: Mediana1=Mediana2 y H1: Mediana1<>Mediana2, o sobre la igualdad o desigualdad entre las distribuciones.

 

Test de la t de Student para una muestra

El Test de la t de Student para una muestra permite comprobar si es posible aceptar que la media de la población es un valor determinado. Se toma una muestra y el Test permite evaluar si es razonable mantener la Hipótesis nula de que la media es tal valor.

Se trata de un Test paramétrico; o sea, parte de la suposición de que la variable analizada en el conjunto de la población sigue una variabilidad, una distribución como la de la campana de Gauss. Por lo tanto, podemos pensar que la distribución normal es un buen modelo de esa población.

Puede observarse que se construye un estadístico que sigue la distribución t de Student si es cierta la Hipótesis nula. Por lo tanto, como siempre, el cálculo del estadístico a la muestra que tenemos es un número. Un número que pondremos en relación con la distribución del estadístico en caso de ser cierta la Hipótesis nula. Si cae en una zona central de esa distribución de probabilidad 0.95 (el 95%, porcentualmente) mantendremos la Hipótesis nula. Si cae fuera de esa zona, la rechazaremos y nos decantaremos por la alternativa. Este es el proceder de siempre en Estadística. Veamos el esquema del Test:

(Cuando en Estadística se escriben tres líneas paralelas horizontales a la derecha de un cálculo, de un estadístico, y a continuación se escribe una determinada distribución nos referimos a que tal estadístico sigue esa distribución)

 IMG_4458

Tema 12: REGRESIÓN MÚLTIPLE

1. En la Regresión lineal múltiple modelizamos la relación entre una variable dependiente y dos o más variables independientes mediante una función lineal, una función que será, ahora, no una recta, como sucedía con la Regresión lineal simple, sino un plano (si tenemos dos variables independientes) o un hiperplano (si tenemos más de dos variables independientes).

2. En la Regresión lineal múltiple el punto de partida es el mismo que en la Regresión lineal simple. Se pretende modelizar la relación entre unas variables con la finalidad última de poder pronosticar una de ellas: la variable dependiente, a partir del conocimientos de las otras: las variables independientes. En la Regresión lineal múltiple se introducen nuevas variables independientes con la finalidad de reducir la dispersión de la predicción, con la finalidad de disminuir el residuo.

3. El modelo matemático es, ahora:

y=a1x1+a2x2+…+adxd+b+e

donde a1, a2,…, ad y b son los coeficientes del modelo y donde e es el residuo, que, como en la Regresión lineal simple, supondremos que sigue una distribución normal N(0, DE).

4. Aunque la Regresión lineal múltiple es, en buena parte, una generalización de la Regresión lineal simple, tiene unas particularidades que conviene precisar.

5. Una de sus peculiaridades es la tendencia a llenar excesivamente el modelo. Hay la tendencia a ir introduciendo variables, hinchando el modelo y esto es muy perjudicial. Para que las cosas funcionen lo mejor posible conviene trabajar con variables que sean independientes entre ellas.

6. Observemos que en el punto anterior he usado la noción de independencia entre variables para referirme a las variables que se denominan independientes en el modelo de regresión. Recordemos que de esas variables tendremos, en el futuro, valores concretos para un individuo y a partir de ellos trataremos de pronosticar el valor de una variable dependiente que desconoceremos su valor para ese individuo.

7. Pueden observarse dos nociones de independencia distintas, pues, en lo que estamos diciendo ahora. Una cosa es la posición de las variables en el modelo de Regresión y otra es el que las variables sean independientes entre ellas, que significa que la correlación entre ellas sea cero.

8. Cuando no se cumple esta relación de independencia entre las variables independientes se produce un fenómeno de colinealidad. Esto es perjudicial para el modelo. El perjuicio representa que las estimaciones de los parámetros del modelo (los coeficientes), que son los elementos básicos para la construcción de los pronósticos de la variable dependiente, tienen más Error estándar. Y el Error estándar, como Desviación estándar de una predicción, es uno de los principales criterios de calidad de una estimación.

9. Hay distintos mecanismos para comprobar si tenemos un exceso de colinealidad. El Test de Belsey, Kuh y Welsch (Ver Herbario de técnicas) es uno de los más usados para comprobar si tenemos ese exceso de colinealidad. Ante un exceso de colinealidad conviene hacer una revisión y una nueva consideración de las variables independientes a usar en el modelo de Regresión, eliminando alguna de ellas o haciendo una Análisis de componentes principales (Técnica multivariante que veremos más adelante).

10. De hecho, parece lógico, en una Regresión lineal múltiple, pedirle a las variables independientes que sean independientes entre ellas. Pensemos que si no lo son, si tienen un cierto grado de dependencia, es porque de alguna forma comparten aspectos entre ellas, en cierta forma dicen cosas similares esas variables. Por lo tanto, a la hora de ser usadas para predecir una variable dependiente se produce un fenómeno de redundancia: estamos usando varias veces lo mismo para pronosticar algo. Y esto se paga con más imprecisión en las estimaciones.

11. Otra peculiaridad de la Regresión lineal múltiple es la posibilidad de construir el modelo paso a paso. Es el procedimiento denominado, en inglés, Stepwise.

12. Al realizar una Regresión lineal múltiple hay, pues, tres modalidades de estimación del modelo:

a. Forzando la entrada en el modelo de todas las variables elegidas.

b. Mediante un Stepwise hacia delante. La Regresión entonces se denomina Fordward Stepwise Regression.

c. Mediante un Stepwise hacia atrás. La Regresión entonces se denomina Backward Stepwise Regression.

13. Expliquemos las dos variantes últimas, puesto que la primera no precisa ninguna explicación.

14. El Stepwise hacia delante lo que hace es, paso a paso, ir introduciendo, en el modelo de Regresión lineal, como dice su nombre: paso a paso, variables independientes, hasta completar el mejor modelo posible.

15. En primer lugar crea un modelo con una única variable independiente. En realidad, pues, el primer paso es crear una Regresión lineal simple. Pero lo hace eligiendo entre todas las variables independientes la que consigue un mejor modelo, si es que lo consigue. En este primer paso debe existir entre las variables independientes una variable que tenga una relación significativa con la variable dependiente. De lo contrario el procedimiento acabaría aquí y no tendríamos modelo matemático para relacionar esas variables.

16. En el segundo paso se prueba de introducir, entre las variables independientes que quedan, cuál es la que consigue un modelo mejor, si es que alguna lo consigue. Se trata de establecer unos criterios de calidad mínimos. Lo que se denomina un Criterio de entrada. Si no se alcanzan nos quedamos con una Regresión lineal simple y se rechazan las otras variables.

17. Si hemos conseguido introducir en el modelo una segunda variable independiente se valora, probando con todas las variables independientes que quedan, la posibilidad de introducir una tercera. De nuevo se aplican unos criterios de entrada que si no se alcanzan no se introduce ninguna variable más.

18. Y así se va haciendo hasta alcanzar el mejor modelo. Es importante tener en cuenta que en cualquiera de estos pasos hay la posibilidad de extraer una variable que anteriormente se había introducido. Y cambiar así la disposición inicial. Por ejemplo, supongamos que en los pasos anteriores se habían introducido las variables x3 y x5 y, al probar una nueva introducción, al ensayar con, por ejemplo, x7, el procedimiento observa que consigue mejores resultados sacando del modelo la variable x3 que había sido la primera que había introducido, quedando, entonces, el modelo con x5 y x7.

19. El Stepwise hacia atrás es lo mismo pero ahora partiendo que hemos empezado forzando la entrada de todas las variables dentro del modelo y, a continuación, en el siguiente paso, mirar de sacar una de las variables independientes: una variable que al sacarla alteremos la calidad del modelo menos que un valor umbral establecido, lo que se denomina, ahora, un Criterio de salida. Si es así, si podemos extraer sin perjudicar por encima de ese valor preestablecido, reducimos el modelo.

20. Y así, paso a paso, pero en sentido contrario, vamos creando el mejor modelo posible, la mejor ecuación posible que relacione una variable dependiente con varias variables independientes.

21. Los criterios de entrada y de salida, que en muchas ocasiones son el mismo valor, generalmente vienen dados por el valor de un estadístico, por el valor de la F de Fisher. Puede verse en el Herbario de técnicas, en concreto, la técnica “Contraste de hipótesis de la pendiente de Regresión” que valores de F pequeños implican buena relación entre la variable dependiente y la independiente. Y valores grandes implican mala relación. Pues el criterio de entrada será que el valor de la F esté por debajo de cierto valor y el de salida que esté por encima de también de cierto valor, que suele ser el mismo. En otras ocasiones el criterio de entrada o de salida es un determinado p-valor prefijado asociado al parámetro de la variable que se decide si entra o no en el modelo.

22. Dados unos datos muestrales de una serie de individuos donde tengamos de ellos los valores tanto de la variable dependiente como de todas las variables independientes, cualquiera de los tres procedimientos estima los coeficientes del modelo y el valor de la Desviación estándar del residuo; o sea, de ese elemento que sumamos a cualquier procedimiento de Regresión.

23. Todos estos coeficientes debe decidirse si son coeficientes significativos, valores fiables que nos proporcionan una modelo asentado, estable, que refleja una realidad no sólo muestral, sino una realidad poblacional.

24. Para que todas estas estimaciones y estas significaciones proporcionadas, mediante p-valores, por técnicas estadística, sean fiables es necesario que se cumplan algunas condiciones que ahora comentaré.

25. No olvidemos que toda la llamada Estadística paramétrica se construye con procedimientos cuyas decisiones y cuyas construcciones se basan en unas suposiciones, bastante exigentes, que deben cumplirse.

26. Por otro lado las suposiciones que ahora comentaré son condiciones compartidas con la Regresión lineal simple. Habitualmente la mayor parte de software estadísticos que realizan Regresión lineal, tanto la simple como la múltiple, y, en ésta última, tanto los dos tipos de Stepwise como la que fuerza la entrada de todas las variables independientes, sus inferencias se basan en estas suposiciones.

27. Una de las comprobaciones necesarias a hacer en estos modelos es que realmente los residuos sigan la distribución normal N(0, DE). Suposición nuclear en la Estadística paramétrica. Y fundamental para el buen funcionamiento de la mayor parte módulos de Regresión lineal en los distintos software comerciales.

28. Una de las técnicas para comprobar esta normalidad es el Test de la ji-cuadrado de bondad de ajuste a una distribución. Otra muy utilizada es el Test de Kolmogorov.

29. Otra comprobación importante es la Homogeneidad de varianzas. Esto significa que el residuo tienen una dispersión homogénea, igual, sean cuales sean los valores de las variables independientes. Hay diversas pruebas que se han desarrollado para comprobar si se cumple o no esta condición. Una es el Test de Glesjer.

30. Otra comprobación importante es que no haya autocorrelación entre los valores en su orden de obtención. Que sean valores independientes uno respecto a otro. El Test de Durbin-Watson es el apropiado en estos casos. La independencia de los datos entre sí es una suposición también del modelo de Regresión lineal.

31. Otra consideración importante a investigación en una Regresión es la influencia de cada punto. No todo punto tiene la misma influencia. Es importante que no haya puntos excesivamente influyentes. Que las estimaciones de los parámetros del modelo queden demasiado en manos de esos puntos. Entre muchos criterios existentes uno de los más usados es el criterio de Cook (Ver Herbario de técnicas) para la detección de influencia.

32. Cuando alguna o varias de las condiciones necesarias no se cumplen una de las opciones más usuales es la Regresión no paramétrica. En este ámbito los métodos más usados se basan en la utilización de estimaciones de funciones de densidad no paramétricas.

33. De hecho, los diferentes procedimientos de Regresión no paramétrica, tanto simple como múltiple, se basan en procedimientos de construcción, sobre el terreno, partiendo de la muestra, donde habrá una enorme flexibilidad que vendrá dada porque la función irá siempre a remolque de la posición de los valores muestrales que tengamos.

34. Posiblemente el modelo de Regresión no paramétrica más utilizado es el Estimador de Nadaraya-Watson que se puede consultar en la sección Herbario de técnicas.

35. Finalmente un criterio de calidad de una Regresión lineal múltiple, como sucede también en la Regresión lineal simple, es el Coeficiente de determinación, la R2 (Ver Herbario de técnicas). Aunque el valor de este coeficiente es un número que va del 0 al 1 es frecuente expresarlo en tanto por ciento. Es una forma de expresar el grado de determinación de la variable dependiente por parte de las independientes.

Las tres revoluciones en la historia de la Estadística

En la Historia de la Estadística ha habido tres grandes revoluciones:

  1. Estadística paramétrica
  2. Estadística no paramétrica
  3. Remuestreo

 Veamos con un poco de detalle lo que supone cada una de ellas:

  1. La primera gran revolución es la creación de la llamada Estadística paramétrica. Pearson, Fisher, Student y otros estadísticos emprendieron la labor de crear procedimientos de decisión estadística: estimación puntual, estimación por intervalos y contrastes de hipótesis, basados en unas suposiciones prefijadas sobre la distribución de las variables analizadas, especialmente la suposición de normalidad. A partir de esta suposición construían una serie de procedimientos que permitían tomar decisiones.
  2. La segunda gran revolución la introducen unos estadísticos que perciben que las suposiciones de la Estadística paramétrica son muy exigentes y que, en muchas ocasiones, no se cumplen. En este caso usar un método paramétrico es arriesgado porque estás tomando decisiones en base a unos criterios que no son ciertos. Percibieron que habían de construir mecanismos de decisión estadísticos que no dependieran de suposiciones tan exigentes. Y construyeron una estadística cuyos estadísticos, cuyos cálculos a una muestra para tomar decisiones, su distribución dependiera de ellos mismos, de su estructura, no de la distribución de la población.
  3. La tercera gran revolución viene de la mano de la simulación, del remuestreo, de las posibilidades ofrecidas por la informática y la programación. Estos procedimientos han permitido encontrar la distribución de un estadístico de test cualquiera puesto que la simulan. Además lo pueden hacer bajo el supuesto de ser cierta la Hipótesis nula. Y lo hacen a través de una genialidad: catapultando la muestra a población. Haciendo de la muestra la población. Y generando, así, desde esta población artificial muchas muestras posibles bajo las condiciones que se quiera. Así podemos encontrar cuál es la distribución simulada de un estadístico y construir intervalos de confianza, realizar contrastes de hipótesis, etc.

Coeficiente de determinación

Es un importante estadístico en la Regresión. Es una medida del grado de relación existente entre la variable dependiente y las variables independientes (si es una regresión simple, entonces «la variable independiente»). Mide cuánto está determinada la variable dependiente respecto a la variable o variables independientes.
Aunque es un valor que va del 0 al 1, suele darse en porcentaje.
Puede observarse el cálculo y, también, un caso de valor alto y otro de valor bajo de este coeficiente:

IMG_4452

Observemos el siguiente gráfico que tal vez aclare mejor los dos ejemplos:

img_4818

A la izquierda tenemos el caso con coeficiente bajo y a la derecha el caso con coeficiente de determinación alto.

En cada uno de los casos tenemos arriba el numerador del cálculo del coeficiente y abajo el denominador del cálculo. Líneas verdes para el numerador y azules para el denominador.

Observemos que en el caso de la izquierda las líneas azules son mucho más largas que las verdes. Esto indica que nuestra recta de regresión no explica mucho la posición de los valores en la relación dibujada entre las dos variables.

En cambio, en el caso de la derecha hay una gran aproximación de las líneas verdes a las azules.  Esto indica que realmente nuestra recta de regresión consigue situarse muy próxima a la realidad posicional de los puntos en el diagrama de dispersión.

Observemos qué pasaría si los puntos se adaptaran totalmente a la línea recta:

img_4819

En este casos las distancias verdes y azules son exactamente las mismas. No las dibujo porque se superpondrían, evidentemente. En este caso el coeficiente de determinación valdría 1.

En una regresión lineal simple el coeficiente de determinación coincide con la correlación de Pearson elevada al cuadrado.

Sin embargo, este coeficiente es utilizado en cualquier modelo de regresión.

A veces, este coeficiente de determinación se plantea de otra forma, aunque equivalente, de esta forma:

captura-de-pantalla-2016-10-09-a-las-11-09-51

En forma más explícita:

img_4821

Puede comprobarse en los dos ejemplos extremos expuestos cómo se trata de una formulación equivalente a la anterior.

Contraste de Hipótesis de la pendiente de Regresión

Este constraste de hipótesis es conceptualmente muy importante. Implica un entrar en profundidad en lo que supone en sí la construcción de un modelo de Regresión. También, como siempre en Estadística, implica un analizar los datos desde una serie de perspectivas siempre presentes, y por lo tanto recurrentes: Tamaño de muestra, dispersión de los valores.

Obsérvese que en este caso acabamos descomponiendo la dispersión de los valores de la variable dependiente en dos fuentes de variabilidad y que es, precisamente, el cociente de esas dos fuentes el que nos dará la pauta de si debemos o no seguir manteniendo la Hipótesis nula, a la luz de los datos que tenemos.

Observemos muy bien lo que hay en el numerador y lo que hay en el denominador del conciente F. Veamos que cuando este cociente sea pequeño deberemos mantener la Hipótesis nula y, en cambio, cuando sea grande deberemos rechazarla. En el numerador está presente lo que explica la pendiente de la variabilidad de los datos y en el denominador está presente la dispersión no explicada, está lo que no somos capaces de explicar: el residuo.

IMG_4469

Criterio de Cook de influencia en Regresión

El criterio de Cook consiste en construir un intervalo de confianza de los coeficientes de regresión del 50%. Estimar de nuevo estos coeficientes sin el valor que se quiere ver su influencia. Si el nuevo valor estimado queda dentro del intervalo de confianza anterior se considera una influencia aceptable. Si, por el contrario, se sale de este intervalo, estamos ante un exceso de influencia que conviene replantearse. Una opción clara es eliminar el valor del análisis.

IMG_4445