Archivo de la categoría: PROBLEMAS

Solución Situación 76

1d: Valores altos de índice de Gini reflejan elevada dispersión de valores. Un índice de Gini de 0.95 indica que la mayor parte de valores de la variable estudiada están concentrados en un o en unos pocos individuos de la muestra.

2a: La mediana es 7 porque si ordenamos la muestra quedan en medio un 6 y un 8 cuyo promedio es 7.

3c: Como la DE es 10 en un intervalo de confianza del 95% de valores individuales deberemos coger la media y sumarle y restarle dos veces esa DE, quedando el intervalo (80, 120).

4c: Tendríamos poca capacidad pronóstica porque el coeficiente de determinación sería del 4%, muy por debajo del 50% necesario.

5d: Las cuatro correlaciones son significativas, por lo tanto escogemos la que tenga un valor absoluto mayor que es este -0.95.

6c: Si una correlación es significativa también será significativa la pendiente de la regresión que hagamos. Además, el signo será el mismo: Un correlación positiva genera una pendiente positiva y una correlación negativa una pendiente negativa.

7a: Una muestra con DE igual a 0 indica que todos sus valores son iguales. Una muestra así genera una curva de Lorenz diagonal, por lo tanto con índice de Gini igual a 0.

8b: Mínimo=1, Primer cuartil=2, Mediana=3, Tercer cuartil=7.5 y Máximo=12.

9a: Si el valor es 0, a la derecha queda todo el área de la curva de la distribución ji-cuadrado, por lo tanto el p-valor es 1. Total coherencia de la hipótesis nula puesto que tenemos una tabla de contingencias observada que es exactamente igual a la esperada en el caso de ser cierta la hipótesis nula.

10b: El test de la ji-cuadrado es el procedimiento estadístico adecuado para evaluar la relación entre variables cualitativas como es este caso.

 

Solución Situación 75

1c: La variable dependiente es dicotómica y hay una única variable independiente que es continua. Estamos ante un caso de Regresión logística simple.

2c: Tenemos una variable dependiente y tres independientes, lineales, por lo tanto se trata de una Regresión múltiple.

3d: En una Regresión lineal simple lo que le sucede a la pendiente le sucede igual a la correlación. Como la pendiente es significativa también lo será la correlación.

4c: Esto no es cierto porque la primera de los dos variables independientes no tiene una relación significativa con la variable dependiente. Vemos que su intervalo de confianza incluye al 0, por lo tanto no podemos establecer ningún tipo de asociación entre la dependiente y esta variable independiente. La opción b, por el contrario, es cierta, porque ahora sí se trata de una relación significativa, puesto que el intervalo de confianza no incluye al 0 y como la OR será menor que 1, al aumentar el valor de la variable independiente disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

5b: Sólo las dos primeras OR son significativas y 5 es mayor que 4 (1/0.25=5).

6d: El coeficiente de determinación si no va acompañado de una relación significativa no es indicador de nada.

7b: Como el coeficiente de la primera variable independiente es significativo, porque no incluye al 0, y positivo, la relación entre la variable dependiente y esta variable es una relación directa, por lo tanto, habrá una correlación positiva entre ellas.

8a: Como la relación que hay entre la OR y el coeficiente es exponencial, podemos ver que si elevamos el número e a 0.6 y a 1.1 obtenemos, respectivamente, el 1.82 y el 3.0.

9b: El coeficiente de correlación positivo va asociado a una pendiente positiva y el coeficiente de correlación negativo va asociado a una pendiente negativa. Además, la significación es paralela: cuando una lo es la otra también, y al revés. Por lo tanto, como el intervalo de la pendiente no contiene al 0 la correlación será significativa.

10c: Una correlación significativa no nos lleva automáticamente a una regresión con buena o suficiente capacidad predictiva. El coeficiente de determinación es el que solemos usar como criterio para esto último. Si es menor del 50% su capacidad predictiva es baja. En nuestro caso tenemos un valor del 25%, muy por debajo de ese 50%.

 

Situación 75: Examen (Temas 4-9, 11 y 12)

1. Si tenemos que pronosticar la probabilidad de que una persona que pide una hipoteca acabe siendo moroso en función de los años que lleva cotizados tenemos que hacer una:

a. Regresión logística múltiple.

b. Regresión lineal simple.

c. Regresión logística simple.

d. Regresión múltiple.

 

2. Si tenemos el modelo y=2x1+3x2-5x3 es cierto:

a. Se trata de una Regresión no lineal.

b. Se trata de una Regresión logística múltiple.

c. Se trata de una Regresión múltiple.

d. Se trata de una Regresión multivariante.

 

3. Si en una Regresión simple con el modelo y=2x-3 con un p-valor para la pendiente: p<0.05, podemos afirmar:

a. El error es menor de 3.

b. La pendiente no es significativa.

c. La correlación es positiva pero no sabemos si es significativa.

d. El p-valor de la correlación será menor que 0.05.

 

4. En una Regresión logística múltiple con dos variables independientes donde el coeficiente a1 tiene un intervalo de confianza del 95%: (-0.5, 2.1) y el coeficiente a2 tiene un intervalo de confianza del 95%: (-0.8, -0.3), no podemos decir lo siguiente:

a. En un Stepwise se acabará eligiendo un modelo con únicamente la variable x2 como independiente.

b. Al aumentar el valor de x2 disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

c. Al aumentar el valor de x1 disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

d. La Odds ratio que evalúa la relación entre x2 y la variable dependiente es un valor significativo y menor que 1.

 

5. Elegir la Odds ratio que indique mayor grado de relación:

a. OR=0.25; IC 95%: (0.05, 0.67)

b. OR=5; IC 95%: (4.2, 7.3)

c. OR=0.2; IC 95%: (0.01, 1.67)

d. OR=10; IC 95%: (0.5, 62.3)

 

6. ¿Cuál de las siguientes afirmaciones no es cierta?

a. Si la correlación de Pearson no es significativa la R2 aunque sea muy grande no tiene valor como medida de la calidad de los pronósticos.

b. Si la correlación de Pearson es significativa una R2 de un 20% indica muy poca calidad pronóstica de nuestro modelo de Regresión.

c. La R2 es una medida del nivel de determinación de la variable dependiente por parte de la o de las variables independientes.

d. Una R2 del 90% es siempre un indicador de relación significativa.

 

7. Una Regresión múltiple con el modelo y=3x1-5x2+4, con intervalos de confinaza del 95% de (2, 4), de (-6, -4) y de (3, 5) respectivamente, para los tres parámetros del modelo nos indica:

a. Que en un Stepwise se tomaría sólo la x1 como variable independiente del modelo.

b. Que existe una correlación positiva significativa entre la variable dependiente y la variable independiente x1.

c. Que no existe relación entre la variable dependiente y esas dos variables independientes.

d. No podemos decir nada acerca de la relación entre la variable dependiente y las dos variables independientes.

 

8. En una Regresión logística simple en la que la Odds ratio tiene un IC del 95%: (1.82, 3.0), ¿cuál de los siguientes IC del 95% para el coeficiente que multiplica a la variable independiente continua es el correcto?

a. (0.6, 1.1).

b. (-0.3, 3.4).

c. (0.1, 5.5).

d. (-2.1, -0.5).

 

9. En una Regresión lineal simple con un modelo y=2x-3, con intervalo de confianza para la pendiente de (1.5, 2.5) podemos afirmar:

a.La correlación entre las dos variables es significativa porque el intervalo de confianza de la pendiente no contiene al 1.

b. La correlación entre las dos variables es significativa porque el intervalo de confianza de la pendiente no contiene al 0.

c. No podemos decir nada sobre la significación de la correlación. Necesitamos tener su p-valor.

d. Si tenemos un individuo con el valor x=10 tendrá un valor de y=17.

 

10. Si entre dos variables tenemos una correlación de r=-0.5 con una p=0.001, no podemos decir los siguiente:

a. El coeficiente de determinación es del 25%.

b. La correlación es negativa y significativa.

c. Al tratarse de una correlación significativa podemos realizar una regresión con suficiente capacidad de predicción.

d. La pendiente de la regresión lineal simple que hagamos será también negativa y con un p-valor inferior a 0.05.

 

 

 

 

 

 

 

Solución Situación 74

El modelo de este problema es el mismo de la Situación 45. Ver, por lo tanto, las indicaciones de la Solución de la Situación 45.

El factor «Ciencias» y el factor «Letras» es fijo. El factor «Alumno» es aleatorio y anidado dentro de la interacción.

En este problema la salida de ordenador es la siguiente:

IMG_0529

 

Como puede apreciarse, después de hacer los cocientes correspondientes, los factores significativos son «Letras» y «Alumnos». Al hacer las comparaciones múltiples en el factor «Letras» puede apreciarse que es un profesor el que da niveles de motivación por debajo, significativamente. Y sin interacción. No es pues la combinación con otros. Es siempre igual. Él hace bajar las valoraciones siempre.

Veamos el cálculo de la componente de la varianza:

IMG_0528

Solución Situación 73

El modelo de ANOVA es el mismo que el de la Situación 41. Ver, por lo tanto, el modelo en la Solución de la Situación 41.

«Centro» es un factor fijo, «Método» también. «Grupo», anidado dentro de «Centro», es aleatorio. «Método» está cruzado con «Centro» y con «Grupo».

En concreto la salida de ordenador para este problema es:

IMG_0531

 

No hay diferencias entre centros, sí entre métodos y sí entre grupos. No hay interacción significativa.

El cálculo de las componentes de la varianza es el siguiente:

IMG_0530

Evidentemente la componente de la varianza negativa se acabará dando como 0. De hecho, ya se trataba de un efecto no estadísticamente significativo.

 

Situación 74: Un problema de ANOVA

En una escuela se pretende establecer un sistema de tutorización mediante una combinación de dos profesores: uno de ciencias y uno de letras. Se han tomado los tres profesores de ciencias y los tres profesores de letras que harían esta labor para hacer un ensayo que busca detectar diferencias en cuanto a las combinaciones a hacer entre ellos. Se han tomado dos alumnos por combinación de profesores. Durante el trimestre de seguimiento se ha realizado tres encuestas donde los alumnos valoraban el nivel de estímulo obtenido por la autorización recibida. Los resultados son los siguientes:

IMG_0527

Analizar las principales fuentes de variación.

Situación 73: Un problema de ANOVA

Se ha hecho el siguiente experimento didáctico. Se tomaron tres escuelas (Una pública, otra privada y otra concertada) y dos grupos de 2º de ESO en cada uno de estos tres centros educativos con la finalidad de hablar de la diferencia entre todos los grupos de este nivel de secundaria. Un mismo profesor fue a explicar en dos días distintos dos temas diferentes utilizando dos métodos de explicación muy distintos: uno el tradicional con pizarra y el otro mediante un PowerPoint. Después de cada clase se les pasó a cinco alumnos una encuesta donde se evaluaba, mediante diferentes preguntas, el nivel de atención prestado durante la clase. Mediante un Análisis de componentes principales se consiguió detectar una componente que valoraba el nivel de atención de los alumnos durante la clase.

Los resultados fueran los siguientes:

IMG_0525

Analizar las principales fuentes de variación del experimento.

Situación 72: Examen (Temas 4-7, 11 y 12)

1. Si queremos predecir si un estudiante aprobará un examen en función de las horas que ha dedicado a estudiar, debemos tener una muestra previa de casos reales ya examinados y aplicar una:

a. Regresión lineal simple.

b. Regresión no lineal múltiple.

c. Regresión logística simple.

d. Aquí no es posible aplicar ninguna Regresión puesto que estamos hablando de una probabilidad.

2. En una Regresión lineal simple podemos decir:

a. Que los coeficientes son positivos siempre.

b. Que los coeficientes son significativos siempre.

c. Que la decisión sobre la significación de la pendiente de la recta sigue la misma suerte que la decisión sobre la correlación entre las variables: si una es significativa la otra también lo es , si una no es significativa la otra tampoco lo es.

d. Que si la pendiente es significativa la ordenada en el origen también lo será. Y si la pendiente no es significativa la ordenada en el origen puede o no ser significativa.

3. En una Regresión lineal múltiple:

a. El modelo obtenido por el Forward stepwise y por el Backward stepwise es siempre el mismo.

b. Siempre se alcanza un modelo con al menos dos variables independientes.

c. Siempre se alcanza un modelo con al menos una variable independiente.

d. Ninguna de las tres opciones anteriores es cierta.

4. En el modelo y=5x+1, podemos decir:

a. Que la ordenada en el origen no es significativa porque es muy pequeña respecto a la pendiente.

b. Que la ordenada en el origen no es significativa porque es muy pequeña en valor absoluto.

c. Que la pendiente es significativa porque es muy grande en valor absoluto.

d. No podemos decir con seguridad ninguna de las tres cosas anteriores.

5. En un modelo y=2x-4 donde la pendiente tenga un intervalo de confianza del 95% como el siguiente: (0.5, 3.5), podemos decir:

a. No es significativo el valor de la pendiente porque en su intervalo de confianza tenemos el 1.

b. Es significativo el valor de la pendiente porque el intervalo de confianza no contiene al 0.

c. El error en las predicciones será menor del 5%.

d. El valor de la pendiente, a nivel poblacional, podemos asegurar que es 2.

6. En una Regresión logística simple con una Odds ratio igual a 2 i con un intervalo de confianza de esa Odds ratio de (0.6, 5) podemos afirmar:

a. Que hay una relación significativa entre las variables que estamos relacionando porque el intervalo no contiene al 0.

b. Que no es significativa la relación porque el intervalo contiene al 1.

c. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

7. En una Regresión logística simple con una Odds ratio igual a 0.2 i con un intervalo de confianza de esa Odds ratio de (0.05, 0.45) podemos afirmar:

a. Que no hay una relación significativa entre las variables que estamos relacionando porque el intervalo no contiene al 1.

b. Que es significativa la relación porque el intervalo no contiene al 0.

c. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

8. En una Regresión logística simple con un coeficiente b, que multiplica a la variable independiente, de 3 con un intervalo de confianza del 95% de (-1, 7), podemos afirmar:

a. Que un intervalo de confianza del 95% de la Odds ratio no incluirá al 1.

b. Que no es significativa la relación porque el intervalo de confianza contiene al 1.

c. Que no es significativa la relación porque el intervalo de confianza incluye al 0.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

9. En una Regresión logística simple con un coeficiente b, que multiplica a la variable independiente, de -2, con un intervalo de confianza del 95% de (-4, -1) podemos afirmar:

a. Que un intervalo de confianza del 95% de la Odds ratio incluirá al 1.

b. Que no es significativa la relación porque el intervalo no contiene al 0.

c. Que es significativa la relación porque el intervalo de confianza no incluye al 0.

d. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

10. Cuál de las siguientes Odds ratio indica una mayor relación entre las variables:

a. 0.2 con un IC 95%: (0.1, 0.4)

b. 5 con un IC 95%: (5, 10)

c. 0.1 con un IC 95%: (0.05, 0.3)

d. 11 con un IC 95%: (9, 15)

Solución Situación 71

1a: Un índice de Gini de 0.9 indica más dispersión de valores que en una con un índice de 0.3. Esto es precisamente lo que mide el índice de Gini: el grado de reparto desigual del total ganado.

2b: El tercer cuartil es 12 (promedio de 8 y 16) y el primero es 3 (promedio de 0 y 6). Por lo tanto, el rango intercuartílico es 9.

3c: Porque un intervalo de confianza de valores individuales del 95% se construiría sumando y restando dos veces la desviación estándar a la media y esto sería (80, 120).

4d: Cuando una correlación no es significativa y se aumenta el tamaño de muestra y acaba siendo significativa el signo final no tiene por qué ser el mismo del que teníamos cuando no era significativa tal correlación. Porque por eso no era significativa, porque todo estaba abierto todavía.

5a: El p-valor de una correlación nos sirve para saber si es o no significativa. El que el p-valor sea mucho menor de 0.05 no la transforma en más significativa. La significación es un todo o nada. Como la primera es la de mayor magnitud entre las correlaciones significativas se trata de la mayor.

6d: El coeficiente de determinación es grande. Un 81% es realmente grande, pero habrá cierto error en las prediciones. Únicamente no habría error si fuera del 100%.

7d: Observemos las siguientes muestras: (0, 0, 0, 2), (2, 2, 2, 4), (10, 10, 10, 12), (1000, 1000, 1000, 1002). Las cuatro muestras tienen una desviación estándar de 1, pero los índices de Gini pasan de ser muy grandes en la primera muestra a ser valores muy pequeños, próximos a 0, en la última. Observemos que en la primera todo lo gana una persona. En las demás, progresivamente cada vez queda más repartido el total ganado.

8b: La muestra (1, 3, 3, 12) tiene un mínimo de 1, un máximo de 12, un primer cuartil de 2, una mediana de 3 y un tercer cuartil de 7.5, como queda dibujado en el Box-Plot.

9b: Hay infinitas muestras posibles con este Box-Plot. Por ejemplo: (1, 1, 3, 3, 3, 3, 12, 12). Y, así sucesivamente, vamos añadiendo cada vez un 1, dos 3 y un 12, eso lo podemos hacer infinitas veces y siempre tendrán el mismo Box-Plot.

10c: Si no hay correlación significativa ya ni entramos a la opción de Regresión. ¿Para qué vamos a relacionar matemáticamente variables que no están relacionadas?