Archivo del Autor: estadisticallopis

Situación 75: Examen (Temas 4-9, 11 y 12)

1. Si tenemos que pronosticar la probabilidad de que una persona que pide una hipoteca acabe siendo moroso en función de los años que lleva cotizados tenemos que hacer una:

a. Regresión logística múltiple.

b. Regresión lineal simple.

c. Regresión logística simple.

d. Regresión múltiple.

 

2. Si tenemos el modelo y=2x1+3x2-5x3 es cierto:

a. Se trata de una Regresión no lineal.

b. Se trata de una Regresión logística múltiple.

c. Se trata de una Regresión múltiple.

d. Se trata de una Regresión multivariante.

 

3. Si en una Regresión simple con el modelo y=2x-3 con un p-valor para la pendiente: p<0.05, podemos afirmar:

a. El error es menor de 3.

b. La pendiente no es significativa.

c. La correlación es positiva pero no sabemos si es significativa.

d. El p-valor de la correlación será menor que 0.05.

 

4. En una Regresión logística múltiple con dos variables independientes donde el coeficiente a1 tiene un intervalo de confianza del 95%: (-0.5, 2.1) y el coeficiente a2 tiene un intervalo de confianza del 95%: (-0.8, -0.3), no podemos decir lo siguiente:

a. En un Stepwise se acabará eligiendo un modelo con únicamente la variable x2 como independiente.

b. Al aumentar el valor de x2 disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

c. Al aumentar el valor de x1 disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

d. La Odds ratio que evalúa la relación entre x2 y la variable dependiente es un valor significativo y menor que 1.

 

5. Elegir la Odds ratio que indique mayor grado de relación:

a. OR=0.25; IC 95%: (0.05, 0.67)

b. OR=5; IC 95%: (4.2, 7.3)

c. OR=0.2; IC 95%: (0.01, 1.67)

d. OR=10; IC 95%: (0.5, 62.3)

 

6. ¿Cuál de las siguientes afirmaciones no es cierta?

a. Si la correlación de Pearson no es significativa la R2 aunque sea muy grande no tiene valor como medida de la calidad de los pronósticos.

b. Si la correlación de Pearson es significativa una R2 de un 20% indica muy poca calidad pronóstica de nuestro modelo de Regresión.

c. La R2 es una medida del nivel de determinación de la variable dependiente por parte de la o de las variables independientes.

d. Una R2 del 90% es siempre un indicador de relación significativa.

 

7. Una Regresión múltiple con el modelo y=3x1-5x2+4, con intervalos de confinaza del 95% de (2, 4), de (-6, -4) y de (3, 5) respectivamente, para los tres parámetros del modelo nos indica:

a. Que en un Stepwise se tomaría sólo la x1 como variable independiente del modelo.

b. Que existe una correlación positiva significativa entre la variable dependiente y la variable independiente x1.

c. Que no existe relación entre la variable dependiente y esas dos variables independientes.

d. No podemos decir nada acerca de la relación entre la variable dependiente y las dos variables independientes.

 

8. En una Regresión logística simple en la que la Odds ratio tiene un IC del 95%: (1.82, 3.0), ¿cuál de los siguientes IC del 95% para el coeficiente que multiplica a la variable independiente continua es el correcto?

a. (0.6, 1.1).

b. (-0.3, 3.4).

c. (0.1, 5.5).

d. (-2.1, -0.5).

 

9. En una Regresión lineal simple con un modelo y=2x-3, con intervalo de confianza para la pendiente de (1.5, 2.5) podemos afirmar:

a.La correlación entre las dos variables es significativa porque el intervalo de confianza de la pendiente no contiene al 1.

b. La correlación entre las dos variables es significativa porque el intervalo de confianza de la pendiente no contiene al 0.

c. No podemos decir nada sobre la significación de la correlación. Necesitamos tener su p-valor.

d. Si tenemos un individuo con el valor x=10 tendrá un valor de y=17.

 

10. Si entre dos variables tenemos una correlación de r=-0.5 con una p=0.001, no podemos decir los siguiente:

a. El coeficiente de determinación es del 25%.

b. La correlación es negativa y significativa.

c. Al tratarse de una correlación significativa podemos realizar una regresión con suficiente capacidad de predicción.

d. La pendiente de la regresión lineal simple que hagamos será también negativa y con un p-valor inferior a 0.05.

 

 

 

 

 

 

 

Solución Situación 74

El modelo de este problema es el mismo de la Situación 45. Ver, por lo tanto, las indicaciones de la Solución de la Situación 45.

El factor «Ciencias» y el factor «Letras» es fijo. El factor «Alumno» es aleatorio y anidado dentro de la interacción.

En este problema la salida de ordenador es la siguiente:

IMG_0529

 

Como puede apreciarse, después de hacer los cocientes correspondientes, los factores significativos son «Letras» y «Alumnos». Al hacer las comparaciones múltiples en el factor «Letras» puede apreciarse que es un profesor el que da niveles de motivación por debajo, significativamente. Y sin interacción. No es pues la combinación con otros. Es siempre igual. Él hace bajar las valoraciones siempre.

Veamos el cálculo de la componente de la varianza:

IMG_0528

Solución Situación 73

El modelo de ANOVA es el mismo que el de la Situación 41. Ver, por lo tanto, el modelo en la Solución de la Situación 41.

«Centro» es un factor fijo, «Método» también. «Grupo», anidado dentro de «Centro», es aleatorio. «Método» está cruzado con «Centro» y con «Grupo».

En concreto la salida de ordenador para este problema es:

IMG_0531

 

No hay diferencias entre centros, sí entre métodos y sí entre grupos. No hay interacción significativa.

El cálculo de las componentes de la varianza es el siguiente:

IMG_0530

Evidentemente la componente de la varianza negativa se acabará dando como 0. De hecho, ya se trataba de un efecto no estadísticamente significativo.

 

Situación 74: Un problema de ANOVA

En una escuela se pretende establecer un sistema de tutorización mediante una combinación de dos profesores: uno de ciencias y uno de letras. Se han tomado los tres profesores de ciencias y los tres profesores de letras que harían esta labor para hacer un ensayo que busca detectar diferencias en cuanto a las combinaciones a hacer entre ellos. Se han tomado dos alumnos por combinación de profesores. Durante el trimestre de seguimiento se ha realizado tres encuestas donde los alumnos valoraban el nivel de estímulo obtenido por la autorización recibida. Los resultados son los siguientes:

IMG_0527

Analizar las principales fuentes de variación.

Situación 73: Un problema de ANOVA

Se ha hecho el siguiente experimento didáctico. Se tomaron tres escuelas (Una pública, otra privada y otra concertada) y dos grupos de 2º de ESO en cada uno de estos tres centros educativos con la finalidad de hablar de la diferencia entre todos los grupos de este nivel de secundaria. Un mismo profesor fue a explicar en dos días distintos dos temas diferentes utilizando dos métodos de explicación muy distintos: uno el tradicional con pizarra y el otro mediante un PowerPoint. Después de cada clase se les pasó a cinco alumnos una encuesta donde se evaluaba, mediante diferentes preguntas, el nivel de atención prestado durante la clase. Mediante un Análisis de componentes principales se consiguió detectar una componente que valoraba el nivel de atención de los alumnos durante la clase.

Los resultados fueran los siguientes:

IMG_0525

Analizar las principales fuentes de variación del experimento.

Artículo 9: A randomized trial of social media from Circulation

Se trata de un artículo muy original de diciembre de 2014. Se trata de un ensayo para evaluar si las redes sociales pueden aumentar el acceso a los artículos de esta importante revista médica (Circulation).

El abstract es el siguiente:

IMG_0389

El objetivo es hacer un estudio randomizado comparando artículos a los que se les hace una importante difusión mediática con artículos a los que no se les hace tal difusión.

Observemos que, en abstracto, es como un ensayo clínico. Se toman artículos y al azar se los va asignando al grupo tratamiento (difusión especial mediática) o al grupo control (la difusión habitual). En lugar de trabajar con pacientes se trabaja con artículos médicos, pero formalmente es un procedimiento idéntico.

En la parte de análisis estadístico es importante la elección del tamaño de muestra. Miremos cómo está formulado:

IMG_0390

IMG_0391

Es interesante ver cómo se elige este tamaño de muestra (119 por grupo) delimitando una potencia del 90% para detectar una diferencia de un 20% o una potencia del 80% para detectar una diferencia del 17%. Partiendo del supuesto que uno de los grupos tenga un orden de visualizaciones de 560 de media y una desviación estándar de 265. Esto significa que buscan una diferencia mínima a detectar, para considerar que el «tratamiento» (su difusión por las redes sociales) es efectivo, de un 20%, como mínimo respecto al valor medio de acceso a esos artículos.

La media y la desviación estándar estiman que puede ser 560 y 265, respectivamente. Esto significa que entre las visualizaciones a los diferentes artículos de la revista hay este nivel de media y de dispersión. Estos número seguro que salen de informaciones previas que tenían del grado de impacto de los artículos publicados en esa revista.

El 20% de 560 es 112, por lo tanto, esta diferencia de 112, ó más, es lo que se esperaría ver para poder decir que hay una diferencia destacable. Por lo tanto, establecemos, a priori, que si hay realmente una diferencia de 112 ó más, entre los dos grupos, hemos de determinar el tamaño de muestra requerido para tener esta potencia del 90%; o sea, una probabilidad del 90% ó más de detectar tal diferencia como estadísticamente significativa.

Hay diferentes calculadores para realizar esta determinación. A mí con el GRANMO (http://www.imim.cat/ofertadeserveis/software-public/granmo/) me sale que es 118 el tamaño necesario, pero esta diferencia puede ser atribuible a un distinto calculador usado. Observemos la entrada de datos necesaria en la versión del GRANMO para i-phone, para determinar el tamaño de muestra de este ensayo:

IMG_0398

El riesgo beta es 0.1 porque para detectar una diferencia del 20% se quiere tener una potencia del 90%. La potencia es 1-Beta pasado a tanto por ciento. En nuestro caso, 1-0.1=0.9, multiplicado por 100 es, entonces, 90%. El resultado obtenido con la calculadora es el siguiente:

IMG_0399

Al final los autores toman muestras de 121 y 122, respectivamente, por grupo.

Comparan los dos grupos para comprobar que se trata de dos grupos de artículos homogéneos:

IMG_0392

Como puede verse, es así. Se trata de dos grupos de artículos muy similares. Es importante comprobarlo para evitar atribuir las posibles diferencias a variables que nos confundan. No obstante, la randomización acostumbra a generar, por el azar usado, grupos homogéneos, especialmente si el tamaño de muestra es considerable.

Ahora se trata, pues, ya, de evaluar los accesos a esos artículos seleccionados, a los artículos de los dos grupos del ensayo, durante un tiempo, y, después, compararlos mediante la técnica de comparación de dos poblaciones. En este caso como se trata de una variable continua, de dos muestras independientes y, según nos dicen los autores, de variables que no se ajustan a la distribución normal, usan una técnica no paramétrica, el Test de Mann-Whitney o el Test de Wilcoxon de la suma de rangos. Los resultados son los siguientes:

IMG_0395

Nos muestran, los autores, los intervalos de las diferencias de medianas en el total y en distintos subgrupos de artículos. Como podemos ver se trata de diferencias no estadísticamente significativas. Los intervalos de confianza de las diferencias de medianas incluyen siempre al 0, lo que indica que se trata de diferencias no estadísticamente significativas.

La conclusión de los autores es que la propaganda a través de las redes sociales no incrementa los accesos a este tipo de artículos, que los profesionales acceden a ellos por otros canales de interés.

 

Número de centros educativos y de profesores en comarcas catalanas

Distribución, por comarcas en Catalunya, del número centros públicos y privados y del número de profesores en centros públicos y privados, en el curso 2012-2013:

Comarca Centros públicos Centros privados Profesores públicos Profesores privados
Alt Camp 4 2 219 35
Alt Empordà 14 4 641 89
Alt Penedès 9 6 427 122
Alt Urgell 3 1 115 31
Alta Ribagorça 1 0 38 0
Anoia 11 9 513 165
Bages 19 16 756 312
Baix Camp 19 10 905 221
Baix Ebre 10 4 475 74
Baix Empordà 11 5 573 100
Baix Llobregat 60 56 3059 1121
Baix Penedès 8 3 469 69
Barcelonès 115 253 5620 6754
Berguedà 5 2 166 77
Cerdanya 1 1 67 11
Conca de Barberà 3 1 91 11
Garraf 13 7 596 142
Garrigues 3 1 76 17
Garrotxa 5 3 238 55
Gironès 15 14 897 377
Maresme 32 34 1509 793
Montsià 9 2 384 28
Noguera 6 3 190 41
Osona 16 15 609 341
Pallars Jussà 3 1 91 10
Pallars Sobirà 2 0 47 0
Pla d’Urgell 3 1 138 51
Pla de l’Estany 3 1 179 14
Priorat 2 0 54 0
Ribera d’Ebre 3 1 112 11
Ripollès 4 2 109 35
Segarra 3 1 146 9
Segrià 20 15 986 396
Selva 19 5 796 86
Solsonès 3 1 69 35
Tarragonès 23 15 1305 367
Terra Alta 3 0 59 0
Urgell 7 2 200 38
Val d’Aran 2 0 57 0
Vallès Occidental 63 76 3309 1715

Base de datos sobre recursos hídricos en las CCAA españolas

A partir de datos del INE el año 2006 tenemos los siguientes datos, por comunidades autónomas, sobre recursos hídricos (con la codificación de las variables que a continuación se especifica):

V1=Volumen de agua disponible
V2=Procedente de la captación propia
V3=Aguas superficiales
V4=Aguas subterráneas
V5=Otros recursos hídricos
V6=Volumen de agua abastecida
V7=A los hogares
V8=Otros usos
V9=Pérdidas de agua en la red de distribución
V10=Porcentaje de agua perdida en la distribución
CCAA V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
   Andalucía 389 233 163 67 3 263 176 87 50 16,1
   Aragón 342 150 138 12 0 240 150 90 58 19,5
   Asturias, Principado de 383 214 160 54 0 279 184 95 30 9,6
   Balears, Illes 375 205 50 113 42 262 150 112 63 19,5
   Canarias 340 178 53 33 92 212 141 71 47 18,1
   Cantabria 435 121 98 9 14 316 201 115 104 24,8
   Castilla y León 409 267 213 54 0 250 147 103 52 17,3
   Castilla-La Mancha 335 279 161 118 0 239 166 73 55 18,7
   Cataluña 324 180 79 97 4 227 150 77 40 15,1
   Comunitat Valenciana 363 253 91 153 9 240 185 55 71 22,8
   Extremadura 462 379 354 25 0 281 183 98 64 18,5
   Galicia 293 248 212 36 0 227 159 68 46 16,8
   Madrid, Comunidad de 298 290 223 67 0 206 148 58 29 12,3
   Murcia, Región de 307 71 56 15 0 240 166 74 41 14,7
   Navarra, Comunidad Foral de 411 316 121 195 0 261 128 133 42 13,9
   País Vasco 323 280 272 7 1 243 129 114 35 12,7
   Rioja, La 383 361 230 131 0 269 148 121 53 16,3
   Ceuta y Melilla 385 385 24 206 155 189 140 49 99 34,2

Situación 72: Examen (Temas 4-7, 11 y 12)

1. Si queremos predecir si un estudiante aprobará un examen en función de las horas que ha dedicado a estudiar, debemos tener una muestra previa de casos reales ya examinados y aplicar una:

a. Regresión lineal simple.

b. Regresión no lineal múltiple.

c. Regresión logística simple.

d. Aquí no es posible aplicar ninguna Regresión puesto que estamos hablando de una probabilidad.

2. En una Regresión lineal simple podemos decir:

a. Que los coeficientes son positivos siempre.

b. Que los coeficientes son significativos siempre.

c. Que la decisión sobre la significación de la pendiente de la recta sigue la misma suerte que la decisión sobre la correlación entre las variables: si una es significativa la otra también lo es , si una no es significativa la otra tampoco lo es.

d. Que si la pendiente es significativa la ordenada en el origen también lo será. Y si la pendiente no es significativa la ordenada en el origen puede o no ser significativa.

3. En una Regresión lineal múltiple:

a. El modelo obtenido por el Forward stepwise y por el Backward stepwise es siempre el mismo.

b. Siempre se alcanza un modelo con al menos dos variables independientes.

c. Siempre se alcanza un modelo con al menos una variable independiente.

d. Ninguna de las tres opciones anteriores es cierta.

4. En el modelo y=5x+1, podemos decir:

a. Que la ordenada en el origen no es significativa porque es muy pequeña respecto a la pendiente.

b. Que la ordenada en el origen no es significativa porque es muy pequeña en valor absoluto.

c. Que la pendiente es significativa porque es muy grande en valor absoluto.

d. No podemos decir con seguridad ninguna de las tres cosas anteriores.

5. En un modelo y=2x-4 donde la pendiente tenga un intervalo de confianza del 95% como el siguiente: (0.5, 3.5), podemos decir:

a. No es significativo el valor de la pendiente porque en su intervalo de confianza tenemos el 1.

b. Es significativo el valor de la pendiente porque el intervalo de confianza no contiene al 0.

c. El error en las predicciones será menor del 5%.

d. El valor de la pendiente, a nivel poblacional, podemos asegurar que es 2.

6. En una Regresión logística simple con una Odds ratio igual a 2 i con un intervalo de confianza de esa Odds ratio de (0.6, 5) podemos afirmar:

a. Que hay una relación significativa entre las variables que estamos relacionando porque el intervalo no contiene al 0.

b. Que no es significativa la relación porque el intervalo contiene al 1.

c. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

7. En una Regresión logística simple con una Odds ratio igual a 0.2 i con un intervalo de confianza de esa Odds ratio de (0.05, 0.45) podemos afirmar:

a. Que no hay una relación significativa entre las variables que estamos relacionando porque el intervalo no contiene al 1.

b. Que es significativa la relación porque el intervalo no contiene al 0.

c. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

8. En una Regresión logística simple con un coeficiente b, que multiplica a la variable independiente, de 3 con un intervalo de confianza del 95% de (-1, 7), podemos afirmar:

a. Que un intervalo de confianza del 95% de la Odds ratio no incluirá al 1.

b. Que no es significativa la relación porque el intervalo de confianza contiene al 1.

c. Que no es significativa la relación porque el intervalo de confianza incluye al 0.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

9. En una Regresión logística simple con un coeficiente b, que multiplica a la variable independiente, de -2, con un intervalo de confianza del 95% de (-4, -1) podemos afirmar:

a. Que un intervalo de confianza del 95% de la Odds ratio incluirá al 1.

b. Que no es significativa la relación porque el intervalo no contiene al 0.

c. Que es significativa la relación porque el intervalo de confianza no incluye al 0.

d. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

10. Cuál de las siguientes Odds ratio indica una mayor relación entre las variables:

a. 0.2 con un IC 95%: (0.1, 0.4)

b. 5 con un IC 95%: (5, 10)

c. 0.1 con un IC 95%: (0.05, 0.3)

d. 11 con un IC 95%: (9, 15)