Archivo del Autor: estadisticallopis

Situación 75: Examen (Temas 4-9, 11 y 12)

1. Si tenemos que pronosticar la probabilidad de que una persona que pide una hipoteca acabe siendo moroso en función de los años que lleva cotizados tenemos que hacer una:

a. Regresión logística múltiple.

b. Regresión lineal simple.

c. Regresión logística simple.

d. Regresión múltiple.

2. Si tenemos el modelo y=2x₁+3x₂-5x₃ es cierto:

a. Se trata de una Regresión no lineal.

b. Se trata de una Regresión logística múltiple.

c. Se trata de una Regresión múltiple.

d. Se trata de una Regresión multivariante.

3. Si en una Regresión simple con el modelo y=2x-3 con un p-valor para la pendiente: p<0.05, podemos afirmar:

a. El error es menor de 3.

b. La pendiente no es significativa.

c. La correlación es positiva pero no sabemos si es significativa.

d. El p-valor de la correlación será menor que 0.05.

4. En una Regresión logística múltiple con dos variables independientes donde el coeficiente a₁ tiene un intervalo de confianza del 95%: (-0.5, 2.1) y el coeficiente a₂ tiene un intervalo de confianza del 95%: (-0.8, -0.3), no podemos decir lo siguiente:

a. En un Stepwise se acabará eligiendo un modelo con únicamente la variable x₂ como independiente.

b. Al aumentar el valor de x₂ disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

c. Al aumentar el valor de x₁ disminuye la probabilidad del fenómeno codificado con un 1 en la variable dependiente.

d. La Odds ratio que evalúa la relación entre x₂ y la variable dependiente es un valor significativo y menor que 1.

5. Elegir la Odds ratio que indique mayor grado de relación:

a. OR=0.25; IC 95%: (0.05, 0.67)

b. OR=5; IC 95%: (4.2, 7.3)

c. OR=0.2; IC 95%: (0.01, 1.67)

d. OR=10; IC 95%: (0.5, 62.3)

6. ¿Cuál de las siguientes afirmaciones no es cierta?

a. Si la correlación de Pearson no es significativa la R² aunque sea muy grande no tiene valor como medida de la calidad de los pronósticos.

b. Si la correlación de Pearson es significativa una R² de un 20% indica muy poca calidad pronóstica de nuestro modelo de Regresión.

c. La R² es una medida del nivel de determinación de la variable dependiente por parte de la o de las variables independientes.

d. Una R² del 90% es siempre un indicador de relación significativa.

7. Una Regresión múltiple con el modelo y=3x₁-5x₂+4, con intervalos de confinaza del 95% de (2, 4), de (-6, -4) y de (3, 5) respectivamente, para los tres parámetros del modelo nos indica:

a. Que en un Stepwise se tomaría sólo la x₁ como variable independiente del modelo.

b. Que existe una correlación positiva significativa entre la variable dependiente y la variable independiente x₁.

c. Que no existe relación entre la variable dependiente y esas dos variables independientes.

d. No podemos decir nada acerca de la relación entre la variable dependiente y las dos variables independientes.

8. En una Regresión logística simple en la que la Odds ratio tiene un IC del 95%: (1.82, 3.0), ¿cuál de los siguientes IC del 95% para el coeficiente que multiplica a la variable independiente continua es el correcto?

a. (0.6, 1.1).

b. (-0.3, 3.4).

c. (0.1, 5.5).

d. (-2.1, -0.5).

9. En una Regresión lineal simple con un modelo y=2x-3, con intervalo de confianza para la pendiente de (1.5, 2.5) podemos afirmar:

a.La correlación entre las dos variables es significativa porque el intervalo de confianza de la pendiente no contiene al 1.

b. La correlación entre las dos variables es significativa porque el intervalo de confianza de la pendiente no contiene al 0.

c. No podemos decir nada sobre la significación de la correlación. Necesitamos tener su p-valor.

d. Si tenemos un individuo con el valor x=10 tendrá un valor de y=17.

10. Si entre dos variables tenemos una correlación de r=-0.5 con una p=0.001, no podemos decir los siguiente:

a. El coeficiente de determinación es del 25%.

b. La correlación es negativa y significativa.

c. Al tratarse de una correlación significativa podemos realizar una regresión con suficiente capacidad de predicción.

d. La pendiente de la regresión lineal simple que hagamos será también negativa y con un p-valor inferior a 0.05.

Solución Situación 74

Deja un comentario

El modelo de este problema es el mismo de la Situación 45. Ver, por lo tanto, las indicaciones de la Solución de la Situación 45.

El factor «Ciencias» y el factor «Letras» es fijo. El factor «Alumno» es aleatorio y anidado dentro de la interacción.

En este problema la salida de ordenador es la siguiente:

Como puede apreciarse, después de hacer los cocientes correspondientes, los factores significativos son «Letras» y «Alumnos». Al hacer las comparaciones múltiples en el factor «Letras» puede apreciarse que es un profesor el que da niveles de motivación por debajo, significativamente. Y sin interacción. No es pues la combinación con otros. Es siempre igual. Él hace bajar las valoraciones siempre.

Veamos el cálculo de la componente de la varianza:

Solución Situación 73

Deja un comentario

El modelo de ANOVA es el mismo que el de la Situación 41. Ver, por lo tanto, el modelo en la Solución de la Situación 41.

«Centro» es un factor fijo, «Método» también. «Grupo», anidado dentro de «Centro», es aleatorio. «Método» está cruzado con «Centro» y con «Grupo».

En concreto la salida de ordenador para este problema es:

No hay diferencias entre centros, sí entre métodos y sí entre grupos. No hay interacción significativa.

El cálculo de las componentes de la varianza es el siguiente:

Evidentemente la componente de la varianza negativa se acabará dando como 0. De hecho, ya se trataba de un efecto no estadísticamente significativo.

Situación 74: Un problema de ANOVA

Deja un comentario

En una escuela se pretende establecer un sistema de tutorización mediante una combinación de dos profesores: uno de ciencias y uno de letras. Se han tomado los tres profesores de ciencias y los tres profesores de letras que harían esta labor para hacer un ensayo que busca detectar diferencias en cuanto a las combinaciones a hacer entre ellos. Se han tomado dos alumnos por combinación de profesores. Durante el trimestre de seguimiento se ha realizado tres encuestas donde los alumnos valoraban el nivel de estímulo obtenido por la autorización recibida. Los resultados son los siguientes:

Analizar las principales fuentes de variación.

Situación 73: Un problema de ANOVA

Deja un comentario

Se ha hecho el siguiente experimento didáctico. Se tomaron tres escuelas (Una pública, otra privada y otra concertada) y dos grupos de 2º de ESO en cada uno de estos tres centros educativos con la finalidad de hablar de la diferencia entre todos los grupos de este nivel de secundaria. Un mismo profesor fue a explicar en dos días distintos dos temas diferentes utilizando dos métodos de explicación muy distintos: uno el tradicional con pizarra y el otro mediante un PowerPoint. Después de cada clase se les pasó a cinco alumnos una encuesta donde se evaluaba, mediante diferentes preguntas, el nivel de atención prestado durante la clase. Mediante un Análisis de componentes principales se consiguió detectar una componente que valoraba el nivel de atención de los alumnos durante la clase.

Los resultados fueran los siguientes:

Analizar las principales fuentes de variación del experimento.

Solución Situación 72

Deja un comentario

10d

Artículo 9: A randomized trial of social media from Circulation

Deja un comentario

Se trata de un artículo muy original de diciembre de 2014. Se trata de un ensayo para evaluar si las redes sociales pueden aumentar el acceso a los artículos de esta importante revista médica (Circulation).

El abstract es el siguiente:

El objetivo es hacer un estudio randomizado comparando artículos a los que se les hace una importante difusión mediática con artículos a los que no se les hace tal difusión.

Observemos que, en abstracto, es como un ensayo clínico. Se toman artículos y al azar se los va asignando al grupo tratamiento (difusión especial mediática) o al grupo control (la difusión habitual). En lugar de trabajar con pacientes se trabaja con artículos médicos, pero formalmente es un procedimiento idéntico.

En la parte de análisis estadístico es importante la elección del tamaño de muestra. Miremos cómo está formulado:

Es interesante ver cómo se elige este tamaño de muestra (119 por grupo) delimitando una potencia del 90% para detectar una diferencia de un 20% o una potencia del 80% para detectar una diferencia del 17%. Partiendo del supuesto que uno de los grupos tenga un orden de visualizaciones de 560 de media y una desviación estándar de 265. Esto significa que buscan una diferencia mínima a detectar, para considerar que el «tratamiento» (su difusión por las redes sociales) es efectivo, de un 20%, como mínimo respecto al valor medio de acceso a esos artículos.

La media y la desviación estándar estiman que puede ser 560 y 265, respectivamente. Esto significa que entre las visualizaciones a los diferentes artículos de la revista hay este nivel de media y de dispersión. Estos número seguro que salen de informaciones previas que tenían del grado de impacto de los artículos publicados en esa revista.

El 20% de 560 es 112, por lo tanto, esta diferencia de 112, ó más, es lo que se esperaría ver para poder decir que hay una diferencia destacable. Por lo tanto, establecemos, a priori, que si hay realmente una diferencia de 112 ó más, entre los dos grupos, hemos de determinar el tamaño de muestra requerido para tener esta potencia del 90%; o sea, una probabilidad del 90% ó más de detectar tal diferencia como estadísticamente significativa.

Hay diferentes calculadores para realizar esta determinación. A mí con el GRANMO (http://www.imim.cat/ofertadeserveis/software-public/granmo/) me sale que es 118 el tamaño necesario, pero esta diferencia puede ser atribuible a un distinto calculador usado. Observemos la entrada de datos necesaria en la versión del GRANMO para i-phone, para determinar el tamaño de muestra de este ensayo:

El riesgo beta es 0.1 porque para detectar una diferencia del 20% se quiere tener una potencia del 90%. La potencia es 1-Beta pasado a tanto por ciento. En nuestro caso, 1-0.1=0.9, multiplicado por 100 es, entonces, 90%. El resultado obtenido con la calculadora es el siguiente:

Al final los autores toman muestras de 121 y 122, respectivamente, por grupo.

Comparan los dos grupos para comprobar que se trata de dos grupos de artículos homogéneos:

Como puede verse, es así. Se trata de dos grupos de artículos muy similares. Es importante comprobarlo para evitar atribuir las posibles diferencias a variables que nos confundan. No obstante, la randomización acostumbra a generar, por el azar usado, grupos homogéneos, especialmente si el tamaño de muestra es considerable.

Ahora se trata, pues, ya, de evaluar los accesos a esos artículos seleccionados, a los artículos de los dos grupos del ensayo, durante un tiempo, y, después, compararlos mediante la técnica de comparación de dos poblaciones. En este caso como se trata de una variable continua, de dos muestras independientes y, según nos dicen los autores, de variables que no se ajustan a la distribución normal, usan una técnica no paramétrica, el Test de Mann-Whitney o el Test de Wilcoxon de la suma de rangos. Los resultados son los siguientes:

Nos muestran, los autores, los intervalos de las diferencias de medianas en el total y en distintos subgrupos de artículos. Como podemos ver se trata de diferencias no estadísticamente significativas. Los intervalos de confianza de las diferencias de medianas incluyen siempre al 0, lo que indica que se trata de diferencias no estadísticamente significativas.

La conclusión de los autores es que la propaganda a través de las redes sociales no incrementa los accesos a este tipo de artículos, que los profesionales acceden a ellos por otros canales de interés.

Número de centros educativos y de profesores en comarcas catalanas

Deja un comentario

Distribución, por comarcas en Catalunya, del número centros públicos y privados y del número de profesores en centros públicos y privados, en el curso 2012-2013:

Comarca	Centros públicos	Centros privados	Profesores públicos	Profesores privados
Alt Camp	4	2	219	35
Alt Empordà	14	4	641	89
Alt Penedès	9	6	427	122
Alt Urgell	3	1	115	31
Alta Ribagorça	1	0	38	0
Anoia	11	9	513	165
Bages	19	16	756	312
Baix Camp	19	10	905	221
Baix Ebre	10	4	475	74
Baix Empordà	11	5	573	100
Baix Llobregat	60	56	3059	1121
Baix Penedès	8	3	469	69
Barcelonès	115	253	5620	6754
Berguedà	5	2	166	77
Cerdanya	1	1	67	11
Conca de Barberà	3	1	91	11
Garraf	13	7	596	142
Garrigues	3	1	76	17
Garrotxa	5	3	238	55
Gironès	15	14	897	377
Maresme	32	34	1509	793
Montsià	9	2	384	28
Noguera	6	3	190	41
Osona	16	15	609	341
Pallars Jussà	3	1	91	10
Pallars Sobirà	2	0	47	0
Pla d’Urgell	3	1	138	51
Pla de l’Estany	3	1	179	14
Priorat	2	0	54	0
Ribera d’Ebre	3	1	112	11
Ripollès	4	2	109	35
Segarra	3	1	146	9
Segrià	20	15	986	396
Selva	19	5	796	86
Solsonès	3	1	69	35
Tarragonès	23	15	1305	367
Terra Alta	3	0	59	0
Urgell	7	2	200	38
Val d’Aran	2	0	57	0
Vallès Occidental	63	76	3309	1715

Base de datos sobre recursos hídricos en las CCAA españolas

Deja un comentario

A partir de datos del INE el año 2006 tenemos los siguientes datos, por comunidades autónomas, sobre recursos hídricos (con la codificación de las variables que a continuación se especifica):

V1=Volumen de agua disponible

V2=Procedente de la captación propia

V3=Aguas superficiales

V4=Aguas subterráneas

V5=Otros recursos hídricos

V6=Volumen de agua abastecida

V7=A los hogares

V8=Otros usos

V9=Pérdidas de agua en la red de distribución

V10=Porcentaje de agua perdida en la distribución

CCAA	V1	V2	V3	V4	V5	V6	V7	V8	V9	V10
Andalucía	389	233	163	67	3	263	176	87	50	16,1
Aragón	342	150	138	12	0	240	150	90	58	19,5
Asturias, Principado de	383	214	160	54	0	279	184	95	30	9,6
Balears, Illes	375	205	50	113	42	262	150	112	63	19,5
Canarias	340	178	53	33	92	212	141	71	47	18,1
Cantabria	435	121	98	9	14	316	201	115	104	24,8
Castilla y León	409	267	213	54	0	250	147	103	52	17,3
Castilla-La Mancha	335	279	161	118	0	239	166	73	55	18,7
Cataluña	324	180	79	97	4	227	150	77	40	15,1
Comunitat Valenciana	363	253	91	153	9	240	185	55	71	22,8
Extremadura	462	379	354	25	0	281	183	98	64	18,5
Galicia	293	248	212	36	0	227	159	68	46	16,8
Madrid, Comunidad de	298	290	223	67	0	206	148	58	29	12,3
Murcia, Región de	307	71	56	15	0	240	166	74	41	14,7
Navarra, Comunidad Foral de	411	316	121	195	0	261	128	133	42	13,9
País Vasco	323	280	272	7	1	243	129	114	35	12,7
Rioja, La	383	361	230	131	0	269	148	121	53	16,3
Ceuta y Melilla	385	385	24	206	155	189	140	49	99	34,2

Situación 72: Examen (Temas 4-7, 11 y 12)

Deja un comentario

1. Si queremos predecir si un estudiante aprobará un examen en función de las horas que ha dedicado a estudiar, debemos tener una muestra previa de casos reales ya examinados y aplicar una:

a. Regresión lineal simple.

b. Regresión no lineal múltiple.

c. Regresión logística simple.

d. Aquí no es posible aplicar ninguna Regresión puesto que estamos hablando de una probabilidad.

2. En una Regresión lineal simple podemos decir:

a. Que los coeficientes son positivos siempre.

b. Que los coeficientes son significativos siempre.

c. Que la decisión sobre la significación de la pendiente de la recta sigue la misma suerte que la decisión sobre la correlación entre las variables: si una es significativa la otra también lo es , si una no es significativa la otra tampoco lo es.

d. Que si la pendiente es significativa la ordenada en el origen también lo será. Y si la pendiente no es significativa la ordenada en el origen puede o no ser significativa.

3. En una Regresión lineal múltiple:

a. El modelo obtenido por el Forward stepwise y por el Backward stepwise es siempre el mismo.

b. Siempre se alcanza un modelo con al menos dos variables independientes.

c. Siempre se alcanza un modelo con al menos una variable independiente.

d. Ninguna de las tres opciones anteriores es cierta.

4. En el modelo y=5x+1, podemos decir:

a. Que la ordenada en el origen no es significativa porque es muy pequeña respecto a la pendiente.

b. Que la ordenada en el origen no es significativa porque es muy pequeña en valor absoluto.

c. Que la pendiente es significativa porque es muy grande en valor absoluto.

d. No podemos decir con seguridad ninguna de las tres cosas anteriores.

5. En un modelo y=2x-4 donde la pendiente tenga un intervalo de confianza del 95% como el siguiente: (0.5, 3.5), podemos decir:

a. No es significativo el valor de la pendiente porque en su intervalo de confianza tenemos el 1.

b. Es significativo el valor de la pendiente porque el intervalo de confianza no contiene al 0.

c. El error en las predicciones será menor del 5%.

d. El valor de la pendiente, a nivel poblacional, podemos asegurar que es 2.

6. En una Regresión logística simple con una Odds ratio igual a 2 i con un intervalo de confianza de esa Odds ratio de (0.6, 5) podemos afirmar:

a. Que hay una relación significativa entre las variables que estamos relacionando porque el intervalo no contiene al 0.

b. Que no es significativa la relación porque el intervalo contiene al 1.

c. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

7. En una Regresión logística simple con una Odds ratio igual a 0.2 i con un intervalo de confianza de esa Odds ratio de (0.05, 0.45) podemos afirmar:

a. Que no hay una relación significativa entre las variables que estamos relacionando porque el intervalo no contiene al 1.

b. Que es significativa la relación porque el intervalo no contiene al 0.

c. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

8. En una Regresión logística simple con un coeficiente b, que multiplica a la variable independiente, de 3 con un intervalo de confianza del 95% de (-1, 7), podemos afirmar:

a. Que un intervalo de confianza del 95% de la Odds ratio no incluirá al 1.

b. Que no es significativa la relación porque el intervalo de confianza contiene al 1.

c. Que no es significativa la relación porque el intervalo de confianza incluye al 0.

d. Que al aumentar el valor de la variable cuantitativa disminuye la probabilidad de que se dé el suceso codificado con un 1.

9. En una Regresión logística simple con un coeficiente b, que multiplica a la variable independiente, de -2, con un intervalo de confianza del 95% de (-4, -1) podemos afirmar:

a. Que un intervalo de confianza del 95% de la Odds ratio incluirá al 1.

b. Que no es significativa la relación porque el intervalo no contiene al 0.

c. Que es significativa la relación porque el intervalo de confianza no incluye al 0.

d. Que al aumentar el valor de la variable cuantitativa aumenta la probabilidad de que se dé el suceso codificado con un 1.

10. Cuál de las siguientes Odds ratio indica una mayor relación entre las variables:

a. 0.2 con un IC 95%: (0.1, 0.4)

b. 5 con un IC 95%: (5, 10)

c. 0.1 con un IC 95%: (0.05, 0.3)

d. 11 con un IC 95%: (9, 15)

LA MATEMÁTICA Y LA ESTADÍSTICA: UNA ORQUESTA HECHA INSTRUMENTO

Unas gramáticas de la Gramática de la Matemática y de la Estadística. Jaume Llopis Pérez.

Archivo del Autor: estadisticallopis

Situación 75: Examen (Temas 4-9, 11 y 12)

Solución Situación 74

Solución Situación 73

Situación 74: Un problema de ANOVA

Situación 73: Un problema de ANOVA

Solución Situación 72

Artículo 9: A randomized trial of social media from Circulation

Número de centros educativos y de profesores en comarcas catalanas

Base de datos sobre recursos hídricos en las CCAA españolas

Situación 72: Examen (Temas 4-7, 11 y 12)