Archivo de la categoría: PROBLEMAS

Solución Situación 51

1d:

Antes de la aplicación de un test estadístico no podemos decir si la diferencia que vemos es o no significativa. El test es el que nos dará el p-valor, la significación, no los valores de porcentajes que hemos calculado a las muestras.

2d:

La «a» no puede ser porque si nos dicen que la ji.cuadrado ha dado resultado significativo el p-valor debe ser menor que 0.05, no mayor.

La «b» tampoco lo es porque hemos hablado de dos variables cualitativas no de que cada variable cualitativa tenga dos valores posibles, que es lo que nos llevaría a tener una tabla de contingencias de 2×2.

La «c» también es incorrecta. El concepto de relación positiva y negativa es exclusivo de la relación entre variables cuantitativas. Nunca se usa en variables cualitativas.

Lo que dice la «d» efectivamente es cierto: El valor de la V de Cramer sólo tiene sentido evaluarlo, considerarlo, si la ji-cuadrado

3a:

La «b» es absurda, evidentemente.

La «d» también es fácilmente descartable porque es evidente que no estamos ante una variable dicotómica, sino que estamos ante una variable continua.

Respecto a la «a» y la «c». Observemos que nos piden cuál es la respuesta más razonable. La «a» es más razonable que la «c». Por lo siguiente: En la «c» se afirma categóricamente que las notas son una distribución normal, cosa que no es verdad, en general. Y menos si uno observa los datos que nos da el problema de la muestra de estudiantes franceses donde se observa claramente la distribución no normal, no de campana de Gauss. Es cierto que esto debe comprobarse con un test de ajuste a la distribución normal, pero parece claro lo que nos dará un test como este (por ejemplo, el Test de Shapiro-Wilk). La respuesta «a» es, pues, más razonable. Nos dice que aplicaremos un Mann-Whitney porque se aprecia una no normalidad de una de las dos muestras. Es verdad que esta no normalidad la debemos comprobar siempre pero es cierto que aquí parece muy claro lo que nos dará.

4b:

Una pista no nos debe hacer dudar de cuál es la respuesta correcta: Correlación positiva va siempre asociado a una regresión con pendiente positiva. Correlación negativa va siempre asociada a una regresión con pendiente negativa. La única regresión con pendiente negativa que tenemos aquí es la que nos da la respuesta «b».

5b:

No tenemos ninguna información que nos permita decir que el rango es 5.

Como 14 es el primer cuartil por debajo de este valor tenemos el 25% de los valores, no el 50%.

Entre 15 y 35 tenemos el mismo porcentaje de valores que entre 14 y 15: un 25%.

La más razonable es la b: la muestra parece no seguir una distribución normal. El hecho de que la mediana esté tan próxima al primer cuartil y tal alejada, relativamente, al tercer cuartil, muestra una enorme asimetría que romperá la distribución normal de la variable en esta muestra.

Situación 51: Examen (Temas 5-14)

1) Si tenemos una muestra de una población donde hay un 50% de mujeres y una muestra de otra población donde hay un 30% de mujeres, ¿qué afirmación es cierta?

a) Como hay una diferencia superior al 5% tenemos un p-valor inferior a 0.05.

b ) La diferencia no es estadísticamente significativa.

c) La diferencia es estadísticamente significativa pero de baja magnitud.

d) Deberíamos aplicar un test estadístico para comprobar la significación de esta diferencia.

2) Si nos dicen que hemos estudiado dos variables cualitativas y que mediante un test de la ji-cuadrado hemos comprobado la relación entre ellas y tenemos una V de Cramer de 0.9, ¿qué afirmación es cierta?

a) El p-valor de la ji-cuadrado es mayor que 0.05.

b) La tabla de contingencias con la que se ha trabajado es una tabla 2×2.

c) La relación entre estas dos variables es positiva.

d) El valor calculado por la V de Cramer sólo tiene sentido valorarlo si el p-valor de la ji-cuadrado es menor que 0.05.

3) Tenemos que comparar el nivel de conocimientos de castellano de 100 estudiantes de secundaria franceses con 100 estudiantes también de secundaria alemanes, evaluado en un examen común mediante una nota entre el 0 y el 10. Sabemos que en la muestra francesa el percentil 25 es un 0, el 50 es un 1 y el 75 es un 3 y la nota máxima un 9.95. ¿Qué respuesta parece más razonable?

a) Aplicaremos un test de Mann-Withney para comparar el nivel de conocimientos de castellano de ambas poblaciones porque la muestra de la que tenemos información (la muestra de los estudiantes franceses) no parece ajustarse, ni mucho menos, a una distribución normal.

b) El nivel de conocimientos de los estudiantes franceses es superior porque Francia está más cerca de España.

c) Aplicaremos un test de la t de Student porque las notas del 0 al 10 es una variable continua y siempre con distribución normal.

d) Aplicaremos un test de comparación de proporciones.

4) Si dos variables tienen una correlación de Pearson r=-0.8 (p<0.05), ¿cuál es el único modelo de regresión simple compatible con esta información?

a) y=7x+12

b) y=-5x+3

c) y=2x-12

d) Ninguno de los tres anteriores porque al ser la correlación no significativa no tiene sentido hacer una regresión.

5) Nos dicen que una variable cuantitativa queda descrita mediante los siguientes números: 15(14, 35), representando la mediana y el rango intercuartílico, expresado éste mediante el primer y tercer cuartil. ¿Qué respuesta es la más razonable?

a) El rango es 50.

b) La muestra no sigue una distribución normal.

c) En la muestra el 50% de individuos tienen un valor por debajo de 14.

d) Entre los valores de 15 y 35 tenemos el doble de individuos que entre 14 y 15.

Situación 50: Un problema de ciencias humanas

Los siguientes datos han sido tomados en la contemplación de un cuadro de Velazquez (“Las meninas”). Las variables son el sexo, si tienen formación universitaria o no, si están o no relacionados con el mundo del Arte (por estudios o por trabajo), el tiempo dedicado a contemplar el cuadro o tiempo de visualización (en minutos), la velocidad media de la mirada (en cm/seg) y el número de veces que han parado la mirada durante la visualización del cuadro. Los datos han sido tomados con una cámara oculta y los valores complementarios (estudios y profesión) se les pregunta una vez han dejado de contemplar el cuadro para no influir en la calidad y la cantidad de la mirada:

Sexo (Varón)

Universitario

Relacionado con el Arte

Tiempo de visualización

Velocidad media del ojo

Número de paradas

1

1

1

12

2

10

1

1

1

6

5

7

1

1

1

8

4

7

1

1

1

7

3

5

1

1

0

3

10

2

1

0

1

9

3

8

1

0

1

7

4

6

1

0

1

6

5

6

1

0

0

2

7

0

1

0

0

3

8

6

0

1

1

9

3

7

0

1

1

8

4

7

0

1

1

11

1

8

0

1

1

8

3

5

0

1

0

1

10

0

0

0

1

7

4

2

0

0

1

3

6

2

0

0

0

6

3

4

0

0

0

5

7

2

0

0

0

2

9

2

1. Calcular la correlación de Pearson entre las diferentes variables cuantitativas.

2. Realizar una Regresión lineal simple entre la variable Número de paradas y la variable Tiempo de visualización. Se quiere, en un futuro, poder predecir el número de paradas que ha hecho un observador en función del tiempo de visualización.

3. Comprobar si hay relación entre Sexo y el estar o no relacionado con el Arte.

4. ¿Cuál seria la mejor variable entre las tres cuantitativas (Tiempo de visualización, Velocidad media del ojo y Número de paradas) para predecir si una persona está relacionada o no con el mundo del Arte?

Solución Situación 49

Las respuestas a las preguntas planteadas son las siguientes:

1. Una estadística básica de la variable Valoración de Tv3, con los estadísticos solicitados, es la siguiente:

IMG_7318

Y el Box-Plot sería el siguiente:

IMG_7319

2. Una estadística descriptiva (frecuencias absolutas y frecuencias relativas) de la variable cualitativa Tendencia política sería la siguiente:

IMG_7320

3. Las correlaciones de Pearson de las valoraciones de las tres cadenas de televisión son las siguientes:

IMG_7321

4. La tabla de contingencias del cruce entre las variables cualitativas Sexo y Tendencia política es la siguiente:

IMG_7322

Y la ji-cuadrado es la siguiente:

IMG_7323

5. La ji-cuadrado entre Sexo y Tv5 aprueba es la siguiente:

IMG_7324

6. La ji-cuadrado entre Sexo y Tv3 aprueba es la siguiente:

IMG_7325

7. La ji-cuadrado entre Tendencia política y Tv3 aprueba es la siguiente:

IMG_7326

Y la tabla de contingencias es la siguiente:

IMG_7327

8. La ji-cuadrado entre Tendencia política y Tv5 aprueba es la siguiente:

IMG_7328

Y la tabla de contingencias es:

IMG_7329

9. La ji-cuadrado entre Tendencia política y Tv1 aprueba es la siguiente:

IMG_7330

Y la tabla de contingencias:

IMG_7331

10. Las V de Cramer entre Tendencia y política y las variables Tv3 aprueba, Tv1 aprueba y Tv5 aprueba son las siguientes:

IMG_7332

IMG_7333

IMG_7334

Situación 49: Un problema de ciencias sociales

Supongamos que hemos hecho una encuesta a 40 personas, 20 hombres y 20 mujeres. Hemos preguntado la tendencia política: (Izquierda, Centro o Derecha, codificado como i, c y d, respectivamente). Hemos pedido, también, una valoración del 0 al 10 de tres cadenas de televisión (Tv3, Tv1 y Tv5). En la matriz de datos que a continuación se proporciona esta valoración se presenta, también, transformada a variable dicotómica (Tv3 aprueba, Tv1 aprueba y Tv5 aprueba) según la valoración cuantitativa sea superior o igual a 5 ó no.

La matriz de datos es la siguiente (Esta matriz de datos se puede copiar y pegar en el excel y luego exportarlo a un software estadístico. No es necesario volverla a escribir):

Sexo Tendencia política Valoración Tv3 Valoración Tv1 Valoración Tv5 Tv3 aprueba Tv1 aprueba Tv5 aprueba
h d 7 6 6 Si Si Si
h i 6 7 2 Si Si No
h c 5 5 3 Si Si No
h c 9 8 4 Si Si No
h i 8 6 3 Si Si No
h i 8 6 4 Si Si No
h i 5 5 5 Si Si Si
h d 3 5 8 No Si Si
h i 9 7 3 Si Si No
h i 9 7 3 Si Si No
h i 7 6 4 Si Si No
h d 2 4 8 No No Si
h d 4 5 5 No Si Si
h i 7 8 2 Si Si No
h i 9 8 2 Si Si No
h i 6 7 0 Si Si No
h d 4 5 5 No Si Si
h c 9 8 4 Si Si No
h c 9 7 4 Si Si No
h c 6 7 3 Si Si No
m c 7 7 7 Si Si Si
m c 8 6 7 Si Si Si
m d 5 5 8 Si Si Si
m d 7 7 7 Si Si Si
m i 8 7 6 Si Si Si
m i 9 9 4 Si Si No
m i 9 8 3 Si Si No
m i 5 7 0 Si Si No
m c 6 8 6 Si Si Si
m c 8 9 7 Si Si Si
m c 8 9 5 Si Si Si
m i 7 8 2 Si Si No
m i 6 7 2 Si Si No
m i 6 7 5 Si Si Si
m c 8 8 7 Si Si Si
m d 2 5 7 No Si Si
m i 8 7 4 Si Si No
m i 7 8 3 Si Si No
m i 7 8 2 Si Si No
m d 4 6 8 No Si Si

Calcular:

1. Una estadística descriptiva básica (media, mediana, desviación típica o estándar, rango, cuartil inferior o primer cuartil, cuartil superior o tercer cuartil y rango intercuartílico) de la variable cuantitativa Valoración Tv3. Dibujar, también, el Box-Plot de esta variable.

2. Una estadística descriptiva básica (frecuencia absoluta y relativa) de la variable cualitativa Tendencia política.

3. Calcular la correlación de Pearson entre las tres variables cuantitativas: Valoración de Tv3, de Tv1 y de Tv5.

4. Construir la tabla de contingencias y calcular la ji-cuadrado que valore la relación entre las variables cualitativas Sexo y Tendencia política.

5. Calcular la ji-cuadrado entre las variables cualitativas Sexo y Tv5 aprueba.

6. Calcular la ji-cuadrado entre las variables cualitativas Sexo y Tv3 aprueba.

7. Calcular la ji-cuadrado y la tabla de contingencias entre las variables Tendencia política y Tv3 aprueba.

8. Calcular la ji-cuadrado y la tabla de contingencias entre las variables Tendencia política y Tv5 aprueba.

9.Calcular la ji-cuadrado y la tabla de contingencias entre las variables Tendencia política y Tv1 aprueba.

10. Calcular la V de Cramer de las relaciones entre Tendencia política y Tv3 aprueba, Tv1 aprueba y Tv5 aprueba, respectivamente.

Situación 48: Análisis multivariante de datos meteorológicos

Analizar los siguientes datos meteorológicos de las comarcas catalanas en el año 2004:

Comarca Temperatura anual Precipitaciones Humedad Vel. Viento Media max Media min Altitud
Alt Camp 14,70 450,20 67,00 2,50 20,17 9,93 290,00
Alt Empordà 15,90 762,80 66,00 3,50 20,63 10,92 24,00
Alt Penedès 14,50 522,70 77,00 1,90 21,34 8,88 238,00
Alt Urgell 11,50 402,50 59,00 1,70 18,77 4,99 849,00
Alta Ribagorça 10,00 615,40 65,00 1,20 18,92 2,55 824,00
Anoia 14,20 487,00 65,00 2,30 20,38 9,86 312,00
Bages 13,50 420,20 70,00 1,10 21,09 6,80 349,00
Baix Camp 15,50 505,60 70,00 3,70 20,83 10,88 231,00
Baix Ebre 15,60 513,00 69,00 4,80 20,63 11,59 179,00
Baix Empordà 14,90 818,60 73,00 2,10 22,14 8,43 29,00
Baix Llobregat 15,60 511,70 66,00 1,70 21,77 11,18 220,00
Baix Penedès 16,60 601,40 71,00 2,20 21,94 11,59 60,00
Barcelonès 15,30 540,20 68,00 4,20 19,94 11,71 411,00
Berguedà 11,40 589,40 71,00 1,20 18,10 6,25 860,00
Cerdanya 8,50 439,60 66,00 3,50 17,29 0,57 1096,00
Conca de Barberà 13,50 366,00 69,00 3,40 19,43 8,18 441,00
Garraf 15,50 661,60 75,00 0,60 22,00 10,60 171,00
Garrigues 13,20 359,70 66,00 2,60 18,57 7,63 490,00
Garrotxa 12,50 740,90 75,00 1,40 19,44 6,45 422,00
Gironès 15,80 599,90 71,00 1,40 22,38 9,97 100,00
Maresme 17,10 521,40 70,00 2,60 21,23 13,32 45,00
Montsià 15,80 421,80 71,00 2,50 19,97 11,96 7,00
Noguera 13,60 332,80 74,00 1,10 20,55 7,30 245,00
Osona 11,80 621,80 71,00 1,00 19,23 5,65 517,00
Pallars Jussà 13,00 352,80 61,00 1,20 20,62 6,39 513,00
Pla d’Urgell 14,00 279,60 74,00 2,80 21,13 7,60 264,00
Pla de l’Estany 14,80 804,20 76,00 2,10 20,72 9,70 157,00
Priorat 13,40 389,00 66,00 2,30 20,50 7,10 631,00
Ribera d’Ebre 17,10 363,80 65,00 2,40 23,32 10,74 48,00
Ripollès 9,60 1013,60 80,00 1,40 17,20 3,11 851,00
Segarra 12,50 321,40 70,00 3,20 18,32 7,82 558,00
Segrià 13,40 292,00 69,00 2,50 20,10 7,47 290,00
Selva 14,50 791,20 76,00 1,40 21,90 8,52 150,00
Solsonès 12,30 424,60 65,00 1,80 19,42 6,53 693,00
Tarragonès 15,30 643,30 75,00 1,40 20,90 10,20 105,00
Terra Alta 14,20 447,80 67,00 3,20 20,48 9,08 511,00
Urgell 13,60 273,40 64,00 3,50 19,22 8,81 420,00
Val d’Aran 9,20 764,20 75,00 1,40 16,00 4,23 997,00
Vallès Occidental 13,30 531,20 74,00 1,30 20,70 7,15 343,00
Vallès Oriental 14,50 349,80 76,00 1,90 21,93 8,35 75,00

Situación 47: Análisis multivariante de datos de Pokémon

Analizar estos datos de características de personajes de Pokémon (datos facilitados por mi hijo Bernat Llopis):

Pokémon Tipo PS Ataque Defensa Ataque especial Defensa especial Velocidad
TYPHLOSION Fuego 2 3 2 4 2 4
PONYTA Fuego 2 3 2 2 2 3
TORKOAL Fuego 2 3 4 3 2 1
ARCANINE Fuego 3 5 3 4 3 4
STARMIE Agua 2 3 3 4 2 4
PALKIA Agua 3 4 3 5 3 4
MILOTIC Agua 3 2 2 4 3 3
AZUMARILL Agua 3 2 2 2 2 2
LEAFEON Planta 2 4 4 2 2 3
ABOMASNOW Planta 3 3 2 3 2 2
CHERUBI Planta 1 1 2 2 1 1
BRELOOM Planta 2 4 2 2 2 3
JOLTEON Eléctrico 2 2 2 4 3 5
MAGNEZONE Eléctrico 2 3 3 5 2 2
PIKACHU Eléctrico 1 2 1 2 1 3
AMPHAROS Eléctrico 3 3 3 5 4 3
DUSKNOIR Fantasma 1 3 4 2 4 2
JIRATINA Fantasma 4 4 3 4 3 3
SPIRITOMB Fantasma 2 3 3 3 3 1
GENGAR Fantasma 2 2 2 5 2 4

Situación 46: Análisis multivariante de la liga de fútbol de la temporada 2008-2009

Analizar los datos de la liga de fútbol de primera división de la temporada 2008-2009:

Equipo Puntos Ganados Empatados Perdidos Goles a favor Goles en contra
Barcelona 87 27 6 5 105 35
R.Madrid 78 25 3 10 83 52
Sevilla 70 21 7 10 54 39
Atlético 67 20 7 11 80 57
Villarreal 65 18 11 9 61 54
Valencia 62 18 8 12 68 54
Deportivo 58 16 10 12 48 47
Málaga 55 15 10 13 55 59
Mallorca 51 14 9 15 53 60
Espanyol 47 12 11 15 46 49
Almería 46 13 7 18 45 61
Racing 46 12 10 16 49 48
Athletic 44 12 8 18 47 62
Sporting 43 14 1 23 47 79
Osasuna 43 10 13 15 41 47
Valladolid 43 12 7 19 46 58
Getafe 42 10 12 16 50 56
Betis 42 10 12 16 51 58
Numancia 35 10 5 23 38 69
Recre 33 8 9 21 34 57

Solución Situación 45

El modelo es de tres factores. Dos fijos y cruzados (Hospital y Aparato) y un tercero aleatorio y anidado en la interacción de los otros dos.

El modelo sería el siguiente:

IMG_7289

La tabla ANOVA y la estimación de los parámetros es el siguiente:

IMG_7290

En concreto, el cálculo de la componente de la varianza del factor operario anidado dentro de la interacción de los otros dos, es el siguiente:

IMG_7291

En la tabla ANOVA puede comprobarse cuáles son los cocientes de los cuadrados medios. Para verificar que son los adecuados es recomendable ver el resultado de aplicar el algoritmo de Bennet-Franklin de este modelo. Puede verse en este enlace el algoritmo aplicado a este modelo concreto.

Como puede apreciarse, el único factor significativo es realmente el factor Operario. Por lo tanto, a efectos prácticos, hará falta enseñar bien el funcionamiento de estos sistemas para su más eficaz aplicación.

Situación 45: Un problema ANOVA

Se diseña un ensayo con dos tratamientos desinfectantes que se quieren comparar. Cada uno de ellos consiste en un mecanismo cuya puesta en práctica requiere una dimensión manual en la que se cree que el operario que lo lleva a la práctica condiciona mucho el resultado. Y se quiere comprobar, también, mediante este diseño. En el ensayo se ha trabajado en dos hospitales distintos (Uno de tercer y otro de segundo nivel). Para cada método y para cada hospital se eligen dos operarios diferentes que son personal trabajador de ese hospital. En total, pues, ocho operarios: cuatro operarios por hospital.

Los datos obtenidos, en recuento microbiano por metro cúbico de aire extraído, son los siguientes:

IMG_7288

Definir el modelo: factores, niveles. Si son cruzados, anidados. Etc. Evaluar el efecto de cada uno de los factores en estudio. Especialmente se pretende saber si hay un efecto significativo de los dos aparatos de desinfección, si los resultados obtenidos serían distintos según los dos tipos de hospitales elegidos para hacer el ensayo, y, finalmente, se quiere saber si los operarios que realizan la operación de desinfección aportan una variabilidad significativa en los resultados finales.