Archivo de la categoría: COMPLEMENTOS

Base de datos sobre recursos hídricos en las CCAA españolas

A partir de datos del INE el año 2006 tenemos los siguientes datos, por comunidades autónomas, sobre recursos hídricos (con la codificación de las variables que a continuación se especifica):

V1=Volumen de agua disponible
V2=Procedente de la captación propia
V3=Aguas superficiales
V4=Aguas subterráneas
V5=Otros recursos hídricos
V6=Volumen de agua abastecida
V7=A los hogares
V8=Otros usos
V9=Pérdidas de agua en la red de distribución
V10=Porcentaje de agua perdida en la distribución
CCAA V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
   Andalucía 389 233 163 67 3 263 176 87 50 16,1
   Aragón 342 150 138 12 0 240 150 90 58 19,5
   Asturias, Principado de 383 214 160 54 0 279 184 95 30 9,6
   Balears, Illes 375 205 50 113 42 262 150 112 63 19,5
   Canarias 340 178 53 33 92 212 141 71 47 18,1
   Cantabria 435 121 98 9 14 316 201 115 104 24,8
   Castilla y León 409 267 213 54 0 250 147 103 52 17,3
   Castilla-La Mancha 335 279 161 118 0 239 166 73 55 18,7
   Cataluña 324 180 79 97 4 227 150 77 40 15,1
   Comunitat Valenciana 363 253 91 153 9 240 185 55 71 22,8
   Extremadura 462 379 354 25 0 281 183 98 64 18,5
   Galicia 293 248 212 36 0 227 159 68 46 16,8
   Madrid, Comunidad de 298 290 223 67 0 206 148 58 29 12,3
   Murcia, Región de 307 71 56 15 0 240 166 74 41 14,7
   Navarra, Comunidad Foral de 411 316 121 195 0 261 128 133 42 13,9
   País Vasco 323 280 272 7 1 243 129 114 35 12,7
   Rioja, La 383 361 230 131 0 269 148 121 53 16,3
   Ceuta y Melilla 385 385 24 206 155 189 140 49 99 34,2

Análisis de componentes principales aplicado a datos de jugadores de baloncesto

He recogido estadísticas de los jugadores de baloncesto del F.C.Barcelona y del R.Madrid publicadas en la página web de la ACB. La base de datos es la siguiente:

PUN=Puntos medios por partido.

T2, T3 y T1=Porcentaje de acierto en tiros de 2, de 3 y de 1, respectivamente.

RTO=Rebotes totales.

ASI=Asistencias.

BRE=Balones recuperados.

BPE=Balones perdidos.

TFA=Tapones a favor.

TCO=Tapones en contra.

FFA=Faltas a favor.

FCO=Faltas en contra.

Nombre PUN T2 T3 T1 RTO ASI BRE BPE TFA TCO FFA FCO
Tomic, Ante 11.20 64.38 0.00 69.23 7.05 1.55 0.65 1.45 0.60 0.20 2.50 3.35
Navarro, Juan Carlos 10.83 48.57 34.83 80.95 2.39 2.44 0.78 1.22 0.00 0.17 1.33 3.33
Huertas, Marcelinho 7.53 54.22 27.66 100.00 1.79 4.79 0.63 1.79 0.05 0.16 0.84 1.53
Lorbek, Erazem 9.18 56.00 45.83 80.00 2.82 1.09 0.55 0.55 0.09 0.18 1.82 1.82
Dorsey, Joey 4.95 74.58 0.00 29.73 5.45 0.50 1.10 1.20 1.30 0.15 2.75 2.00
Abrines, Alex 7.94 52.50 46.30 86.66 1.61 0.83 0.72 0.56 0.39 0.11 1.83 1.67
Papanikolau, Kostas 6.94 50.00 38.30 89.99 3.83 1.33 0.72 1.44 0.22 0.39 2.06 1.33
Lampe, Maciej 6.33 47.76 31.58 65.00 2.93 1.07 0.00 0.80 0.60 0.07 1.27 1.73
Oleson, Brad 6.73 55.55 39.47 90.00 1.09 1.45 0.55 0.73 0.09 0.00 1.00 1.09
Nachbar, Bostjan 7.74 53.62 27.78 80.00 2.47 0.63 0.63 1.16 0.05 0.21 3.11 1.58
Sada, Víctor 1.74 37.93 0.00 84.61 2.05 1.95 0.47 1.00 0.00 0.05 0.63 1.16
Todorovic, Marko 2.73 60.00 0.00 64.70 2.53 0.53 0.40 0.67 0.47 0.00 1.40 0.93
Hezonja, Mario 3.50 47.83 33.33 80.01 1.83 0.75 0.50 0.75 0.25 0.00 0.92 0.75
Pullen, Jacob 5.60 57.14 35.56 69.57 0.50 1.05 0.50 1.00 0.05 0.20 1.05 1.25
Mirotic, Nikola 13.68 61.60 33.33 77.11 6.32 1.32 1.05 1.16 0.37 0.21 1.63 3.42
Fernández, Rudy 12.94 60.00 35.23 84.75 3.17 2.61 2.11 1.06 0.28 0.11 1.61 3.78
Rodríguez, Sergio 12.35 57.80 40.79 84.85 1.85 5.70 1.60 2.30 0.10 0.15 1.60 2.20
Llull, Sergio 13.30 51.72 49.48 88.89 2.00 3.25 1.20 1.30 0.10 0.05 1.05 2.20
Reyes, Felipe 8.16 52.13 38.47 77.78 4.53 0.79 1.05 1.47 0.26 0.16 1.74 3.32
Bourousis, Ioannis 6.61 57.97 29.17 81.82 4.11 0.56 0.44 0.78 0.39 0.17 2.22 1.89
Carroll, Jaycee 10.07 53.57 40.98 80.00 2.27 0.40 0.47 0.87 0.00 0.20 1.47 1.33
Mejri, Salah 4.89 56.52 24.99 60.00 4.00 0.42 0.47 0.63 0.79 0.26 1.84 1.11
Darden, Tremmell 5.05 51.16 42.42 93.75 2.25 0.90 0.30 0.35 0.60 0.00 1.20 0.75
Slaughter, Marcus 2.70 56.10 0.00 42.11 3.15 0.75 0.75 0.60 0.45 0.05 2.00 1.25
Díez, Daniel 3.92 52.38 27.59 83.34 1.23 0.54 0.46 0.15 0.08 0.15 0.46 0.62
Draper, Dontaye 1.79 50.00 27.78 71.44 0.89 1.68 0.79 0.74 0.05 0.05 2.05 0.74

Si se hace un Análisis de componentes principales con estas variables obtenemos el siguiente cuadro del peso de cada una de las componentes:

IMG_8096

Las tres primeras componentes explican el 73,1% de la variabilidad. Con las dos primeras un 62,4%.

Los coeficientes de las tres primeras componentes son las siguientes:

IMG_8097

El gráfico de las dos primeras componentes principales es el siguiente:

IMG_8098

Exploración de una base de datos 9: Análisis factorial

A partir de nuestra base de datos adjunta del artículo Explotación de una base de datos 1: Base de datos podemos realizar Análisis factorial. Veamos algunos ejemplos:

1. Hacer un Análisis factorial con las variables P1, P2, P3, P4, P5, P6 y P7. Ver cuánta variabilidad explican los factores.

2. Hacer un giro de los ejes que consiga la máxima capacidad explicativa de los factores.

3. Representar los cien pacientes en ejes formados por los factores encontrados.

4. Proyectar en la representación de los ejes de los factores la variable P8.

5. Proyectar en la representación de los ejes de los factores la variable Cirugía.

6. Proyectar en la representación de los ejes de los factores la variable Sexo.

7. Proyectar en la representación de los ejes de los factores la variable Departamento.

SOLUCIONES

1. Hacer un Análisis factorial con las variables P1, P2, P3, P4, P5, P6 y P7. Ver cuánta variabilidad explican los factores:

IMG_7739

Obsérvese que con tres factores explicamos un 93,5% de la información. Esto es mucho, realmente.

2. Hacer un giro de los ejes que consiga la máxima capacidad explicativa de los factores:

IMG_7740

Con la rotación variamax conseguimos realmente tres factores claramente delimitados. Observemos que en el primer factor las variables con peso son la P3, P4 y P5. En el segundo son P6 y P7. En el tercer factor son P1 y P2 las que tienen el protagonismo. Esto cuadra con lo que hemos visto al analizar las correlaciones en el fichero 3 de esta serie.

3. Representar los cien pacientes en ejes formados por los factores encontrados:

IMG_7741

4. Proyectar en la representación de los ejes de los factores la variable P8:

IMG_7742

Observemos que los pacientes que consideran su problema resuelto tienen mucho de todos los factores, pero hay un grupo que tienen valor bajo del primer factor, pero nunca de los otros dos. Los que consideran que su problema no ha quedado resuelto estos están mayoritariamente próximo al vértice donde los tres factores tienen valores bajos.

5. Proyectar en la representación de los ejes de los factores la variable Cirugía:

IMG_7743

A los que se ha aplicado Cirugía siguen un patrón similar al seguido con la P8.

6. Proyectar en la representación de los ejes de los factores la variable Sexo:

IMG_7744

Aquí no parece haber un patrón determinado. Todo está muy disperso.

7. Proyectar en la representación de los ejes de los factores la variable Departamento:

IMG_7745

Si se observa con detalle el gráfico puede apreciarse que el departamento 3, que es Urología, es el departamento que tiene valoraciones más bajas. Sus valores están preferentemente en el extremo de los valores bajos de los tres factores.

Explotación de una base de datos 8: ANOVA

A nuestra base de datos adjunta en el artículo Explotación de una base de datos 1: Base de datos le podemos aplicar también el ANOVA. Veamos algunos ejemplos:

1. Comparar la variable Valoración general según el Departamento.

2. Comparar la variable P6 según el Departamento.

SOLUCIONES

1. Comparar la variable Valoración general según el Departamento:

Como hay cuatro departamentos en nuestro estudio deberemos aplicar un ANOVA. Para ello vamos a comprobar, en primer lugar, la normalidad de cada uno de los cuatro grupos a comparar.

IMG_7812

IMG_7813

IMG_7814

IMG_7815

Si observamos el Shapiro-Wilk observamos que ninguno de los cuatro grupos se ajusta a la distribución normal. Por lo tanto, vamos a aplicar el Test de Kruskal-Wallis:

IMG_7798

Las comparaciones múltiples (en este caso mediante el método Bonferroni-Dunn):

IMG_7809

 

Por lo tanto, el causante de las diferencias entre los cuatro departamentos es el 3, el departamento de Urología.

2. Comparar la variable P6 según el Departamento:

Como la variable respuesta ahora, la variable P6, es una variable tipo Likert, podemos ya directamente aplicar un Test de Kruskal-Wallis. Conceptualmente este tipo de variables no se ajusta bien nunca a una distribución normal. Son muy pocos los valores que contempla. Es verdad que tampoco es continua, pero es más oportuno, en este caso, aplicar este Test por la mucha mayor versatilidad que tiene.

IMG_7797

 

Como rechazamos la Hipótesis nula de igualdad de grupos, debemos aplicar unas comparaciones múltiples:

IMG_7811

 

Como puede verse, la única diferencia apreciable es la que hay entre los departamentos 3 y 4. Las otras comparaciones no muestran diferencias significativas.

Explotación de una base de datos 7: Comparación de dos poblaciones

A nuestra base de datos adjunta en el artículo Explotación de una base de datos 1: Base de datos le podemos aplicar diferentes comparaciones de dos poblaciones. Veamos algunos ejemplos:

1. Compobar si hay diferencias significativas en cuanto a la Valoración general entre los hombres y mujeres. Calcular la d de Cohen si es que antes se comprueba que la diferencia es estadísticamente significativa.

2. Comparar la Valoración general entre los operados y no operados. Calcular la d de Cohen si es que antes se comprueba que la diferencia es estadísticamente significativa.

3. Comparar si los dos grupos formados por la variable P8 tienen valores diferentes, significativamente, en cuanto a la variable Valoración. Calcular la d de Cohen si es que antes se comprueba que la diferencia es estadísticamente significativa.

SOLUCIONES:

1. Compobar si hay diferencias significativas en cuanto a la Valoración general entre los hombres y mujeres. Calcular la d de Cohen si es que antes se comprueba que la diferencia es estadísticamente significativa:

Se trata de variables continuas, muestras independientes, por lo tanto, hace falta comprobar la normalidad de cada una de las dos muestras:

IMG_7799

IMG_7800

Debemos, pues, aplicar el Test de Mann-Whitney:

IMG_7803

 

No hay diferencias significativas entre los dos sexos, por lo tanto no tiene sentido aplicar aquí la d de Cohen.

2. Comparar la Valoración general entre los operados y no operados. Calcular la d de Cohen si es que antes se comprueba que la diferencia es estadísticamente significativa:

Se trata de variables continuas, muestras independientes y, por lo tanto, hemos de comprobar la normalidad de cada una de las dos muestras:

IMG_7801

IMG_7802

Como no hay normalidad debemos aplicar el Test de Mann-Whitney:

IMG_7804

 

No hay diferencias significativas entre los dos grupos, por lo tanto, no debemos aplicar la d de Cohen.

3. Comparar si los dos grupos formados por la variable P8 tienen valores diferentes, significativamente, en cuanto a la variable Valoración. Calcular la d de Cohen si es que antes se comprueba que la diferencia es estadísticamente significativa:

Se trata de variables continuas, muestras independientes y hace falta, pues, ahora comprobar la normalidad de cada una de las dos muestras:

IMG_7805

IMG_7806

Como no hay normalidad aplicamos el Test de Mann-Whitney:

IMG_7807

 

Ahora sí que vemos diferencias significativas entre los dos grupos. Ahora sí tiene sentido aplicar la d de Cohen.

Explotación de una base de datos 6: Regresión múltiple

A partir de nuestra base de datos adjunta del artículo Explotación de una base de datos 1: Base de datos podemos realizar regresiones múltiples. Veamos algunos ejemplos:

1. Realizar una Regresión lineal múltiple entre la variable Valoración general y P1, P2, P3, P4, P5, P6 y P7. Se pretende pronosticar la Valoración general que daría un paciente a partir de los valores de los 7 primeros ítems de la encuesta.

 2. Realizar un Regresión lineal múltiple entre la variable Valoración general y las variables Edad y Días de ingreso.

SOLUCIONES:

1. Realizar una Regresión lineal múltiple entre la variable Valoración general y P1, P2, P3, P4, P5, P6 y P7. Se pretende pronosticar la Valoración general que daría un paciente a partir de los valores de los 7 primeros ítems de la encuesta:

Las correlaciones entre todas estas variables son las siguientes:

IMG_7780

Viendo cuáles son las correlaciones entre la variable respuesta o dependiente y las variables explicativas o independientes ya podemos intuir por dónde irá el modelo elegido finalmente. Veamos cuál es:

IMG_7781

Ya vemos cuáles son los coeficientes significativos. Vemos también que la r cuadrado es muy buena.

Apliquemos un Stepwise:

IMG_7782

2. Realizar un Regresión lineal múltiple entre la variable Valoración general y las variables Edad y Días de ingreso:

Las correlaciones entre la variable respuesta y las dos variables explicativas son las siguientes:

IMG_7783

El modelo es:

IMG_7784

Y al aplicar un Stepwise:

IMG_7787

Y si nos fijamos bien veremos que al final hemos acabado en un modelo de Regresión lineal simple que es el que hemos estimado en cuando estábamos aplicando esa técnica a nuestra base de datos.

Explotación de una base de datos 5: Regresión lineal simple

A partir de nuestra base de datos adjunta del artículo Explotación de una base de datos 1: Base de datos podemos hacer distintas regresiones lineales simple. Veamos algunos ejemplos:

1. Hacer una Regresión lineal simple entre las variables Edad y Valoración general. Se pretende pronosticar en el futuro la variable Valoración general a partir de la variable Edad.

2. Hacer una Regresión lineal simple entre P6 y P7. Se pretende pronosticar en el futuro el valor de la variable P7 a partir del conocimiento del valor de la variable P6. O sea, se pretende pronosticar cómo siente el paciente el nivel de información recibido a partir de su valoración acerca del personal médico.

SOLUCIONES:

1. Hacer una Regresión lineal simple entre las variables Edad y Valoración general. Se pretende pronosticar en el futuro la variable Valoración general a partir de la variable Edad:

La recta de regresión es la siguiente:

IMG_7776

La recta es la negra. Las dos rectas rojas y las dos azules son intervalos de confianza del 95% de la media de una predicción (las rojas) y de un valor individual (las azules).

Los coeficientes del modelo son los siguientes:

IMG_7777

Se trata, pues, de una regresión con coeficientes significativos pero con un coeficiente de determinación muy bajo, con una r cuadrado sólo de un 10.25%. Menos de un 50% se considera una muy mala capacidad predictiva de un valor individual de la variable respuesta o dependiente.

2. Hacer una Regresión lineal simple entre P6 y P7. Se pretende pronosticar en el futuro el valor de la variable P7 a partir del conocimiento del valor de la variable P6. O sea, se pretende pronosticar cómo siente el paciente el nivel de información recibido a partir de su valoración acerca del personal médico:

La recta de regresión es, ahora:

IMG_7778

Los coeficientes del modelo:

IMG_7779

 

Ahora tenemos una mejor capacidad de determinación, un 70.87%.

 

Explotación de una base de datos 4: La relación entre variables cualitativas

A nuestra base de datos adjunta en el artículo Explotación de una base de datos 1: Base de datos le podemos analizar la relación entre variables cualitativas. Veamos algunos ejemplos:

1. Analizar la relación entre la variable Sexo y Cirugía.

2. Analizar la relación entre la variable Cirugía y Departamento.

3. Analizar la relación entre la variable Departamento y P8.

4. Analizar la relación entre la variable Departamento y Cirugía, calculando la V de Cramer si existe relación significativa.

SOLUCIONES

1. Analizar la relación entre la variable Sexo y Cirugía:

IMG_7717

 

IMG_7721

2. Analizar la relación entre la variable Cirugía y Departamento:

IMG_7722

 

IMG_7723

3. Analizar la relación entre la variable Departamento y P8:

IMG_7724

 

IMG_7725

4. Analizar la relación entre la variable Departamento y Cirugía, calculando la V de Cramer si existe relación significativa:

IMG_7726

 

IMG_7727

 

IMG_7728

 

 

Explotación de una base de datos 3: Correlaciones

A nuestra base de datos adjunta en el artículo Explotación de una base de datos 1: Base de datos le podemos calcular correlaciones entre variables cuantitativas. Veamos algunos ejemplos:

1. Calcular la correlación de Pearson entre las variables cuantitativas Edad, Días de ingreso y Valoración general.

2. Calcular la correlación de Spearman entre esas mismas variables.

3. Calcular la correlación de Spearman entre las variables P1, P2, P3, P4, P5, P6 y P7.

4. A partir de lo visto en el apartado anterior crear grupos con buena consistencia interna, con alto valor de alfa de Cronbach.

SOLUCIONES

1. Calcular la correlación de Pearson entre las variables cuantitativas Edad, Días de ingreso y Valoración general:

IMG_7709

2. Calcular la correlación de Spearman entre esas mismas variables:

IMG_7711

3. Calcular la correlación de Spearman entre las variables P1, P2, P3, P4, P5, P6 y P7:

IMG_7714

4. A partir de lo visto en el apartado anterior crear grupos con buena consistencia interna, con alto valor de alfa de Cronbach:

Observemos que las combinaciones que tienen alta correlación son los grupos:

P1-P2

P3-P4-P5

P6-P7

Sólo tiene sentido calcular la alfa de Cronbach en estos tres grupos. Para ver cómo se calcula este índice ver el artículo Alfa de Cronbach. La forma más cómoda de cálculo es a partir de la correlación:

IMG_5934

 

Con P1 y P2 el valor es:

2×0,8326/(1+0,8325)=0,9086.

Con P6 y P7:

2×0,8501/(1+0,8501)=0,9189

Con P3, P4 y P5, como el promedio de las tres correlaciones dos a dos entre estas variables es 0,8888:

3×0,8888/(1+2×0,8888)=0,9599

Como podemos ver consistencias internas muy elevadas.

Explotación de una base de datos 2: Estadística descriptiva

A nuestra base de datos adjunta en el artículo Explotación de una base de datos 1: Base de datos le podemos calcular muchas cosas de Estadística descriptiva. Veamos algunos ejemplos:

1. Hacer una Estadística descriptiva de las variables cuantitativas: Edad, Días de ingreso y Valoración general.

2. Hacer una Estadística descriptiva de las variables cualitativas: Sexo, Cirugía, Departamento y P8.

3. Hacer una Estadística descriptiva de las variables P1 y P6 como ejemplos de dos de las siete variables Likert.

4. Representar de la forma más apropiada y resumida, con Media y Desviación estándar o Mediana y Rango intercuartílico, las variables Edad, Días de ingreso y Valoración general.

SOLUCIONES:

1. Hacer una Estadística descriptiva de las variables cuantitativas: Edad, Días de ingreso y Valoración general:

La variable Edad tiene los siguientes valores de los más importantes estadísticos descriptores:

IMG_7674

El Box-Plot:

IMG_7675

La variable Días de ingreso tiene los siguientes valores de los más importantes estadísticos descriptores:

IMG_7676

Y el Box-Plot:

IMG_7678

La variable «Valoración general» tiene los siguientes valores de los más importantes estadísticos descriptores:

IMG_7680

Y el Box-Plot:

IMG_7681

2. Hacer una Estadística descriptiva de las variables cualitativas: Sexo, Cirugía, Departamento y P8:

Para la variable cualitativa «Sexo» la tabla de frecuencias es:

IMG_7682

Y el diagrama de frecuencias:

IMG_7683

Para la variable cualitativa «Cirugía» la tabla de frecuencias es:

IMG_7684

Y el diagrama de frecuencias:

IMG_7685

Para la variable «Departamento»:

IMG_7686

Y el diagrama de frecuencias:

IMG_7687

Para la variable P8:

IMG_7688

Y el diagrama de frecuencias:

IMG_7689

3. Hacer una Estadística descriptiva de las variables P1 y P6 como ejemplos de dos de las siete variables Likert:

Para la variable P1:

IMG_7694

IMG_7695

IMG_7696

Para la variable P6:

IMG_7697

IMG_7698

IMG_7699

4. Representar de la forma más apropiada y resumida, con Media y Desviación estándar o Mediana y Rango intercuartílico, las variables Edad, Días de ingreso y Valoración general:

De las tres variables la única que tiene una suficiente aproximación a la normalidad (Asimetría estandarizada y Curtosis estandarizada entre -2 y 2) es la variable «Valoración general», por lo tanto esta sería la única que se podría representar mediante la Media y la Desviación estándar. Las otras dos sería más apropiado hacerlo mediante la Mediana y el Rango intercuartílico. O sea, sería de esta forma:

Edad: 47 (40, 69)

Días de ingreso: 4 (2, 8)

Valoración general:  6,3 ± 1,66