Archivo del Autor: estadisticallopis

Tema 4: INTRODUCCIÓN A LAS TÉCNICAS DE RELACIÓN

El siguiente vídeo explica el tema:

1. En las técnicas de relación el objetivo básico es detectar relación entre variables. La focalización está puesta, en este tipo de técnicas, en las variables, no en las poblaciones que pueda haber en el estudio. Los protagonistas son las variables y detectar covariación entre ellas, detectar que la variación que vemos en una de ellas tiene conexión con la de la otra.

 2. El primer paso, como veremos en temas sucesivos, será, en primer lugar, valorar si existe o no esta relación (si es estadísticamente significativa), si esta relación la podemos cualificar entre diferentes tipos de relación (relación directa, inversa, etc) y, finalmente, si la podemos cuantificar a través de un procedimiento estandarizado que nos permita saber entre qué valores se puede mover esta relación desde un mínimo a un máximo.

 3. Veremos que cuando hayamos hecho este primer orden de cosas pasaremos a tratar de modelizar matemáticamente esta relación mediante la Regresión. Con ella, además de modelizar esa relación, de crear un dibujo de su morfología, podremos hacer previsiones de unas variables a partir del conocimiento de valores de otras variables, y esto tiene una importante trascendencia en Ciencia.

 4. Para introducir las técnicas de relación que iremos viendo en temas sucesivos es importante ahora ya destacar que es fundamental diferenciar si la relación es entre variables cuantitativas, entre variables cualitativas o entre variables cualitativas y cuantitativas.

 5. Iremos viendo con detalle las peculiaridades de estas diferentes situaciones. A modo de introducción planteo el gráfico siguiente:

 Foto 20-10-12 17 58 17

6. Se trata de un gráfico muy importante que irá saliendo en diversos temas donde se hable de aspectos concretos de las técnicas de relación.

7. Observemos en él que hay tres filas de datos. En la primera se visualizan tres situaciones de relación entre variables cuantitativas. En la segunda fila se ven tres situaciones de relación entre variables cualitativas. En la tercera fila, finalmente, se ven tres situaciones donde se relaciona una variables cualitativa con una de cuantitativa.

8. Estos tres casos ejemplifican e introducen conceptos esenciales en todo lo que vamos a ver en las técnicas de relación.

9. Observemos que el caso central, en las tres filas, es un caso en el que no parece haber relación entre las variables. Se trata de dos variables sin relación, sin covariación conjunta, donde cualquier valor de una variable puede estar combinado con cualquier valor de la otra variable. Esto, precisamente, es lo característico de una situación donde dos variables no tienen relación. En Estadística hablamos, en casos así, de dos variables independientes.

10. En las tres filas, por el contrario, a la izquierda y a la derecha nos encontramos con casos donde sí parece haber relación. Saber el valor de una variable de ellas nos parece informar del valor que pueda llegar a tener la otra variable. Esto es indicativo de relación y de lo que en Estadística llamamos variables dependientes.

11. Observemos, también, que a izquierda y a derecha, podemos decir que la relación es como opuesta, es cualitativamente distinta, como invertida. Esto también nos podrá interesar detectarlo porque nos indicará tipos diferentes de relación entre variables.

12. A esta relación que se aprecia en los ejemplos de la izquierda y de la derecha, en las tres situaciones posibles, también le podríamos valorar una cantidad que midiera el grado de esta conexión entre variables.

13. Pues con todo ello hemos visto, de momento muy intuitivamente, lo esencial de las técnicas de relación: detectar si existe o no esta relación, si esta relación la podemos cualificar en tipos de relación y, finalmente, si la podemos cuantificar de alguna forma.

Solución Situación 7

La opción “c” es la única correcta. Sin la significación una correlación es casi nada. Apunta sólo una tendencia, pero nada más. La “a” no es correcta porque aunque generalmente entre temperatura mínima y máxima es verdad que suele haber una correlación positiva, esto no debe nunca constituir un “a priori” que inutilice cualquier trabajo de investigación. En Ciencia nada está relacionado hasta que no se demuestra lo contrario. La “b” no es cierta porque el hecho que no tengamos el p-valor nos dice que no sabemos la significación, no que no sea significativo el resultado. La “d” y la “e” no son ciertas y creo que ya queda explicado con lo dicho antes. Respecto a la “f” en absoluto éste es un criterio de significación.

Situación 7: Correlación

Nos dicen que la correlación entre temperatura máxima y mínima, en una zona, es r= -0.67. Elegir la respuesta correcta:

a) Esta r es incorrecta porque entre temperatura máxima y mínima la correlación es positiva.

b) Esta r no es significativa.

c) Podemos decir poco de esta r porque no tenemos su significación.

d) Como no tenemos el p-valor la correlación no es significativa.

e) Como no tenemos significación la r es, en realidad, positiva.

f) Es significativa porque el valor absoluto de la r es mayor que 0.5.

Solución

Solución Situación 6

Lo primero que hay que comprobar es si podemos usar una distribución normal como modelo de la variable que estamos estudiando. Nos dicen que la variable se ajusta bien a la Distribución normal. Como la media y la desviación estándar son, 6 y 1, respectivamente, la valoración que los consumidores hacen de ese producto sigue una distribución normal N(6, 1). Con esta distribución tenemos, pues, una maqueta, un buen dibujo de la población total de consumidores de ese producto y la valoración que ellos hacen de él.

Vamos, pues, a utilizar este modelo para calcular lo que se nos pide:

1) Como 5 es igual a 6-1, que es la media menos una desviación estándar, por encima de una valoración de 5 debe haber el 68.5 % de consumidores que hay en el intervalo que va desde la media menos una DE hasta la media más una DE, más los consumidores que hay en una de las dos colas de ese intervalo, por lo tanto, por encima de 5 tenemos: 68.5+15.75=84.25. Observemos que 15.75 es la mitad de 31.5 que es el total de lo que queda en las dos colas (los dos extremos) de la campana de Gauss en un intervalo que vaya de la media menos una DE a la media más una DE.

2) Para la segunda pregunta necesitamos saber el Error estándar (EE=DE/raíz(n)) que, en este caso, es 1/raiz(400)=0.05. Por lo tanto, tenemos una confianza del 95% de que la media poblacional esté entre 5.9 y 6.1 (este intervalo se obtiene sumando y restando a la media dos veces, ahora, el Error estándar), por lo tanto, la probabilidad de que la media esté por encima de 5 es una probabilidad muy grande, prácticamente 1.

En el gráfico adjunto pueden verse las dos distribuciones normales: la de arriba, la N(6, 1), es la de la variable valoración individual de los consumidores; la de abajo, la N(6, 0.05) es la de la media. Puede verse dibujado en rojo el área que hay, por encima de 5, en ambas distribuciones.

Observemos en este problema la diferencia entre la primera pregunta y la segunda. Es importante. En la primera hablamos de valores individuales de consumidores. El 84.25% puntúan al producto por encima de 5. En la segunda pregunta hablamos de la media poblacional, no de valores individuales. La probabilidad de que la media poblacional esté por encima de 5 es prácticamente 1.

IMG_4280

Situación 6: Intervalos de confianza

Para medir la valoración de un producto se ha hecho una encuesta entre 400 consumidores. La distribución de los valores obtenidos en la muestra se ajusta bien a una distribución normal. La media de la muestra es 6  y la Desviación estándar es 1. Calcular:

1. El porcentaje de consumidores que valoran por encima de 5.

2. La probabilidad de que la media poblacional sea mayor que 5.

Solución