Archivo de la categoría: PROBLEMAS

Solución Situación 44

1c:

Si se calcula la V de Cramer, resulta ser, efectivamente, 0.6.

La «a» es incorrecta. La correlación de Pearson no puede usarse para variables cualitativas.

La «b» también es incorrecta. La V de Cramer no puede dar valores negativos.

La «d» es también incorrecta. Estos datos no son de independencia de las variables. Todo lo contrario, parece haber una clara relación, una clara asociación, entre el sexo y estos dos tipos de estudios.

2c:

La «c» es la incorrecta. La ji-cuadrado es una técnica para valorar la relación entre variables cualitativas, no cuantitativas. Y nos dicen que para evaluar la significación de una correlación de Pearson realizamos una ji-cuadrado. Esto no es cierto.

La «a» es cierta. El p-valor es el valor que proporciona la significación de la correlación de Pearson.

También es cierta la «b». Tenemos una correlación de elevada magnitud pero no significativa. Lo que indica que tenemos una tamaño muestral pequeño.

La «d» también es cierta. Tenemos una V de Cramer de elevada magnitud (0.9). Recordemos que va del 0 al 1. Además, ciertamente, es significativa. El p-valor es menor que 0.05. En este caso se suele dar el p-valor de la ji-cuadrado calculada a la tabla de contingencias.

3c:

La «a» es cierta. Tenemos dos únicas variables. Aquí sólo cabe una Regresión simple.

La «b» también es cierta. Como nos dicen que la relación es lineal la Regresión que haremos será una Regresión lineal simple.

La «d» también es cierta. Si la correlación es positiva la pendiente de la recta de regresión será positiva. Y si la correlación es negativa la pendiente de la recta será negativa.

La «c», sin embargo, es incorrecta. No puede darse contradicción entre la significación de la correlación y de la pendiente. Si una es significativa la otra también. Si una no lo es la otra tampoco. Van de la mano. Es lógico que sea así. Sólo tiene sentido hacer una regresión si hay correlación significativa.

4d:

La «a» no es cierta. Siempre hay un elemento de imprecisión en una regresión.

La «b» tampoco es correcta. Lo que se le suma a la predicción son valores positivos o negativos, dependiendo de cada caso, de cada observación.

La «c» tampoco es correcta. Ni mucho menos la predicción dará eso necesariamente.

La correcta es ahora la «d». Las imprecisiones serán valores que girarán en torno a cero. Y esas imprecisiones serán, en valor absoluto, tanto más grandes cuanto menor sea la correlación entre esas variables.

5d:

La «a» es incorrecta. En absoluto tenemos una buena R2. Ésta tiene una valor del 36%. Esto es muy bajo. Es menor del 50%, que suele ser el límite aceptable.

La «b» es incorrecta.La correlación no es significativa, efectivamente, pero no por ser menor que 0.7, sino por tener un p-valor inferior a 0.05.

La «c» también es incorrecta. La utilidad de una correlación no la marca el p-valor. Lo marca la R2. Esta correlación es poco útil para predecir porque tiene bajo coeficiente de determinación: 36%.

La «d» es la correcta. La correlación es, efectivamente, significativa, el p-valor es inferior a 0.05, pero la capacidad predictiva es baja. Tiene una capacidad de determinación del 36%, que es bajo.

Situación 44: Examen (Temas 5-9)

1. Los datos de una muestra obtenidos se resumen de la siguiente forma: 200 mujeres en facultades de Medicina, 50 mujeres en escuelas de Ingeniería. 50 hombres en facultades de Medicina y 200 hombres en escuelas de Ingeniería. ¿Qué afirmación es la más coherente hacer, sobre la relación entre la variable sexo y la variable ser estudiante de Medicina o Ingeniería, con la información que tenemos?

a) La correlación de Pearson es 0.75 (p=0.07).

b) La V de Cramer es -0.6.

c) La V de Cramer es 0.6.

d) La V de Cramer es 0 porque no hay ningún tipo de asociación entre estas variables.

2. ¿Qué afirmación, entre las siguientes, no es cierta?

a) El p-valor es el elemento que le proporciona la significación a una correlación de Pearson.

b) r=0.89 (p>0.05) indica que se trata de una correlación de elevada magnitud pero no significativa.

c) Para valorar la significación de una correlación de Pearson es necesario aplicar un test de la ji-cuadrado.

d) V=0.90 (p<0.05) indica que estamos ante dos variables cualitativas con relación de elevada magnitud y significativa.

3. Si estamos construyendo una fórmula matemática que nos concrete la relación entre la variable “Cantidad total de lluvia anual” y la variable “Humedad relativa media anual” en una estación metereológica, ¿cuál de las siguientes afirmaciones no es cierta?

a) Si queremos construir tal función aplicaremos una Regresión simple.

b) Si la relación entre esas dos variables queda concretada por una recta aplicaremos una Regresión lineal simple.

c) Si la correlación de Pearson es significativa la pendiente de la Regresión lineal simple podría no ser significativamente distinta de cero.

d) Si la correlación de Pearson es positiva, la pendiente de la Regresión lineal simple también será positiva.

4. Si tenemos una Regresión lineal simple como la siguiente y=3x+5+e, podemos decir lo siguiente:

a) Si un individuo tiene el valor x=5 tendrá el valor y=20.

b) Si un individuo tiene el valor x=5 tendrá el valor y=20 más un valor que irá desde 0 hasta 1.

c) Si un individuo tiene el valor x=5 tendrá el valor y=15.

d) Si un individuo tiene el valor x=5 tendrá el valor y=20 más un valor que girará en torno a 0 y que será tanto mayor, en valor absoluto, como menor sea la correlación entre esas dos variables.

5. Si nos dicen que tenemos entre dos variables una r=0.60 (p<0.05) podemos decir:

a) Tenemos un buen coeficiente de determinación R2, por lo que podemos hacer un buen pronóstico de una variable a partir de la otra.

b) La correlación no es significativa porque es menor que 0.7.

c) Esta correlación es poco útil por ser el p-valor inferior a 0.05.

d) La correlación es significativa y la Res del 36%, por lo que al tratarse de un coeficiente de determinación bajo (inferior al 50%) no podemos hacer un buen pronóstico de una variable a partir del conocimiento de la otra.

Solución Situación 43

Se trata de un ANOVA de dos factores. Uno fijo a dos niveles (Esfuerzo No y SI) y otro aleatorio que es la persona. Observemos también que se trata de factores anidados. El factor Persona está anidado dentro del factor Esfuerzo. El modelo es, pues, un ANOVA de factores anidados a efectos mixtos.

La tabla ANOVA y las estimaciones de los parámetros son los siguientes:

IMG_7177

Viendo estos datos, viendo la tabla ANOVA, podemos decir que en esta variable tiene valor significativamente distintos según se haya o no hecho un esfuerzo. Vemos que no depende de las personas. A pesar, podríamos decir, también de que el residuo es bastante elevado. Pensemos que hay ocasiones donde distintas medidas presentan valores bastante distintos. Esto nos podría hacer pensar que posiblemente no estemos bajo las condiciones necesarias para aplicar el ANOVA. No hemos aplicado el test de Barlett ni el de Shapiro-Wilk.

El cálculo de las componentes de la varianza sería, en este caso:

IMG_7178

Respecto a la pregunta que se hace al final: la probabilidad de que una persona de estas características sometida a este tipo de esfuerce dé un valor por encima de 59 una posibilidad poco fina es mirar la proporción que cumplen esto en la muestra: 4 de 6. Por lo tanto, una respuesta posible es decir que una probabilidad del 0.66 ó un 66.6%, aproximadamente. Pero es más fino hacerlo aprovechando la información obtenida y la propia modelización utilizada. Veamos que el grupo del esfuerzo tendría una media que sería sumar la media general (42.2083) con lo aportado por el esfuerzo SÍ (16.275): 42.2083+16.275=58.4833. La desviación varianza sería 16.42+4.97=21.39. Aquí es cuestionable si usar este 4.97 como estimación de las diferencias entre personas o tomarlo como 0, puesto que en el contraste de hipótesis no hemos rechazado la Hipótesis nula de que la varianza aportada por las personas es 0.

Por lo tanto, si tomamos la varianza como 21.39, deberíamos hacer la raíz cuadrada para obtener la desviación estándar. La raíz cuadrada de 21.39 es 4.62.

Por lo tanto, la respuesta a esta última pregunta es el área que hay a la derecha de 59 en una distribución normal de media 58.48 y de desviación estándar 4.62; o sea, en una N(58.48, 4.62). Esto se puede calcular mirando el área que hay en una distribución N(0, 1) a la derecha del valor que sale de la operación (59-58.48)/4.62; o sea, el área que hay a la derecha del valor 0.11 en una N(0, 1). El área buscada es 0.4562. Basta mirar en las tablas de esa distribución. Por lo tanto, la estimación sería de un 45.62%. Para ver cómo se hacen estos cálculos conviene ver el artículo dedicado a la distribución normal.

Situación 43: Problema de ANOVA

Se quiere evaluar cómo afecta a una variable sanguínea el nivel de ejercicio continuado durante una hora. Para ello se toman 6 varones muy similares en cuanto a edad e historia clínica. Se trata de 6 personas que en un análisis previo han dado valores muy similares de la variable que se quiere estudiar.

Después de toda una mañana de reposo a tres de esos participantes en el estudio se les ha medido esta variable y se ha analizado la variable dos veces en cada una de las muestras de sangre porque se quiere saber la dispersión residual de esta técnica analítica.

A los otros tres participantes en el estudio se les ha sometido a un ejercicio de una hora de duración en una bicicleta estática. Después se les ha tomando muestra de sangre y se ha realizado en cada una de ellas un análisis por duplicado de la variable estudiada.

Los resultados obtenidos son los siguientes:

IMG_7171

Resolver el diseño.

Y supongamos, también, que estuviéramos interesados en saber cuál es la probabilidad de que el valor de esta variable sea superior a 59, en un individuo de estas características, y después de haber hecho un esfuerzo del orden del estudiado en este experimento.

Solución Situación 42

La primera parte del problema es un caso de dos factores aleatorios cruzados. Ver el modelo ANOVA de dos factores a efectos aleatorios.

Si se comprueba la normalidad con el Test de Shapiro-Wilk y la homogeneidad de las varianzas con el Test de Barlett se comprueba que estamos bajo las condiciones exigidas para la aplicación de los contrastes de hipótesis asociados a un modelo ANOVA.

La tabla ANOVA con los cocientes de cuadrados medios adecuados y la estimación de los parámetros son los siguientes:

IMG_7172

Tanto el factor Preparación como el factor Operario son factores significativos. La interacción no lo es.

El cálculo de las componentes de la varianza será esencial a la hora de ver cuál es el elemento que introduce más variación. La interacción ya vemos que la variación que introduce no es significativa. La variación residual es 4.25. Ahora lo que hace falta ver es las otras dos. Por eso se estiman. El -1.95 de la interacción es un artefacto de la forma de estimación. En realidad, se considera 0. Veamos cómo se realiza, a partir de las esperanzas de los cuadrados medios, la estimación de estas componentes de la varianza:

IMG_7174

Como puede apreciarse la principal componente de la varianza es la aportada por la preparación. La forma en la que hacemos la preparación es realmente lo que hay que plantearse porque es lo que realmente introduce una variación enorme. Si queremos reducir la variabilidad debemos focalizar en el método seguido en las preparaciones.

Veamos, ahora, la segunda parte del problema. Ahora, al trabajar con 6 operarios que analizan dos a dos para preparación, el modelo para a ser de dos factores anidados. Ver el modelo ANOVA de dos factores anidados a efectos aleatorios.

La tabla ANOVA y las componentes de la varianza son, ahora:

IMG_7175

El factor significativo es, ahora, únicamente la Preparación. Operario ya no lo es. Podemos estimar las componentes de la varianza. Incluso la de Operario dentro de Preparación, aunque no sea significativa y seguimos viendo que la principal componentes de la varianza se la lleva la preparación, como antes.

A continuación puede verse cómo se calculan estas estimaciones de las componentes de la varianza:

IMG_7176

Situación 42: Problema de ANOVA

Se quiere evaluar la variabilidad introducida en una medida en base a la preparación de la muestra y en base al operario que acaba realizando la medida. Se quiere saber cuál es la contribución de cada uno de esos dos factores en la variabilidad final de los resultados. Para ello se elaboran tres preparaciones y se toman dos operarios al azar. Los resultados obtenidos son los siguientes:

IMG_7170

Resolver el diseño.

Supongamos ahora que el problema es el mismo pero ahora en lugar de tomar dos operarios, tomamos seis, pero dos de ellos evalúan el primer preparado, otros dos el segundo preparado y los dos últimos evalúan el tercer preparado.

Resolver el nuevo diseño.

Solución Situación 41

El experimento está configurado por tres factores. El factor Tipo de Hospital, fijo, y a dos niveles. El factor Aparato o Sistema de desinfección, fijo, también, y a dos niveles. El factor Sala, aleatorio y anidado en Hospital. Por lo tanto, Hospital y Aparato están cruzados y Aparato y Sala también.

El modelo es el siguiente:

captura-de-pantalla-2016-12-23-a-las-11-06-13

Si aplicamos el Algoritmo de Bennet-Franklin tenemos las siguientes esperanzas de los cuadrados medios:

IMG_7091

A partir de estas esperanzas de los cuadrados medios debemos hacer los siguientes cocientes en los contrastes de hipótesis de este modelo:

IMG_7092

La tabla ANOVA es, pues, la siguiente:

IMG_7094

Esto nos da la siguiente estimación de los parámetros y de las componentes de la varianza:

IMG_7095

El cálculo de la componente de la varianza del residuo sale del valor de cuadrado medio del residuo en la tabla ANOVA. Las otras dos de los siguientes cálculos a partir de las esperanzas de los cuadrados medios:

IMG_7093

Evidentemente la componente de la varianza de la interacción entre Aparato y Sala, anidado dentro de Hospital, ya hemos visto que no era significativa, en la tabla ANOVA. La estimo para que se vea cómo se realiza. En ocasiones aunque no sea significativa es interesante estimarla y dar el valor de esa estimación. Evidentemente, si la estimación es negativa en ningún caso se dará tal estimación. Una varianza nunca puede ser negativa. Es un artefacto de la estimación. Al ser la componente tan insignificante, puede que por azar la estimación sea negativa. En este caso no se diría que la componente de la varianza estimada es -3,04 sino que se diría que es, simplemente, 0.

Situación 41: Un problema de ANOVA

Supongamos que se ha ensayado en dos Hospitales (Uno de segundo y otro de tercer nivel) dos aparatos (A y B) para eliminar, en las salas, la contaminación ambiental. Para ello se toman al azar tres salas en cada uno de esos dos Hospitales. Se ensaya un día (un viernes por la tarde) mediante un aparato. Antes de empezarse con el tratamiento se toma una muestra de un metro cúbico de aire y se inicia entonces el proceso que dura una hora. Una vez finalizado el proceso se espera tres horas y entonces se toman dos muestras de un metro cúbico cada una y se evalúa el porcentaje de reducción de las unidades formadoras de colonias (ufc)/m3 en cada una de ellas. La semana siguiente, también un viernes por la tarde, se sigue exactamente el mismo procedimiento con el otro aparato.

Los datos obtenidos son los siguientes:

IMG_7081

Se quiere saber si hay diferencias significativas en cuanto a la eficacia del tratamiento entre Hospitales de segundo y tercer nivel, entre los dos aparatos y entre salas. Se quiere saber, también, si hay alguna interacción destacable.

Solución Situación 40

La respuesta correcta es la «c». Cuando se comparan dos métodos diagnósticos mediante curvas de este tipo el criterio es que es mejor método el que tiene una mayor área bajo la curva. Y la VS tiene un área mayor que la VTD.

Las curvas COR o ROC (en el orden de palabras inglés) es un mecanismo globalizado para poder evaluar una variable como método diagnóstico. En el Tema 23: Análisis ROC se explica cómo es la confección de esas curvas. En resumen, dado un método diagnóstico, lo que se hace es ir cambiando el umbral, el punto de corte, del valor de una variable para clasificar a un paciente entre dos opciones (tener o no la patología que se pretende diagnosticar). De esta forma se establece una medida de calidad del método diagnóstico. El área bajo la curva creada es uno de esos criterios.

La opción «a» no es cierta porque no es cierto que sean similares porque el área bajo la curva sea superior al 50% (generalmente los valores de área bajo la curva se dan en tanto por 1; en este caso diríamos, pues, 0.5). El criterio es que el área bajo la curva sea lo más próximo a 1, lo que indica que el método consigue una mejor calidad diagnóstica.

La opción «b» no es cierta porque la curva se aproximará más al ángulo superior izquierdo si él área es mayor y quien tiene un área bajo la curva mayor es la VS y no la VTD.

La opción «d» no es cierta porque la prevalencia no afecta ni a la sensibilidad ni a la especificidad, que son los dos conceptos con los que se configuran las curvas ROC. Afecta, eso sí, al Valor predictivo positivo y al Valor predictivo negativo, como puede verse en el artículo Sensibilidad, Especificidad, Valor predictivo positivo y Valor predictivo negativo.

La opción «e» no es cierta, tampoco. Precisamente el principal uso de esas curvas es para valorar la calidad de alguna variable cuantitativa, como las dos propuestas, para establecer un mecanismo diagnóstico. La RMN aparece, aquí, como el Gold standard que actúa como referencia de calidad de las dos variables obtenidas mediante el eco-doppler. El mecanismo que nos dice si realmente hay o no estenosis. Estenosis que queremos diagnosticar mediante esas dos mediciones que estamos comparando. Hemos de tener en cuenta que para valorar la calidad de un método diagnóstico debemos basarnos en una muestra de pacientes con la patología y otra muestra sin ella, para evaluar la calidad de la variable estudiada como método diagnosticador.

Situación 40: Una pregunta del MIR sobre curvas ROC

Queremos validar el eco-doppler carotídeo como prueba de cribado de la estenosis carotídea asintomática. Para ello comparamos los parámetros velocimétricos del eco-doppler velocidad sistólica (VS) y velocidad telediastólica (VTD), frente al resultado de la RMN (estenosis sí/no). En una curva COR se obtiene un área bajo curva para la VS de 82% y para la VTD de 70%. Señale la correcta:

1) Estos resultados indican que ambos test son similares, ya que en ambos el área bajo la curva es superior al 50%.
2) La curva VTD se aproxima más al ángulo superior izquierdo de la gráfica COR.
3) La VS es un mejor test diagnóstico.
4) Nos falta conocer la prevalencia de la enfermedad para poder saber qué parámetro es mejor.
5) El empleo de curvas COR no es apropiado para valorar la validez de parámetros cuantitativos frente a la RMN.

Solución