Archivos Mensuales: noviembre 2020

Situación 161: Examen (Tema 11: Regresión logística)

1.Se quiere ver la relación entre el nivel de un contaminante ambiental y la viabilidad o no viabilidad al cabo de un año en ejemplares de una especie determinada. ¿Cuál de las siguientes curvas de regresión logística indicarían un mayor efecto de los niveles progresivamente altos de contaminación sobre la no viabilidad? (Viabilidad=0; No viabilidad=1):

a.a

b.b

c.c

d.d

2.En un estudio nos dicen que la relación entre el porcentaje de abundancia de una determina especie de insecto y el que se produzca reproducción (1) o no (0) de una determinada especie de pájaro se puede expresar mediante la siguiente expresión: OR=1.53; IR 95%: (1.23, 2.33). ¿Cuál de las siguientes afirmaciones es cierta?

a.No podemos decir si hay o no relación significativa porque no tenemos un p-valor.

b.Hay una relación significativa. Cuanto mayor porcentaje de esa especie de insecto menos posibilidad de reproducción del ave.

c.Hay una relación significativa. Cuanto mayor porcentaje de esa especie de insecto tengamos mayor posibilidad de reproducción del ave.

d.Un estudio como este precisa de una Regresión logística múltiple.

3.¿Cuál de las siguientes afirmaciones es cierta?

a.Una OR mayor que 1 es automáticamente significativa.

b.Una OR=0.5 (p<0.05) indica que al aumentar el valor de la variable cuantitativa la probabilidad del fenómeno dicotómico estudiado, y marcado con un 1, aumenta.

c.Una OR=2, con IC95%: (1.5, 2.3) es mayor que un OR=4 con IC95%: (0.8, 10.3).

d.Una regresión logística es una relación entre dos variables cuantitativas.

4.En un estudio de susceptibilidad a la erosión en una cuenca hidrográfica (https://www.revistas.una.ac.cr/index.php/ambientales/article/view/10110/12576) se han buscado los elementos que condicionan esa susceptibilidad mediante un análisis de regresión logística múltiple. Los resultados de esta análisis son los siguientes:

¿Cuál de las siguientes afirmaciones es cierta?

a.Ninguna de las cuatro variables estudiadas (Geomorfología, Uso, Pendiente y Distancia a cauces) guarda una relación con la erosión de forma significativa.

b.La OR de Distancia a cauces es 0.448.

c.La OR de Pendiente es 2,859.

d.El intervalo de confianza del 95% de Geomorfología nos indica que esa variable no guarda relación con la Erosión.

5.Tenemos, en el estudio referido anteriormente, el siguiente mapa:

¿Cuál de las siguientes afirmaciones es cierta?

a.Las zonas rojas están más cerca de cauces.

b.Las zonas verdes son las más susceptibles a la erosión.

c.Las zonas rojas son donde se presenta más pendiente.

d.Los puntos negros son los únicos donde tenemos muestras.

Solución Situación 160

1.

a.

b. Cinco efectos.

c. Una posible solución es la siguiente:

Puede apreciarse cómo hay diferencias claras entre las dos especies, entre las dos zonas, pero no las hay entre subzonas.

2.

Para ver cuáles son los cocientes adecuados hay que buscar el modelo:

Los cocientes F serán, pues:

Pero, cuidado, porque, en este modelo, los factores aleatorios son el A y el B, pero en nuestro problema son el B y el C. Lo que le sucede, pues, al A y al B en este modelo es lo que les sucede al B y al C en nuestro problema. Y lo que le sucede al C en el modelo es lo que le sucede al A en nuestro problema. Por lo tanto, los cocientes son los que veis en la solución.

El umbral es el valor de F(1,1) en los cinco primeros contrastes y es el valor de F(1,8) en los dos últimos contrastes.

Situación 160: Examen ANOVA

1. Se quiere estudiar el grado de crecimiento vegetal de un proceso de reforestación de zonas que previamente han sufrido incendios. Se quiere comparar, en primer lugar, dos zonas muy concretas (de unas 50 hectáreas, cada una) que están a distintas alturas del nivel del mar (50 y 500 metros) y que sufrieron incendios con destrucción total de la vegetación.  Para ver la homogenización de esta viabilidad en cada zona se toman, al azar, tres subzonas en cada zona para hacer el ensayo. Cada subzona es de una hectárea. En cada una de estas subzonas se plantan dos variedades de plantas que expresamente se quieren evaluar. La variable estudiada es el nivel de crecimiento de cada planta en biomasa. En cada subzona elegida se plantan 10 ejemplares de cada una de las dos especies vegetales.

a. Escribe el modelo.

b. ¿Cuántos efectos podremos evaluar?

c. Construye unos datos factibles con el resultado en el que sean significativos tanto el factor zona como el factor especie pero que el factor subzona no sea significativo.

2. Tenemos un modelo de tres factores (A, B y C).  El factor A es fijo y los factores B y C son aleatorios. Los tres factores están cruzados. Completar la tabla:

Introducción al Análisis multivariante

El Análisis multivariante es un conjunto de técnicas estadísticas que tienen en común el hecho de que se trabaja con más de dos variables. Son técnicas con el mismo lenguaje del empleado en las técnicas donde se trabaja con una variable o con dos variables en las técnicas de relación (Correlación o Regresión simple).

Hay técnicas multivariante descriptivas, de relación y de comparación, que es una importante clasificación de las técnicas estadísticas que ya hemos visto.

Un esquema posible de todas las técnicas estadísticas sería la siguiente:

Veremos, pues, en este curso de Análisis multivariante:

  1. Introducción a las técnicas de relación
  2. Noción de componente
  3. Noción de correlación
  4. Introducción a la regresión
  5. Regresión lineal simple
  6. Regresión lineal múltiple
  7. Regresión logística
  8. Análisis de supervivencia
  9. Regresión de Cox
  10. Análisis de componentes principales
  11. Análisis factorial
  12. Análisis clúster
  13. Análisis discriminante
  14. Análisis canónico
  15. Análisis de correspondencias
  16. MANOVA