Tenemos la siguiente base de datos de una piscifactoría donde se cría Salmón:
Las variables son:
Ambiente: Dos ambientes distintos de cría que se quieren comparar. Se marca y se sigue la evolución de 20 ejemplares hembras en cada uno de estas dos condiciones de crecimiento.
Peso en Kg de cada ejemplar.
% de Proteínas de cada ejemplar.
Relación %Prot/Peso.
Se reproduce: El ejemplar se ha reproducido después de un año de crecimiento.
Ambiente
Peso (Kg)
%Proteína
Prot/Peso
Se reproduce
1
2,25
22,99
10,22
1
1
1,7
17,63
10,37
1
1
1,45
14,77
10,18
1
1
2,1
21,64
10,30
1
1
2,35
24,38
10,38
1
1
2,2
22,39
10,18
0
1
2,3
23,19
10,08
0
1
1,75
17,82
10,18
1
1
1,5
15,15
10,10
0
1
2,15
21,87
10,17
0
1
2
20,83
10,41
1
1
2,25
22,53
10,01
0
1
1,8
18,30
10,17
0
1
1,8
18,90
10,50
1
1
1,55
15,69
10,12
0
1
2,2
22,78
10,36
0
1
2,05
21,46
10,47
0
1
2,3
23,86
10,37
0
1
1,7
17,47
10,28
0
1
1,85
18,88
10,21
0
2
2,1
24,03
11,44
1
2
2,35
27,06
11,52
1
2
1,75
18,09
10,34
1
2
1,9
23,39
12,31
1
2
2,25
26,84
11,93
1
2
2,1
23,74
11,30
1
2
2,35
28,29
12,04
1
2
2,2
22,84
10,38
0
2
2,05
24,67
12,03
1
2
2,3
23,57
10,25
1
2
1,85
18,73
10,12
0
2
1,85
19,14
10,35
0
2
1,6
18,08
11,30
1
2
2,25
24,86
11,05
1
2
1,9
22,27
11,72
0
2
1,9
19,88
10,47
0
2
1,65
17,65
10,70
1
2
2
22,63
11,31
1
2
2,15
25,37
11,80
1
2
2
24,15
12,08
1
Hacer una estadística descriptiva de la variable Peso y %Proteínas en cada uno de estas dos condiciones de crecimiento.
Resumir brevemente la variable %Proteínas (media y DE o mediana y Rango intercuartílico).
¿Existe relación entre la variable Peso y %Proteínas? Si hay relación, crear una ecuación matemática para predecir el %Proteínas a partir del Peso.
¿Existe relación entre el ambiente de crecimiento y la reproducción?
Comprobar si existe diferencia estadísticamente significativas entre la media poblacional del %Proteínas de los dos ambientes de crecimiento?
Comprobar si existe diferencia estadísticamente significativa en la variable %Prot/Peso entre los que se reproducen y de los que no se reproducen?
4. La primera componente valora la cantidad de sustrato y la cantidad de vida. La segunda valora si esta cantidad de vida es muy diversa o poco diversa.
1.En un Análisis de componentes principales la primera componente principal es Y1=0.5X+0.5Y+0.5Z y la segunda es Y2=0.5X-0.5Y+0.01Z ¿Cuál de los siguientes puntos es el que ocupa la posición del 2? (Tener en cuenta que el primer valor es la X, el segundo la Y y el tercero la Z):
a.(10, 4, 5)
b.(1, 3, 1)
c.(3, 1, 1)
d.(5, 8, 7)
2.¿Cuál es el punto marcado con el número 1 en un Análisis de Componentes Principales con las dos siguientes primeras componentes principales: Y1=0.5X1-0.5X2-0.5X3+0.5X4 e Y2=0.01X1-0.5X2+0.5X3-0.01X4?
a.(2, 4, 6, 1)
b.(5, 1, 3, 5)
c.(5, 3, 1, 5)
d.(1, 6, 4, 2)
3.¿Cuál es el punto 1 en un Análisis de Componentes Principales con las dos siguientes primeras componentes principales:
a.(1, 2, 0, 2, 1, 2)
b.(1, 2, 2, 1, 2, 0)
c.(5, 3, 3, 5, 4, 5)
d.(3, 5, 5, 3, 5, 3)
4.Tenemos una base de datos con las siguientes variables:
BF=Biomasa del fitoplancton
BZ=Biomasa del zooplancton
P=Fósforo
N=Nitrógeno
D=Diversidad biológica
En un Análisis de componentes principales las dos primeras componentes que explican el 93% de la varianza son las siguientes:
Comp1 = 0.43 BF + 0.39 BZ + 0.38 P + 0.41 N + 0.05 D
Comp2 = 0.40 BF + 0.35 BZ – 0.05 P – 0.02 N – 0.43 D
Trata de explicar, brevemente, las dos componentes desde un punto de vista biológico.
5.Hemos realizado un Análisis de componentes principales a una base de datos con cinco variables obteniendo dos componentes que explican un 85% de la información. La primera componente es Y1=0.5X1-0.5X2-0.5X3-0.5X4+0.5X5 y la segunda componente es Y2=0.01X1+0.5X2-0.01X3+0.5X4-0.01X5. En el siguiente gráfico de las dos primeras componentes principales, ¿cuál es el individuo 5?
a.(1, 2, 5, 2, 1)
b.(4, 1, 0, 1, 5)
c.(1, 4, 1, 4, 1)
d.(5, 0, 1, 0, 4)
6. Si en un Análisis de componentes principales tenemos como primer componente la variable Y1=0.5X1+0.5X2+0.5X3+0.5X4+0.5X5, ¿qué afirmación cierta?:
a. Un individuo con los valores (0, 1, 1, 1, 1) de las cinco variables originales tendrá un valor de 1 para la primera componente.
b. Existe una débil correlación entre las cinco variables originales del estudio.
c. Un individuo con los valores (1, 1, 1, 1, 1) de las cinco variables originales tendrá un valor de 2.5 para la primera componente.
d. Un individuo con los valores (1, 1, 1, 1, 0) de las cinco variables originales tendrá un valor de 1 para la primera componente.
1.Construir el estimador Kaplan-Meier de la siguiente muestra de tiempos de muerte de árboles reimplantados en una zona previamente quemada, en un seguimiento hasta 24 meses. Los 24c indica que al final del estudio estaban en situación de viabilidad:
2.Hemos realizado un estudio comparando el tiempo hasta reproducirse de ejemplares de dos especies de pájaros en un determinado contexto donde tenemos unas determinadas condiciones de estrés ambiental debido a vivir en cautividad. En la especie A se produce reproducción en los siguientes tiempos, en meses: (2, 5, 5, 10, 11) y en la B en los tiempos: (3, 5, 7, 8, 9). Construimos dos curvas de supervivencia donde evaluamos el tiempo hasta reproducción.
¿Cuál de las siguientes afirmaciones es cierta?
a.La curva de la función de supervivencia de A está por encima de la de B.
b.Las dos curvas de supervivencia se solapan.
c.La curva de la función de supervivencia de A está por debajo de la de B.
d.Las dos curvas se cruzan en algún momento.
3.En un estudio donde queremos ver la influencia de dos zonas distintas en la supervivencia de una reforestación tenemos una Hazard ratio de la zona A respecto a la zona B de 1.53, con un IC 95% (1.48, 1.83).
¿Qué afirmación es cierta?
a.La curva de supervivencia de A está por encima de la de B.
b.La relación no es estadísticamente significativa porque el intervalo no incluye al 1.
c.No podemos decir nada de la significación porque no tenemos un p-valor.
d.La curva de supervivencia de A está por debajo de la de B.
4.Tenemos la siguiente curva de supervivencia:
¿Cuál es la muestra de esta curva de supervivencia?
a.(2, 3, 4, 5, 10)
b.(2, 3, 4, 6, 10)
c.(2, 3, 4, 4, 10)
d.(2, 4, 4, 5, 10)
5.Construir la curva de supervivencia de la siguiente muestra de seguimiento de 12 meses:
(1, 1.5, 2, 2, 2, 2, 2, 3, 12c, 12c)
6.Si se ha realizado un Log-Rang test para comparar dos curvas de supervivencia y el p-valor es 0.001, ¿cuál de las siguientes afirmaciones es cierta?
a.El valor de la ji-cuadrado es menor de 2.70.
b.No hay diferencia estadísticamente significativa entre las dos curvas.
c.Podemos afirmar significativamente que las dos curvas poblacionales son iguales.
d.El valor de la ji-cuadrado es 10.82.
7.¿Cuál de las siguientes Hazard ratios indica una mayor relación entre curvas de supervivencia?
a.HR=0.50 IC 95%: (0.25, 0.87)
b.HR=1.50 IC 95%: (1.21, 2.55)
c.HR=2.50 IC 95%: (0.85, 6.33)
d.HR=0.66 IC 95%: (0.51, 0.79)
8.En un estudio se ha estudiado la supervivencia de nueve especies en dos ambientes distintos y se ha realizado una comparación entre estas curvas, especie por especie. Un cuadro que resume este estudio es el siguiente:
¿Cuál de las siguientes afirmaciones es cierta?
a.Todas las especies muestran diferencias estadísticamente significativas entre las curvas de supervivencia cuando se comparan los dos ámbitos de crecimiento.
b.El Log-Rank test que nos presentan comparan la supervivencia de las nueve especies al unísono.
c.Nos dan los Log-Rank test sólo de las cinco especies donde se aprecia diferencia estadísticamente significativa entre las supervivencias de los dos ámbitos estudiados.
d.La función de riesgo de J. pyriformis va por debajo de la de U. mexicana en el bosque secundario.
9.Se ha realizado una Regresión de Cox (también denominada Regresión de riesgos proporcionales) en un estudio para ver la influencia de ciertos factores en la supervivencia de la especie Pinus pseudostrobus y tenemos los siguientes resultados donde la razón de riesgo es la traducción de la denominada Hazard Ratio (HR):
¿Cuál de las siguientes afirmaciones es cierta?
a.La mayor altura es un factor que incrementa la supervivencia.
b.El peso seco de la raíz es un factor de riesgo estadísticamente significativo.
c.Cuanto mayor es el diámetro del cuello de la raíz más supervivencia conseguimos.
d.El peso seco aéreo es un factor de protección estadísticamente significativo.
10.Se ha realizado un estudio de supervivencia de Pinus leiophylla en cinco tratamientos distintos. También se ha realizado el Log-Rank test dos a dos entre las curvas de los diferentes tratamientos.
¿Cuál de las siguientes afirmaciones es cierta?
a.Hay diferencias estadísticamente significativas entre todas las curvas de supervivencia.
b.Sólo son diferentes las comparaciones que tengan un p-valor inferior a 0.05.
c. No hay ninguna diferencia estadísticamente significativa entre estas curvas.
d.Estos resultados no son fiables porque no tenemos un intervalo de confianza.
1.Se quiere ver la relación entre el nivel de un contaminante ambiental y la viabilidad o no viabilidad al cabo de un año en ejemplares de una especie determinada. ¿Cuál de las siguientes curvas de regresión logística indicarían un mayor efecto de los niveles progresivamente altos de contaminación sobre la no viabilidad? (Viabilidad=0; No viabilidad=1):
a.a
b.b
c.c
d.d
2.En un estudio nos dicen que la relación entre el porcentaje de abundancia de una determina especie de insecto y el que se produzca reproducción (1) o no (0) de una determinada especie de pájaro se puede expresar mediante la siguiente expresión: OR=1.53; IR 95%: (1.23, 2.33). ¿Cuál de las siguientes afirmaciones es cierta?
a.No podemos decir si hay o no relación significativa porque no tenemos un p-valor.
b.Hay una relación significativa. Cuanto mayor porcentaje de esa especie de insecto menos posibilidad de reproducción del ave.
c.Hay una relación significativa. Cuanto mayor porcentaje de esa especie de insecto tengamos mayor posibilidad de reproducción del ave.
d.Un estudio como este precisa de una Regresión logística múltiple.
3.¿Cuál de las siguientes afirmaciones es cierta?
a.Una OR mayor que 1 es automáticamente significativa.
b.Una OR=0.5 (p<0.05) indica que al aumentar el valor de la variable cuantitativa la probabilidad del fenómeno dicotómico estudiado, y marcado con un 1, aumenta.
c.Una OR=2, con IC95%: (1.5, 2.3) es mayor que un OR=4 con IC95%: (0.8, 10.3).
d.Una regresión logística es una relación entre dos variables cuantitativas.
4.En un estudio de susceptibilidad a la erosión en una cuenca hidrográfica (https://www.revistas.una.ac.cr/index.php/ambientales/article/view/10110/12576) se han buscado los elementos que condicionan esa susceptibilidad mediante un análisis de regresión logística múltiple. Los resultados de esta análisis son los siguientes:
¿Cuál de las siguientes afirmaciones es cierta?
a.Ninguna de las cuatro variables estudiadas (Geomorfología, Uso, Pendiente y Distancia a cauces) guarda una relación con la erosión de forma significativa.
b.La OR de Distancia a cauces es 0.448.
c.La OR de Pendiente es 2,859.
d.El intervalo de confianza del 95% de Geomorfología nos indica que esa variable no guarda relación con la Erosión.
5.Tenemos, en el estudio referido anteriormente, el siguiente mapa:
¿Cuál de las siguientes afirmaciones es cierta?
a.Las zonas rojas están más cerca de cauces.
b.Las zonas verdes son las más susceptibles a la erosión.
c.Las zonas rojas son donde se presenta más pendiente.
d.Los puntos negros son los únicos donde tenemos muestras.
Puede apreciarse cómo hay diferencias claras entre las dos especies, entre las dos zonas, pero no las hay entre subzonas.
2.
Para ver cuáles son los cocientes adecuados hay que buscar el modelo:
Los cocientes F serán, pues:
Pero, cuidado, porque, en este modelo, los factores aleatorios son el A y el B, pero en nuestro problema son el B y el C. Lo que le sucede, pues, al A y al B en este modelo es lo que les sucede al B y al C en nuestro problema. Y lo que le sucede al C en el modelo es lo que le sucede al A en nuestro problema. Por lo tanto, los cocientes son los que veis en la solución.
El umbral es el valor de F(1,1) en los cinco primeros contrastes y es el valor de F(1,8) en los dos últimos contrastes.
1. Se quiere estudiar el grado de crecimiento vegetal de un proceso de reforestación de zonas que previamente han sufrido incendios. Se quiere comparar, en primer lugar, dos zonas muy concretas (de unas 50 hectáreas, cada una) que están a distintas alturas del nivel del mar (50 y 500 metros) y que sufrieron incendios con destrucción total de la vegetación. Para ver la homogenización de esta viabilidad en cada zona se toman, al azar, tres subzonas en cada zona para hacer el ensayo. Cada subzona es de una hectárea. En cada una de estas subzonas se plantan dos variedades de plantas que expresamente se quieren evaluar. La variable estudiada es el nivel de crecimiento de cada planta en biomasa. En cada subzona elegida se plantan 10 ejemplares de cada una de las dos especies vegetales.
a. Escribe el modelo.
b. ¿Cuántos efectos podremos evaluar?
c. Construye unos datos factibles con el resultado en el que sean significativos tanto el factor zona como el factor especie pero que el factor subzona no sea significativo.
2. Tenemos un modelo de tres factores (A, B y C). El factor A es fijo y los factores B y C son aleatorios. Los tres factores están cruzados. Completar la tabla: