Archivos Mensuales: enero 2019

Viaje en autobús turístico por el mundo de la Estadística

Una de las primeras cosas que uno se plantea ante un curso de Estadística es entender qué es la Estadística. En qué consiste. En este artículo vamos a hacer un viaje rápido por toda la ciudad de la Estadística. Sin entrar en detalles concretos, pero tratando de hacer una visión de conjunto, una visión que nos transmita, con cierta claridad, qué es lo que nos vamos a encontrar a lo largo de todo un curso de Estadística. Vamos a hacer un viaje que nos proporciones una visión similar a la que tenemos desde un autobús turístico de cualquier ciudad del mundo.

Empecemos el viaje:

La Estadística es la ciencia con la que, a partir de MUESTRAS, decimos cosas de POBLACIONES. Es muy importante tener siempre en cuenta esta idea. Con MUESTRAS decir cosas de POBLACIONES. A partir, pues, de unos POCOS hablar de TODOS.

Y todo científico continuamente tiene que enfrentarse a esta dualidad: Sólo tiene MUESTRAS pero su intención es hablar de POBLACIONES. Tiene sólo información de unos POCOS pero su finalidad es hablar de TODOS. Todo científico: un biólogo, un psicólogo, un médico, un economista, un sociólogo, un lingüista, un geólogo, etc.

Vamos a ver, en primer lugar, qué entendemos por POBLACIONES y por MUESTRAS en Estadística.

Una POBLACIÓN es un conjunto, generalmente muy grande, de personas, de seres vivos, de cosas, etc.

Ejemplos:

  1. La población de todos diabéticos de España.
  2. La población de todos los menores de 18 España.
  3. La población de todos los pokémons.
  4. La población de todas las ciudades del mundo de más de 100000 habitantes.
  5. La población de todos los perros de España.

Una MUESTRA es una parte, generalmente pequeña, de una POBLACIÓN.

Ejemplos:

  1. Hemos seleccionado al azar 100 diabéticos al azar en España.
  2. Hemos seleccionado 50 menores de 18 años en España al azar.
  3. Hemos seleccionado al azar 20 pokémons.
  4. Hemos seleccionado al azar 80 ciudades del mundo de más de 100000 habitantes al azar.
  5. Hemos seleccionado al azar 200 perros de España.

Observemos que la estructura de la relación entre POBLACIÓN y MUESTRA es siempre la que se ve en el siguiente dibujo:

img_3824

Siempre una MUESTRA es una parte de una POBLACIÓN. Y el objetivo de la Estadística es, precisamente, a partir de lo que podremos saber de esta MUESTRA, a base de estudiarla, de calcular cosas en ella, intentar decir cosas de cómo es la POBLACIÓN que no tenemos.

Evidentemente, no toda MUESTRA tiene la misma calidad. Hay muestras más representativas de la POBLACIÓN que otras. A la hora de elegir la muestra se trata de hacerlo con el máximo de coherencia para tratar que la MUESTRA sea lo más parecida posible a la POBLACIÓN, pero en miniatura. La elección de la MUESTRA es un paso fundamental puesto que, como ya hemos dicho, la Estadística pretende decir cosas de las POBLACIONES a partir del estudio de MUESTRAS. Si la elección de ésta es incoherente mala ciencia estaremos haciendo, evidentemente.

Esto es, pues, repitamos, la Estadística: Intentar saber cómo es un todo (una POBLACIÓN) que no tenemos a partir del estudio de una parte (una MUESTRA) que sí que tenemos.

Por lo tanto, estos dos conceptos (MUESTRA y POBLACIÓN) están siempre presentes, como hemos dicho, en la Estadística. Pero no sólo en la Estadística. Como hemos dicho, es un problema íntimamente asociado a toda Ciencia.

A las personas, seres vivos o cosas de las muestras que tenemos las analizamos para obtener de ellos alguna característica. A estas características las llamamos VARIABLES.

Ejemplos (Observa que cada punto está constituido por los elementos de las POBLACIONES y MUESTRAS vistas en la lección anterior):

  1. La cantidad de Hemoglobina glicada de un diabético.
  2. El número de veces que ha ido al dentista un menor de 18 años.
  3. La velocidad de un pokémon.
  4. La cantidad de un determinado contaminante en una ciudad de más de 100000 habitantes.
  5. Si un perro lleva o no un chip identificativo.

Observemos que hemos definido una VARIABLE en cada caso visto, pero podríamos escoger otras muchas, por supuesto.

Observemos, pues, que hasta ahora hemos visto tres conceptos en Estadística que son nucleares y que están siempre presentes en cualquier estudio realizado en cualquier ciencia:

  1. POBLACIÓN.
  2. MUESTRA.
  3. VARIABLE.

Es muy importante, siempre, situar bien cada uno de estos tres conceptos cuando se hace un estudio.

Veamos un ejemplo práctico:

Se quiere ver, en un estudio clínico, en personas que tienen una determinada enfermedad, si un nuevo medicamento que se quiere ensayar consigue más, menos o igual número de curaciones que el medicamento que se utiliza actualmente.

Llamemos al medicamento habitual como A y al nuevo como B.

Tenemos la POBLACIÓN de todos los enfermos de esa patología. Que pueden ser miles y miles.

El medicamento A lo damos a 100 personas con esa enfermedad y a los que seguiremos con detalle para ver si se curan o no. Estas 100 personas son una MUESTRA de la POBLACIÓN de todos los enfermos.

El medicamento B lo damos a otras 100 personas con esa enfermedad. Evidentemente, personas diferentes a las anteriores. Personas que también seguiremos detalladamente para ver si se curan o no con ese tratamiento. Estas 100 personas son una MUESTRA de la misma POBLACIÓN anterior, la POBLACIÓN de todos los enfermos de esa enfermedad.

La VARIABLE en este estudio es si el enfermo se cura o no con el tratamiento después de un cierto tiempo de tratamiento.

Veamos todo el planteamiento del estudio con un dibujo:

img_3832

Unos resultados que podríamos obtener, finalmente, del estudio podrían ser los siguientes:

Medicamento A:

70 se curan.

30 no se curan.

Medicamento B:

90 se curan.

10 no se curan.

Observemos que entre las dos MUESTRAS hay diferencias. Con el medicamento B se curan más personas que con el medicamento A. Es muy claro. De las 100 personas tratadas con el medicamento B se han curado 90. Esto lo expresamos así: un 90 por 100 (lo solemos escribir así: 90%). Sin embargo, con el medicamento A se han curado sólo 70: un 70 por 100 (70%).

Pero, algo muy importante: esto que vemos lo vemos en las MUESTRAS. ¿Pasaría lo mismo si estos tratamientos se aplicaran a la POBLACIÓN entera, a todos los enfermos? Observemos que esto no lo podremos decir, ciertamente, hasta que no lo apliquemos. Pero sería extremadamente importante poder predecir si las diferencias que vemos en esas MUESTRAS las veríamos también si cada uno de esos medicamentos se aplicara a toda la POBLACIÓN.

Pues éste es el papel de la Estadística. A eso nos dedicamos los estadísticos y para saber hacer este paso de las MUESTRAS a las POBLACIONES todos los científicos estudian Estadística.

Ya veremos que el gran problema de la Estadística será saber cuándo podemos decir que lo que vemos en las MUESTRAS es lo que veríamos, también, en las POBLACIONES. Cuando decimos, en Estadística, que lo que vemos es ESTADÍSTICAMENTE SIGNIFICATIVO es porque, con muchas posibilidades de no equivocarnos, lo que vemos en las MUESTRAS es lo que veríamos, también, en las POBLACIONES.

Ya tenemos, pues, los elementos básicos con los que se trabaja, siempre, en Estadística: POBLACIONES, MUESTRAS y VARIABLES.

Ahora vamos a empezar a manejarlos.

La Estadística es una ciencia que actúa manejando Técnicas analíticas, que solemos denominar TÉCNICAS ESTADÍSTICAS. Con ellas es como hacemos este proceso de decir cosas de POBLACIONES a partir de MUESTRAS. Hay muchos problemas distintos que precisan técnicas distintas. En el caso que hemos visto antes necesitamos utilizar una técnica analítica concreta. Una técnica estadística que nos permita decir si la diferencia que vemos a nivel MUESTRAL es, también, con muchísimas posibilidades, una diferencia POBLACIONAL. Si, por ejemplo, estuviéramos comparando tres tratamientos y lo que quisiéramos ver fuera si una cantidad cambia (por ejemplo, la cantidad de hemoglobina glicada), deberíamos aplicar otra técnica distinta.

La clave será aprender diferentes técnicas estadísticas, en qué situaciones se aplican y cómo, aplicándolas, podemos hacer este salto desde las MUESTRAS a las POBLACIONES.

Hay centenares de técnicas. En un curso de Estadística se suelen ver unas 15 ó 20. Se ven, por supuesto, las más utilizadas. Pero hay una cosa importante respecto a esas distintas técnicas. Se pueden clasificar en tres tipos, en tres familias de técnicas: Técnicas DESCRIPTIVAS, técnicas de RELACIÓN y técnicas de COMPARACIÓN.

En cada uno de estos tipos de técnicas decimos cosas de POBLACIONES a partir de las MUESTRAS.

En las técnicas DESCRIPTIVAS resumimos la muestra y vemos hasta qué punto con esos valores podemos pasar a valores poblacionales. Supongamos que en una muestra de 100 personas hay 10 que son diabéticos. En la muestra tengo un 10% de diabéticos. ¿Hasta qué punto puedo decir que eso también es, por ejemplo, de toda España, que es de donde he cogido la muestra? Para ello lo que solemos hacer los estadísticos es construir lo que llamamos un intervalo de confianza del 95% del porcentaje poblacional. No del muestral sino del poblacional. Si lo calculáramos veríamos que este intervalo es (4%, 16%). Si fueran 100 diabéticos entre 1000 sería (8,1%, 11.9%) y si fueran 1000 entre 10000 sería (9.4%, 10.6%). Cambian las cosas, ¿verdad? Cambia lo que podemos decir de la población, pero en la muestra siempre teníamos un 10%. Eso no cambiaba. Pero en las tres situaciones distintas lo que cambia, fundamentalmente, es nuestra posibilidad de decir cosas de las POBLACIONES a partir de las MUESTRAS. Como veremos, dependerá, entre otras cosas, del tamaño MUESTRAL que tengamos.

En las técnicas de RELACIÓN buscamos si ciertas asociaciones que detectamos entre variables, en las MUESTRAS, las podemos generalizar a las POBLACIONES. Por ejemplo, en personas con anorexia, ¿hay relación entre el tiempo que lleva esa persona con un trastorno alimentario y la pérdida de densidad ósea que se va a producir en ella? ¿Tener un determinado comportamiento está asociado a tener una determinada enfermedad?

En las técnicas de COMPARACIÓN buscamos ver si las diferencias que vemos entre MUESTRAS son generalizables a las POBLACIONES. Es el caso del ejemplo de antes de los medicamentos A y B que aplicábamos a diferentes pacientes y buscábamos si la respuesta es distinta o no.

Las técnicas de relación o de comparación se conducen, siempre, a un mismo esquema que en Estadística denominamos CONTRASTE DE HIPÓTESIS, donde, como dice el nombre: contrastamos, comparamos, dos hipótesis, dos afirmaciones, siempre (muy importante), POBLACIONALES.

HIPÓTESIS NULA: No hay relación (en técnicas de relación). Hay igualdad (en técnicas de comparación).

HIPÓTESIS ALTERNATIVA: Hay relación (en técnicas de relación). Hay diferencias (en técnicas de comparación).

Las técnicas de relación y de comparación siempre tienen por objetivo decidir, a la luz de la información MUESTRAL cuál es la afirmación POBLACIONAL más coherente por la cual decantarse: Por la HIPÓTESIS NULA, que es la que con la que partimos el estudio como cierta, o por la HIPÓTESIS ALTERNATIVA, que sólo abrazaremos si la NULA no tiene sentido mantenerla a la luz de la información muestral que tenemos.

Y, para acabar, un paralelismo sorprendente: Este esquema recuerda mucho a lo que sucede en un juicio. Cuando se juzga a una persona existen dos hipótesis a contrastar: Inocencia y Culpabilidad. Una hipótesis parte como cierta: es la célebre presunción de inocencia. Podríamos decir, por lo tanto, que en Ciencia hay presunción de no relación o de igualdad porque es lo que afirma siempre la HIPÓTESIS NULA, que es la que parte siempre como cierta. Además, otro paralelismo: el juez o el tribunal, en el juicio tiene una MUESTRA, pero su voluntad es saber la verdad que sería, aquí, lo equivalente a la POBLACIÓN, en Estadística, a tener toda la información exacta de lo que sucedió en los hechos que se juzgan.

Podemos decir, pues, para concluir este viaje en autobús turístico, que el DERECHO es a la SOCIEDAD lo que la ESTADÍSTICA es a la CIENCIA. Las grandes decisiones en el ámbito de la CIENCIA ( si un medicamento funciona o no, si un determinado comportamiento está relacionado o no con cierta patología, etc) las toman técnicas estadísticas; exactamente lo mismo que en la sociedad reservamos las decisiones conflictivas en manos del DERECHO.

 

Solución Situación 134

  1. Estamos ante un modelos de tres factores cruzados, uno aleatorio (quirófano) y los otros dos fijos. El modelo es pues:

7 efectos, 7 constrastes. Los cocientes se pueden deducir de esas esperanzas de los cuadrados medios. Se pueden consultar en el fichero dedicado a tres factores.

2.

 

3.

 

Solución Situación 133

1.

a. Se trata de dos factores aleatorios cruzados.

b. Tres efectos.

c. Deben evaluarse tres contrastes de hipótesis: uno para cada uno de los dos factores y otro para la interacción.

d. Los cocientes a realizar serán: En los dos factores el cociente es por la interacción y en la interacción el cociente es por el residuo.

2.

 

3.

Situación 132: Examen (Temas 1-16)

1.En la muestra (1, 1, 2, 2, 2, 5, 5, 7, 7):

a.La mediana es 3,5.

b.3.5 es el percentil 40.33.

c. El rango intercuartílico es 6.

d.El percentil 22,22 es 1,5.

2.En dos estudios distintos tenemos las siguientes correlaciones r=-0.5 (p=0.0001) y r=0.5 (p=0.09), respectivamente. Podemos decir:

a.Con la misma magnitud de correlación no es posible que se obtengan estos p-valores distintos.

b.La diferencia de p-valor entre ambos estudios es debido al signo distinto.

c.El tamaño muestral del primer estudio será mayor que el del segundo estudio.

d.En el primer estudio tenemos suficiente capacidad predictiva, en cambio en el segundo no.

3.Estamos interesados en saber en cuántos puntos de una playa se supera un cierto nivel de un contaminante. Para ello se toman al azar 400 muestras a lo largo del río. En 20 de ellas se supera ese nivel. Un intervalo de confianza del 99.5% del porcentaje de puntos del río donde se supera dicho nivel es:

a.(2.82, 7.18).

b.(1.73, 8.27).

c.(3.91, 6.09).

d.(0.64, 9.36).

4.¿Cuál de las siguientes afirmaciones es cierta?

a.La ji-cuadrado evalúa si hay relación entre dos variables cuantitativas.

b.El coeficiente de determinación superior al 50% indica buena capacidad predictiva, aunque el p-valor de la correlación sea superior a 0.05.

c.La significación de una V de Crámer la podemos evaluar por el p-valor de la ji-cuadrado.

d.Si la tabla de contingencias observada y la tabla de contingencias esperada son iguales el p-valor será 0.

5.En cuál de las siguientes regresiones lineales simples podremos hacer mejores predicciones:

a)y=0.02x+1; IC del 95% de la correlación (0.1, 0.2).

b)y=4000x+1; IC del 95% de la correlación (0.05, 0.3)

c)y=0.7x-34; IC del 95% de la correlación (0.3, 0.8)

d)y=3x+20; IC del 95% de la correlación (-0.1, 0.4).

6.Estamos tratando de asociar la presencia o la ausencia de una especie fitoplanctónica con la presencia o ausencia de una especie zooplanctónica en muestras marinas de distintas zonas del mediterráneo. Hemos codificado la ausencia con un 0 y la presencia con un 1. Hemos calculado la correlación de Pearson y nos da r=0.8 (p=0.001), podemos decir:

a.Que hay una relación significativa entre esas dos variables.

b.Que la relación no tiene suficiente capacidad predictiva porque tiene una R2 menor del 50%.

c.Que la significación dependerá del tamaño de muestra que tengamos.

d.Ninguna de las respuestas anteriores es correcta.

7.¿Cuál de las siguientes afirmaciones es cierta?:

a.La comprobación de la normalidad la hacemos con el test de la t de Student.

b.Si se aplica una t de Student de muestras independientes y varianzas desiguales en una de las dos muestras o en las dos no hay suficientes ajuste a la distribución normal.

c.Si dos intervalos de la media no se solapan en dos muestras independientes podemos afirmar que el p-valor en un contraste de hipótesis de igualdad de medias es inferior a 0.05.

d.Ninguna de las tres afirmaciones anteriores es cierta.

8.¿Cuál de las siguientes afirmaciones es cierta?:

a.En una regresión si la R2 es superior al 50% tenemos una relación estadísticamente significativa entre las variables de la regresión.

b. La R2 es menor del 50% no existe relación estadísticamente significativa entre las variables.

c.Una correlación estadísticamente significativa genera una R2 superior al 50%.

d.Ninguna de las afirmaciones anteriores es cierta.

9.Estamos relacionando en tres zonas distintas la presencia de cuatro especies distintas del zooplancton. Hemos aplicado una ji-cuadrado y el valor es 4.02. Entonces:

a.No podemos decir que hay relación porque 4.02 es menor que 21.02.

b.No podemos decir que hay relación porque 4.02 es menor que 12.59.

c.No podemos decir que hay relación estadísticamente significativa porque 4.02 es mayor que 3.84.

d.Podemos decir que hay relación estadísticamente significativa porque 4.02 es mayor que 3.84.

10.Un intervalo de confianza del 99.5% descriptivo de la variable en una muestra con media muestral 20, desviación estándar 1 y tamaño muestral de 100 es:

a.(17, 23).

b.(19.7, 20.5).

c.(19.97, 20.03).

d.(19, 21).

11.¿Cuál de las siguientes afirmaciones es cierta?

a.Si en una comparación la potencia estadística superior al 80% habrá diferencias estadísticamente significativas.

b.En el test de la t de Student de muestras relacionadas se comparan medianas.

c.En una técnica de comparación de muestras independientes con un intervalo de confianza del 95% de la resta de las medias de (-0.9, 1.12) podemos decir que el test de comparación de medias tendría un p-valor inferior a 0.05.

d.En un ANOVA de un factor con tres niveles si los intervalos de confianza de las medias son (1.2, 2.7), (1.9, 3.1) y (2.3, 3.8) el p-valor nos dará superior a 0.05.

12.En un estudio donde se quiere comparar la cantidad de un contaminante en las playas de dos poblaciones distintas tenemos 50 observaciones en cada una de las dos playas. El test de Shapiro-Wilk de ambas muestras nos proporciona un p-valor mayor que 0.05. El test de Fisher-Snedecor nos proporciona una p=0.001. Es cierto lo siguiente:

a.Debemos aplicar el test de la t de Student para varianzas desiguales.

b.Debemos aplicar el test de la t de Student para varianzas iguales.

c.Debemos aplicar el test exacto de Fisher.

d.Debemos aplicar el test de Mann-Whitney.

13.En un estudio de comparación de dos poblaciones partimos de unos datos iniciales concretos y calculamos el p-valor con la técnica adecuada. Seguidamente disminuimos el tamaño de muestra de ambas poblaciones obteniendo la misma media y desviación estándar en ambas muestras y volvemos a calcular el p-valor. Después detectamos que la desviación estándar era más baja de la que habíamos calculado y volvemos a calcular el p-valor. Finalmente, detectamos que la diferencia de medias es más grande de la que habíamos calculado previamente y volvemos a calcular el p-valor. ¿Cuál de las siguientes es la secuencia de p-valores que podríamos tener?

a.0.54/0.23/0.25/0.12.

b.0.66/0.86/0.44/0.22.

c.0.23/0.25/0.34/0.23.

d.0.23/0.31/0.19/0.31.

14.Se analiza el porcentaje de una especie en el fitoplancton en 20 puntos del océano pacífico y 20 puntos del océano atlántico. ¿En cuál de los casos podemos decir que hay diferencias estadísticamente significativas?

a.Pacífico: IC 95%: (23.4, 26.5); Atlántico: IC 95%: (22.4, 27.4).

b.Pacífico: IC 95%: (10.4, 12.9); Atlántico: IC 95%: (12.5, 17.2).

c.Pacífico: IC 95%: (33.5, 36.5); Atlántico: IC 95%: (37.2, 39.9).

d.Pacífico: IC 95%: (21.1, 21.5); Atlántico: IC 95%: (21.3, 21.8)

15.Hemos analizado la cantidad de biomasa en una zona en dos tiempos distintos (T1 y T2). El análisis lo han realizado tres operadores, tres analistas distintos que se quieren comparar. Cada muestra cada operario la analiza por duplicado. Los resultados son los siguientes:

¿Cuál es la afirmación más razonable?:

a.Factor T: p>0.05. Factor Op: p>0.05. Interacción: p>0.05.

b.Factor T: p>0.05. Factor Op: p>0.05. Interacción: p<0.05.

c.Factor T: p<0.05. Factor Op: p<0.05. Interacción: p<0.05.

d.Factor T: p>0.05. Factor Op: p<0.05. Interacción: p>0.05.

16.Supongamos que hemos tomado tres embalses españoles al azar con la voluntad de conocer la variabilidad que hay en ellos de un determinado contaminante. Tomamos tres subzonas también al azar, en cada embalse, para conocer la variabilidad interna dentro de los embalses. Queremos también conocer si las diferentes técnicas definidas para evaluar este contaminante presentan variación (hay unas quince que se han definido en la bibliografía). Para ello elegimos dos de ellas al azar y las evaluamos por triplicado en cada muestra que tenemos. Los resultados son los siguientes:

¿Qué modelo tenemos?

a.Embalse, Subzona y Técnica factores aleatorios. Subzona anidado en Zona y Técnica cruzado con las otras dos.

b.Embalse, Subzona y Técnica factores fijos. Zona y Subzona cruzados. Técnica anidado tanto en Zona como en Subzona.

c.Embalse fijo, Subzona aleatorio y Técnica fijo. Subzona anidado en Zona y Técnica cruzado cruzado con las otras dos.

d.Embalse aleatorio, Subzona fijo y Técnica aleatorio. Subzona anidado en Zona y Técnica anidado en Subzona.

17.¿Qué error podríamos estar cometiendo si al comparar dos tratamientos tenemos una potencia del 50% y el p-valor que obtenemos es de 0.02?

a.No podemos cometer error porque la potencia estadística es superior al 80%.

b.El error de tipo I.

c.El error de tipo II.

d.Ambos errores: El error de tipo I y el error de tipo II.

18.¿Cuál de las siguientes afirmaciones es cierta?

a.Una potencia del 80% se corresponde con un error de tipo I de 0.20.

b.Si en dos muestras independientes, que se ajustan a la normalidad, no hay igualdad de varianzas se aplica el Test de Mann-Whitney.

c.En una correlación de Pearson con una correlación estadísticamente significativa no podemos garantizar que habrá suficiente capacidad predictiva.

d.En una comparación de medias, con un intervalo de confianza del 95% de la diferencia de medias como el siguiente: (-1.13, 0.98), podemos decir que hay diferencia de medias estadísticamente significativa.

19.¿Cuál de las siguientes afirmaciones es cierta?:

a. En un ANOVA de dos factores cruzados la interacción será significativa si alguno de los dos factores lo es.

b. Un intervalo de confianza del 95% de la correlación de (-0.05, 0.05) va asociado a un p-valor de 0.05.

c. Una R2 de 50% va asociado a una correlación de 0.5.

d. Con una ji-cuadrado con un valor de 3.12 podemos decir que no tenemos una relación estadísticamente significativa, independientemente del números de filas y columnas de la tabla de contingencias.

20.Se quiere hacer un pronóstico del porcentaje de peces de una especie determinada que hay en una zona. Tenemos la sospecha,  por estudios similares, que nos vamos a encontrar un valor bastante próximo al 25%. ¿Qué tamaño muestral de peces necesitamos tomar para tener un intervalo del 99,5% con un radio de 5%?:

a.200.

b.300.

c.675.

d.475.

 

Solución Situación 132

1d: Basta dividir los 2 valores que quedan por debajo de 1.5 por los 9 de la muestra para tener un 22.22%.

2c: Para una correlación de la misma magnitud, si el p-valor cambia será debido al tamaño muestral. Cuanto mayor tamaño tengamos menor será el p-valor.

3b: Si se calcula el intervalo de confianza de una variable dicotómica según el tema 3, teniendo en cuenta de que como el intervalo es del 99.5% debemos usar un 3 en lugar de un dos en la fórmula, obtenemos este resultado.

4c: La V de Crámer no tiene un p-valor asociado, pero sí lo tendremos de la ji-cuadrado previa que haremos. El p-valor de ésta nos marca también la significación del valor de relación que nos dé la V de Crámer.

5c: Porque la correlación tiene mayor magnitud.

6d: Estamos hablando de variables cualitativas, ninguna de las técnicas cuantitativas nos son útiles aquí.

7c: Hacer intervalos de confianza de las dos medias a comparar y ver si se solapan o no es equivalente a hacer un contraste de hipótesis. Si estos intervalos no se solapan habrá diferencia significativa.

8d: Significación y capacidad predictiva son dos conceptos independientes entre ellos.

9b: El umbral en una tabla 3×4 es 12.59. Como el valor de la ji-cuadrado es menor no podemos decir que hay relación.

10a: Como es descriptivo sólo importa la desviación estándar, no el tamaño de muestra. Como es del 99.5% cogemos tres desviaciones estándar.

11d: Los tres intervalos se solapan, por lo tanto no habrá diferencias significativas entre los tres grupos.

12a: Hay normalidad pero no hay igualdad de varianzas.

13b: Disminuir tamaño de muestra, disminuir la desviación estándar y, finalmente, aumentar la diferencia de medias, va asociado de subida, bajada y de nuevo bajada del p-valor.

14c: Es el única caso donde los intervalos de confianza no se solapan.

15b: En ninguno de los dos factores podemos ver una diferencia clara de medias. Sin embargo, la interacción es evidente. No se comporta de forma paralela cada operador respecto a cada una de las dos técnicas.

16a: Claramente los tres factores son aleatorios. Subzona anidado en Embalse. Y técnica cruzado con los otros dos factores.

17b: Como el p-valor es menor que 0.05 rechazaríamos la Hipótesis nula por lo que podríamos estar cometiendo el error de tipo I.

18c: Significación y capacidad predictiva son dos conceptos independientes entre ellos.

19d: Como el valor es inferior a 3.84 que es el umbral más pequeño posible, podemos afirmar lo que dice el punto d.

20c: Debemos aplicar la fórmula para la determinación del tamaño de muestra del Tema 16 para variables dicotómicas teniendo en cuenta que tenemos la información del 25% y que el intervalo que queremos es del 99.5% (por lo que tendremos que cambiar el 4 por un 9 en la fórmula)

 

Solución Situación 131

Se trata de un ANOVA de tres factores cruzados con dos factores fijos y uno aleatorio. Si observamos los cocientes en el archivo del Herbario de técnicas dedicado a tres factores veremos que la solución está en el cuatro listado. La solución es la siguiente:

El modelo concreto utilizado es el siguiente:

Pero, cuidado, en nuestro caso el factor aleatorio es el tercero, no el primero. Lo importante no son las letras sino cuáles son signos de un factor fijo y cuáles de un factor aleatorio.