Archivo del Autor: estadisticallopis

Artículo 10: Excess mortality among persons with type 2 diabetes

Este es un artículo interesante para evaluar el papel de la hazard ratio como medida del riesgo. Es un complemento concreto a lo desarrollado en el tema dedicado a la Regresión de Cox.

El abstract de este artículo es el siguiente:

La estadística descriptiva de los dos grupos comparados es la siguiente:

En la siguiente tabla podemos ver la distribución de pacientes y de controles según edad y causas de muerte:

La tabla siguiente nos muestra las hazard ratio según edad:

A continuación tenemos las hazard ratio según edad y otros factores de riesgo y atendiendo a mortalidad por cualquier causa y a mortalidad por causa cardiovascular:

Y finalmente una nueva tabla con las hazard ratio según diferentes factores de riesgo:

 

Situación 86: Análisis de factores de riesgo y factores de protección en Anorexia nervosa

A continuación se presenta una base de datos de pacientes mujeres diagnosticadas de Anorexia nervosa y de pacientes mujeres controles.

Codificación:

Etiqueta Variable Valores
G Grupo 0=Control; 1=Anorexia
E Edad Valor en años
M Madre anoréxica 0=No; 1=Sí
A Autovaloración negativa 0=No; 1=Sí
P Perfeccionismo 0=No; 1=Sí
S Padres separados 0=No; 1=Sí
N Número de amigos íntimos Valor
O Densidad ósea Valor
D Deporte Horas por semana

Base de datos:

G E M A P S N O D
0 21 0 0 1 0 3 0.72 5
0 18 0 0 0 0 5 0.71 2
0 18 0 1 1 0 2 0.69 3
0 19 0 0 1 0 3 0.74 7
0 23 0 1 0 0 3 0.73 1
0 24 0 1 0 0 4 0.71 3
0 17 0 0 0 1 2 0.72 12
0 16 0 0 0 0 3 0.75 10
0 19 0 0 0 0 2 0.73 0
0 21 0 0 1 1 3 0.72 3
0 20 1 0 0 0 2 0.71 5
0 19 0 0 0 0 3 0.69 6
0 23 0 0 1 0 1 0.74 7
0 23 0 0 0 1 3 0.73 8
0 24 0 1 0 0 4 0.71 5
0 17 0 0 0 0 2 0.72 10
0 20 0 0 0 0 3 0.72 3
0 19 0 0 0 0 3 0.71 4
0 21 0 0 0 1 4 0.69 5
0 18 0 0 0 0 3 0.74 6
0 23 0 0 0 0 5 0.73 7
0 24 0 0 0 0 2 0.72 8
0 17 0 0 0 0 1 0.71 3
0 16 0 0 0 0 0 0.69 4
0 24 0 0 0 1 1 0.74 5
0 21 0 0 0 0 1 0.71 6
0 23 0 0 0 1 2 0.71 7
0 21 0 0 1 0 2 0.72 8
0 18 0 0 0 1 3 0.72 9
0 23 0 1 1 0 3 0.71 4
0 22 0 0 0 1 4 0.69 5
0 18 0 1 1 0 3 0.74 6
0 16 1 0 0 0 5 0.73 7
0 24 0 1 0 1 6 0.70 8
0 22 0 0 1 0 1 0.72 2
0 23 1 0 0 0 3 0.71 3
0 24 0 1 0 0 4 0.69 4
0 17 0 0 1 1 2 0.74 5
0 16 0 0 0 0 2 0.73 6
0 22 1 1 0 0 3 0.71 7
0 21 0 0 1 1 2 0.72 8
0 16 0 0 0 0 3 0.71 3
0 23 0 1 0 0 4 0.70 4
0 24 0 0 1 0 1 0.74 5
0 19 0 0 0 1 4 0.73 6
0 16 1 1 0 0 5 0.71 7
0 24 0 0 0 0 3 0.72 8
0 22 0 0 0 0 3 0.75 9
0 23 0 0 1 0 0 0.73 4
0 22 0 0 0 0 3 0.68 5
1 17 0 1 1 1 0 0.64 1
1 16 0 0 1 0 2 0.67 4
1 19 1 1 1 0 1 0.62 3
1 21 1 1 1 1 0 0.60 2
1 18 0 1 1 0 1 0.63 1
1 23 0 1 1 0 1 0.62 0
1 24 0 1 1 1 2 0.67 0
1 17 0 1 1 0 3 0.70 0
1 16 0 1 1 0 2 0.73 0
1 24 0 1 1 1 3 0.65 0
1 21 0 1 0 0 1 0.61 2
1 23 0 1 0 0 1 0.63 3
1 21 0 0 1 1 2 0.64 1
1 18 0 0 1 0 2 0.67 2
1 23 0 1 0 0 3 0.73 3
1 22 0 1 1 1 3 0.60 4
1 18 0 0 1 0 0 0.63 2
1 16 1 1 1 0 3 0.62 1
1 24 0 1 1 1 5 0.67 3
1 22 0 1 1 0 2 0.70 2
1 23 1 1 0 0 1 0.73 4
1 24 0 1 1 1 0 0.65 3
1 17 0 0 1 0 1 0.64 1
1 16 0 1 1 0 1 0.67 0
1 22 1 1 1 0 2 0.62 0
1 22 0 1 0 1 2 0.74 2
1 23 0 1 0 0 3 0.63 1
1 24 1 0 1 0 3 0.62 4
1 17 1 0 1 1 0 0.67 2
1 16 0 1 1 0 1 0.64 0
1 22 1 1 1 0 1 0.67 0
1 21 0 1 1 1 0 0.62 1
1 20 1 1 1 0 0 0.60 0
1 23 0 1 1 0 0 0.63 0
1 24 0 1 0 1 0 0.62 0
1 24 1 1 1 0 0 0.67 0
1 21 0 0 0 0 2 0.70 0
1 24 1 1 1 1 1 0.64 0
1 23 1 0 1 0 1 0.67 0
1 23 1 1 1 0 1 0.62 0
1 22 0 1 0 0 4 0.60 2
1 17 0 1 1 0 3 0.63 1
1 20 1 0 1 0 2 0.62 4
1 19 0 1 1 1 1 0.62 2
1 21 0 1 0 0 1 0.70 0
1 18 1 1 1 0 1 0.73 0
1 23 0 0 0 0 2 0.65 1
1 24 0 1 1 0 2 0.75 0
1 24 0 0 0 0 2 0.63 0
1 17 0 1 0 0 0 0.64 0

Contestar a las siguientes preguntas:

  1. Hacer una Estadística descriptiva de la Densidad ósea en el grupo Control y en el grupo de pacientes con Anorexia nervosa.
  2. Calcular la correlación de Pearson entre las variables Número de amigos íntimos, Densidad ósea y Deporte.
  3. Buscar factores de riesgo y factores de protección para la Anorexia nervosa. (Una advertencia: Al aplicar Regresión logística con el software G-Stat 2.0 debéis especificar en Opciones cuál es el código de ocurrencia: en nuestro caso es 1, porque los casos los hemos codificado con un 1. El programa adopta, por defecto, como código de ocurrencia el valor asignado a la variable respuesta del primer individuo de la muestra. Como en nuestro caso es un control adopta como código de ocurrencia el 0, como si hubiésemos asignado 0 a los casos y 1 a los controles, y no es así)
  4. Comprobar, con la técnica adecuada al caso, si hay diferencia estadísticamente significativa entre el nivel de densidad ósea de las pacientes con Anorexia respecto a las mujeres control.

Solución Situación 85

1c. Al ordenar la muestra queda así: (-5, -1, -3, 0, 0,  4, 20,  230). Como hay ocho valores el primer cuartil es el promedio entre -1 y -3, que es -2.

2d. El rango es el máximo menos el mínimo: 123-(-23)=123+23=146.

3d. La muestra es claramente no normal. La Asimetría estandarizada y la Curtosis estandarizada darán fuera del intervalo (-2, 2). La mejor opción es describirla mediante la mediana y el rango intercuartílico, expresado éste mediante el primer y el tercer cuartil, como se hace mediante la expresión 6 (3-105).

4b. Si la desviación estándar de una muestra es 0, todos sus valores son iguales y, entonces, el índice de Gini es 0.

5c. Esta muestra tiene 11 valores. Si tomamos el valor 16 a su izquierda hay ocho valores y a su derecha 2. Por lo tanto, 16 es el percentil 80 en esa muestra. La respuesta b no es correcta porque el percentil 80 sería el promedio entre 16 y 18 que es 17.

6d. Es la muestra con más igualdad, por lo tanto, será la que tendrá un menor índice de Gini.

7a. El Error estándar es 2, porque 10/raíz(25) es igual a 2. Como el intervalo de la media es del 95% debemos sumar y restar dos errores estándar a la media muestral. Esto nos lleva al intervalo (96, 104).

8c. El Error estándar de esta muestra es 5, porque es un intervalo de la media del 95% y debe haber sido construida con la suma y la resta de dos errores estándar respecto a la media muestral. Como la Desviación estándar de la variable es 10 para que al dividir 10/raíz(n) sea igual a 5, n debe ser 4.

9b. Ahora el Error estándar es 3, porque 9/raíz(9) es igual a 3. Recordemos que estamos construyendo un intervalo de confianza de la media y esto se hace con el Error estándar. Por lo tanto, debemos sumar y restar dos veces el error estándar para construir un intervalo de confianza de la media poblacional del 95%. Y esto nos da el intervalo (94, 106).

10ab. Hay dos soluciones ciertas. En 1990 hay más igualdad económica que en 1973. El 2008 es el año del gráfico en el que el índice de Gini es más bajo, lo que va asociado a una mayor igualdad.

Situación 85: Examen (Temas 1-3)

1. ¿Cuál es el primer cuartil de la muestra (-1, 4, -5, 20, -3, 0, 0, 230)?

a. 0.

b. -5.

c. -2.

d. -1.

2. ¿Cuál es rango de la muestra (-2, 5, -4, -23, 0, 0, 123, 7)?

a. 123.

b. 9.

c. 100.

d. 146.

3. Tenemos la siguiente muestra (2, 2, 4, 6, 6, 7, 90, 120). ¿Cuál de las siguientes afirmaciones es cierta sobre ella?

a. Como no hay un buen ajuste a la distribución normal es mejor usar la media y la desviación estándar para describirla.

b. Como hay un buen ajuste a la distribución normal podemos resumirla mediante la media y la desviación estándar.

c. Como parece que la Asimetría estandarizada y la Curtosis estandarizada estarán entre -2 y +2 deberemos representarla mediante la mediana y el rango intercuartílico.

d. 6 (3-105) sería una descripción muy coherente de esta muestra.

4. ¿Cuál de las siguientes afirmaciones es cierta?

a. El índice de Gini es más grande cuanta menor dispersión haya entre los valores de una muestra.

b. Si la desviación estándar de una muestra es 0 el índice de Gini es 0.

c. Si la iguadad en una muestra es muy grande el índice de Gini puede llegar a ser negativo.

d. Tamaños de muestra grandes van asociados a valores grandes del índice de Gini.

5. ¿Cuál de las siguientes muestras tiene un percentil 80 igual a 16?

a. (2, 3, 16, 16, 20).

b. (2, 3, 3, 4, 5, 10, 15, 16, 18, 20).

c. (2, 3, 3, 4, 5, 10, 12, 15, 16, 20, 20).

d. (2, 3, 4, 16).

6. ¿Cuál de las siguientes muestras tiene un índice de Gini menor?

a. (0, 0, 1, 1, 5, 15, 15, 20, 20, 20).

b. (0, 0, 1, 1, 5, 15, 15, 20, 20, 2000).

c. (0, 0, 1, 1, 5, 15, 15, 20, 20, 200).

d. (10, 10, 10, 10, 15, 15, 15, 20, 20, 20).

7. Si la valoración media de una variable tiene una media muestral de 100 y una desviación estándar de 10 y la muestra con la que hemos trabajado es de tamaño 25, ¿cuál es un intervalo de confianza del 95% de la media?

a. (96, 104).

b. (90, 110).

c. (80, 120).

d. (98, 102).

8. Tenemos un IC del 95% de la media que es (200, 220), construido con una muestra con desviación estándar 10, ¿qué afirmación es cierta?

a. El tamaño de muestra es 100.

b. Con esta información no podemos saber cuál es el tamaño de muestra.

c. El tamaño de muestra es 4.

d. Un intervalo de confianza del 99.5% es (190, 230).

9. Un intervalo de confianza del 95% de la media con media muestral de 100, con desviación estándar de 9 y tamaño muestral de 9 es el siguiente:

a. (97, 103).

b. (94, 106).

c. (85, 115).

d. (70, 130).

10. De la tabla siguiente:

 

Captura de pantalla 2015-10-05 a las 7.55.52

¿cuál es la afirmación cierta?

a. En 1990 hay más igualdad económica que en 1973.

b. El año de más igualdad económica del gráfico es el 2008.

c. Desde el 2008 hasta el 2010 ha habido un aumento notable en la igualdad económica.

d. El 1980 tuvimos más  igualdad económica que en 2010.

Usos del índice de Gini

El índice de Gini se usa mucho en Economía y en Geografía humana pero es un índice con muchas posibilidades de aplicación. Veamos algunas:

En este gráfico se muestran, en un periódico, una valoración de cómo ha ido evolucionando la distribución de votos en Cataluña en las últimas elecciones autonómicas:

Un ejemplo, clásico, es el valoración de la desigualdad y su comparación entre países:

Captura de pantalla 2015-10-05 a las 7.53.34

Otro ejemplo:

Captura de pantalla 2015-10-05 a las 7.55.52

Otro más:

Captura de pantalla 2015-10-05 a las 8.00.20

 

Ensayos clínicos aleatorizados basados en registros

Es bien sabido y aceptado que los ensayos clínicos de mayor nivel de evidencia son los aleatorizados. El azar acaba generando dos grupos homogéneos gracias a uno de lo teoremas matemáticos más importantes (la Ley de los grandes números). La finalidad de este procedimiento es que no existan variables confusoras (ver el Tema 26: Análisis estadístico de variables confusoras); o sea, de variables que puedan explicar parcialmente los resultados obtenidos y que, por lo tanto, cuestionen si los efectos observados sean atribuibles al tratamiento ensayado.

En los últimos años ha impactado en la literatura médica una nueva variante de estos ensayos: los llamados ensayos aleatorizados basados en registros (Randomized Registry Trials).

Voy a explicar brevemente qué variante aporta esta nueva metodología.

En un ensayo aleatorizado se especifican unos criterios de inclusión y un mecanismo de aleatorización digamos que a ciegas. Sin una base de datos viva que vaya estableciendo un mecanismo de asignación que no sea el puro azar. Algo muy importante es que los criterios de inclusión suelen ser bastante restrictivos, lo que lleva a unos grupos que se suelen alejar bastante de la realidad.

En un ensayo aleatorizado basado en un registro esta aleatorización puede hacerse de una forma más inteligente. Potencialmente el azar se puede controlar para que sea más azar. Esta afirmación aparentemente es contradictoria. Pero no olvidemos una famosa frase de Einstein: «Dios no juega a los dados». Dios nos podría proporcionar una muestra perfectamente representativa en todo momento porque él lo sabe todo. Por lo tanto, cuanto más conocemos una realidad más capaces somos de conseguir muestras representativas de esa realidad. Esa idea es clave para entender esta variante de los ensayos aleatorizados. En esta variante toda la información se computa «on line» y esto facilita mucho las cosas, permite aumentar el tamaño de muestra y, eso mismo, permite trabajar con criterios de inclusión menos estrictos lo que hace que el experimento se aproxime más a la realidad, permite controlar más el proceso de asignación, permite digamos un «mejor azar» porque sabemos más y eso nos permite restringir menos los criterios de inclusión.

Es interesante, a la hora de valorar lo que aporta esta nueva metodología, compararla con lo que aporta el Análisis de propensiones (Propensity Score Analysis) a los estudios observacionales y, además, verlo gráficamente:

IMG_2213

Observemos a la izquierda una poblaciones de pacientes sin ninguna diferenciación que lo representamos como punto de partida. A continuación vemos una bifurcación. Un camino va hacia los estudios observacionales y otro hacia los ensayos aleatorizados.

En los estudios observacionales separamos dos grupos de pacientes según un resultado o según un tratamiento distinto pero que es el resultado no de un ensayo, no de un experimento. Esto nos lleva, como ya vimos en el Tema 24: Análisis de propensiones, a una situación habitual de dos grupos de muy distinto tamaño y no homogéneos. Es lo que suele suceder con los estudios de casos y controles. A continuación vemos una mejora de la calidad de estos estudios, mediante este Análisis de propensiones, que nos lleva a una situación que suele denominarse de cuasiensayo aleatorio (cuasirandomizado). Observemos que el esquema de arriba a la derecha es similar al de abajo a la izquierda.

En los ensayos aleatorizados realizamos mediante el azar una homogeneización de los dos grupos a comparar. Sin embargo, los tamaños no suelen ser enormes. Para conseguir poder decir cosas, ver diferencias significativas, con tamaños de muestra no muy grandes, teniendo en cuenta que las diferencias entre los tratamientos no son enormes, debemos conseguir poca dispersión dentro de ambos grupos. Esto genera la necesidad de unos criterios de inclusión bastante exigentes que permitan mucha igualdad en la respuesta. Por eso el dibujo muestra dos grupos un tanto alejados de la globalidad. Esta es la crítica más habitual que reciben los ensayos aleatorizados: que los pacientes no son un reflejo de la realidad, que hay bastante distancia entre lo experimentado y la realidad clínica del día a día. Que se trabaja (exagerando bastante) casi con cobayas.

La flecha que a través de los ensayos aleatorizados basados en registros nos lleva al gráfico de la derecha y de abajo nos permite visualizar una situación mejorada. Como podemos ver, se mantiene la homogeneidad de ambos grupos (los puntos de ambos colores están muy cercanos) y al mismo tiempo conseguimos establecer dos grupos a comparar mucho más cercanos a la realidad que tenemos. Se trabaja, así, con pacientes más próximos a la realidad clínica del día a día. Esto se logra con unos criterios de selección menos rígidos que pueden actuar gracias a que al informatizar la recogida de datos y el proceso de aleatorización conseguimos muchos más consentimientos; o sea, tamaños de muestra mucho más grandes. Además, el control del azar posible que hemos comentado antes nos permite una mayor homogeneización a pesar de la ampliación de esos criterios de inclusión.

Conseguimos llegar, así, a una situación experimental mejor. Esto tiene sus problemas, también. Una es que se necesita trabajar en ámbitos con una informatización global de mucha calidad. Y otra crítica habitual es que el elevar los criterios de inclusión mezcla situaciones muy diversas sin precisar si las cosas serían diferentes según los estratos considerados.

HERBARIO de conjuntos

Son muchos los conjuntos que se estudian en matemáticas. Veamos ahora algunos ejemplos.

De momento, en este HERBARIO los conjuntos son vistos únicamente como colecciones de entidades, de objetos matemáticos, pero sin delimitar ni estudiar paisajes interiores que pueden difinirse en su interior. Eso lo dejamos para otro momento, ya veremos que acompañar a un conjunto cualquiera de lo que denominamos «estructura definida en un conjunto» nos permitirá trazar un amplísimo repertorio de miradas a un mismo conjunto.

Conjuntos usuales en matemáticas son, en primer lugar, los conjuntos de números:

 

Cada conjunto de números nos aporta elementos para hablar de cosas diferentes de la realidad: Los naturales nos permiten contar entidades, los enteros nos permiten hablar en abstracto (mediante la introducción de los números negativos) de elementos que debemos, elementos que faltan, etc. Los racionales nos permiten hablar de facciones. De partes de una unidad: 1/2, 3/5, etc. Los reales nos permiten medir cualquier distancia: por ejemplo, la longitud de un círculo de radio 1. Los complejos especialmente nos permiten resolver ecuaciones que sin ellos serían irresolubles. Y esto nos lleva a una cuestión matemática interesante: Cada conjunto de números viene a aportar elementos para resolver diferentes tipos de ecuaciones. Es una forma de abordar estos distintos tipos de números. Veamos las siguientes cinco ecuaciones y su representación, en ejes de coordenadas, de las funciones que hay detrás de cada una de esas ecuaciones:

Como puede verse cada una de esas cinco ecuaciones tiene solución en un determinado conjunto de números. Cada nueva ecuación precisa de un conjunto de números más amplio para encontrar una solución. Observemos que para resolver la primera nos bastan los naturales, pero para la segunda los naturales no nos bastan: necesitamos más números. Y así sucesivamente.

Veamos un mapa que posiciona estos cinco conjuntos de números:

Otros conjuntos muy importantes, en matemáticas, son los conjuntos formados por el producto cartesiano de otros conjuntos:

 

 

Veamos cómo pueden visualizarse estos conjuntos:

IMG_1971

Entre los elementos de los productos cartesianos se pueden establecer operaciones, como en los conjuntos de números:

IMG_1972

El conjunto de los números complejos C, en realidad se puede visualizar como un producto cartesiano de una parte real y de una parte imaginaria. El paralelismo entre C y RxR es evidente y muy interesante:

IMG_1973

Otros conjuntos muy importantes en matemáticas son los conjuntos formados por funciones. Conjuntos cuyos elementos son funciones. Suelen llamarse Conjunto de Funciones (Nombre del Condominio) de variable (Nombre del Dominio). Por ejemplo, si el Dominio es un conjunto llamado A y el Codominio un conjunto llamado B se denominaría el Conjunto de las Funciones B de variable A. Abreviadamente: FBVA.

Veamos un ejemplo en miniatura:

IMG_1770

En este ejemplo, el conjunto de todas las funciones con Dominio A y Codominio B está formado por las cuatro funciones explicitadas en este gráfico de dos formas distintas.

Si el Dominio y el Codominio son los cinco conjuntos de números vistos anteriormente tendremos los siguientes 25 conjuntos de funciones distintos posibles:

Evidentemente, estos conjuntos de funciones pueden tener como dominio y como codominio cualquier conjunto: un producto cartesiano de conjuntos, un mismo conjunto de funciones, etc. La de mundos que puede idear y manejar la matemática.

Por ejemplo, los tres siguientes conjuntos de funciones son muy importantes y muy usados en matemáticas:

 

De hecho, el primero es el importante conjunto de todas las funciones con dominio el plano y codominio los reales. Las llamadas funciones de variable vectorial más básicas. El segundo tiene que ver con la integrales definidas y el tercer conjunto de funciones tiene que ver con las derivadas. Pero ya lo veremos en su momento. Ahora basta con ver qué tipos de conjuntos se estudian en matemáticas. Esta es la naturaleza matemática. Poe ella pasearemos con mirada naturalista.

Un conjunto muy utilizado en matemáticas es el conjunto de polinomios. Escrito de la siguiente forma:

 

La primera presentación es la más habital. A los distintos valores de «a» con diferentes subíndices se les denomina coeficientes y son valores tomados de un conjunto determinado, normalmente del conjunto de los números reales.  La n es el grado del polinomio: el valor del subíndice más grande con el valor del coeficiente distinto de cero. La segunda presentación, que veremos a veces también, es una notación más general: representa que los coeficientes del polinomio son valores tomados de un conjunto K. Pero ambas apuntan al conjunto de todos los polinomios. Los polinomios, también lo veremos, son funciones muy importantes en matemáticas. Por eso se estudian mucho. También veremos el porqué.

Otros conjuntos muy usuales en matemáticas son los conjuntos de matrices. Veamos primero una definición general de conjunto de matrices y, luego, una definición más concreta de un conjunto de matrices claramente delimitado:

 

El conjunto que se sitúa entre paréntesis representa el conjunto del que se toman elementos para ir llenando las distintas posiciones de la matriz. El primer conjunto de matrices que aparece en la anterior imagen es una expresión completamente general: m filas y n columnas y el conjunto A, entre paréntesis, es una expresión general de cualquier conjunto. El segundo conjunto de matrices ya es un caso concreto: El conjunto de matrices con 3 filas y dos columnas de formadas por números naturales.

Otros conjuntos muy utilizados en matemáticas son los Enteros módulo un natural mayor que uno. Por ejemplo, los Enteros módulo 2, los Enteros módulo 3, lo Enteros módulo 4, etc:

IMG_2135

IMG_2136

Son clases de números enteros según el resto, o residuo, que tengan al dividir un entero no  negativo cualquiera por el número del módulo. Por ejemplo, los Enteros módulo 2: Al dividir cualquier entero por 2 el resto, o residuo, puede ser ó 0 ó 1. Todos los enteros no negativos que tengan el mismo resto, o residuo, formarán parte de la misma clase y, por lo tanto, en realidad son el mismo número vistos desde ese conjunto nuevo que denominamos «Enteros módulo 2».

Veamos con detalle el conjunto de los Enteros módulo 6:

IMG_2137

En este conjunto, por ejemplo, podemos definir la suma y el producto. Veamos, primero, la tabla de la suma:

IMG_2140

Al evaluar una operación como la suma en un conjunto como éste debemos pensar que estamos sumando clases, por lo tanto debemos pensar qué ocurre cuando sumamos cualquier número entero de una clase con cualquier número entero de la otra clase. Por ejemplo, siempre que sumemos un número de la clase [2] con uno de la clase [5] obtendremos uno de la clase [1]. Se puede comprobar perfectamente: 2+5=7, que es de la clase [1]. 8+11=19, que es, también de la clase [1].

Lo mismo sucede con el producto. Veamos cuál es la tabla del producto:

IMG_2139

Por ejemplo, un miembro cualquiera de la clase [2] multiplicado por uno de la clase [3] nos dará un número miembro de la clase [0]. Podéis comprobarlo. Obtendremos siempre un múltiplo de 6, lo que nos lleva a un número de la clase [0], en este conjunto.

Estructuras definidas en conjuntos

Un conjunto cualquiera, en matemáticas, sin más, es simplemente una colección de elementos, una reunión desconectada de entidades, un listado de entidades. Si ese conjunto es, por ejemplo, el de los números enteros, si no especificamos nada más es una mera colección de números, como hemos visto en el HERBARIO de conjuntos.

En matemáticas a esos conjuntos se les suele ver desde una estructura definida en ellos. Una estructura en un conjunto es como una forma de mirada al interior de ese conjunto. Una forma de darle un orden. Una forma de verlo en una estructura. Es, por lo tanto, una forma de organizar el contenido de un conjunto. Es muy importante, para entender las matemáticas, tener muy claro este concepto complejo: el concepto de estructura definida en un conjunto.

En un mismo conjunto se pueden definir muchos tipos de estructuras. Por eso, dependiendo de qué estructura hayamos definido en un conjunto, en un momento determinado, ese conjunto se presentará como una realidad muy diferente.

En un conjunto se pueden definir muchos tipos de estructuras diferentes: operaciones, topologías, conjuntos de subconjuntos de ese conjunto, medidas, probabilidades, distancias, normas, etc. Ya lo iremos viendo. Según la estructura que definamos en un conjunto lo estaremos visualizando desde un determinado punto de vista. Y, por lo tanto, dependiendo de cuál sea esta estructura, la mirada a ese conjunto será ciertamente muy distinta, una  mirada que nos facilitará propiedades muy diferentes de ese conjunto.

En matemáticas un determinado conjunto A puede ir acompañado de símbolos como los siguientes:

 

Cada uno de ellos apunta a una estructura, a una mirada distinta a ese mismo conjunto A. Aparecen operaciones (+, •). A veces una operación, a veces dos operaciones. Aparecen topologías (T), clases de subconjuntos (a), medidas (μ), probabilidades (P), distancias (d), normas (⎢•⎢).

Un mismo conjunto visto desde una estructura u otra cambia completamente la mirada que hagamos a él. Mirémoslo desde la siguiente metáfora: Supongamos un grupo de 20 personas. Si lo miráramos desde la noción pura de conjunto simplemente especificaríamos el listado de nombres de esas 20 personas. Sin más. Pero esas 20 personas pueden ponerse a hablar de política y, por lo tanto, en aquel momento empiezan a crearse una serie de asociaciones entre esas personas: afinidades, distancias pequeñas entre ellos, distancias grandes entre ellos, etc. Si hablan de fútbol, las asociaciones, los subgrupos, las distancias que se establecen entre ellos son muy posiblemente completamente otras. Si se ponen a hablar de música, las posiciones relativas de esos 20 componentes del grupo pueden cambiar, y mucho, de nuevo. Pues diríamos que cada uno de estos ámbitos: la política, el fútbol, la música, etc., genera una mirada diferente a ese grupo de personas, genera una estructura diferente, una organización interna diferente dentro del grupo. Eso es lo que hace una operación, una topología, una distancia, una norma, una medida, una probabilidad, etc., en un conjunto: generar una mirada diferente a una misma realidad, generar una estructura interna distinta de sus elementos, los posiciona, relativamente, a unos respecto de otros, de forma muy diferente.

Esto es, sin ninguna duda, fundamental para entender las peculiaridades del complejo lenguaje de las matemáticas: saber qué conjunto tenemos entre manos y desde qué estructura lo estamos analizando. Ya iremos desarrollando esta noción poco a poco, pero es muy importante tener estas ideas expuestas aquí siempre presentes al hacer matemáticas. Es trascendental.

Además, una cosa muy importante: en función de esas estructuras definidas en los conjuntos se generan diferentes ramas de las matemáticas. Por ejemplo, el Álgebra es el estudio de los conjuntos vistos siempre estructurados según operaciones definidas en ellos. El Análisis funcional es el estudio de conjuntos de funciones a los que se ha definido una distancia o una norma. La teoría de la medida es el estudio de conjuntos a los que se ha definido, en primer lugar, una estructuración en base a agrupaciones de subconjuntos de esos conjuntos (a las que llamamos anillos de conjuntos) y en una medida definida en cada uno de esos subconjuntos. La teoría de la probabilidad es, igualmente, una estructuración en base a agrupaciones de subconjuntos de esos conjuntos (a los que llamamos álgebras de conjuntos (a)) y a una probabilidad definida en cada uno de esos subconjuntos.

Solución Situación 84

Una advertencia previa: la pregunta 15 tenía un error, como algunos de vosotros habéis detectado. La media debía ser 100 y el tamaño de muestra 9. En las preguntas de la Situación está ya bien formulada. A todos os he contado como si estuviera bien respuesta, la hayáis contestado o no.

Mucha suerte.

1d: El primer p-valor no es significativa y el segundo y tercero sí lo son. Luego, el primer factor no es significativa, el segundo sí lo es y hay interacción.

2b: Porque el intervalo de confianza no contiene al 1 y, en cambio, el p-valor nos dice que no es significativa la Odds ratio. Esto está en contradicción. Obsérvese que en los demás apartados hay coherencia entre el intervalo y el p-valor.

3a: El factor A es claramente significativo. El B no porque obsérvese que los valores en promedio son muy iguales. Y habrá interacción porque es evidente que no hay paralelismo en estos datos.

4d: Se trata de una variable cuantitativa. Es evidente que ninguno de los tres tests propuestos puede ser aplicable porque funcionan únicamente para variables dicotómicas.

5b: En esta muestra a la izquierda de 9 hay seis valores y cuatro a la derecha. Por lo tanto, el presentir 60 será el promedio de 9 y 11 que es 10.

6b. Si la correlación es 0.9 el coeficiente de determinación será, claramente, el 81%.

7c: Sustituyendo los valores de ese individuo en la fórmula de la primera componente obtenemos el valor de 2.5.

8c: Observemos que el error estándar es 0.5 porque el centro del intervalo es 21 y dos veces 0.5 no proporciona un radio del intervalo de 1, porque es un IC del 95%. Por lo tanto, si la DE es 10 y el tamaño de muestra 400, el error estándar será 0.5.

9c: Si se aplica la fórmula de la determinación del tamaño de muestra con estos datos observamos que nos da 16.

10b: Variables cuantitativas, muestras relacionadas y no hay normalidad. Por lo tanto, hay que aplicar el Test de los signos o el de Wilcoxon.

11d: Variables continuas, muestras independientes, hay normalidad en las dos muestras y no hay igualdad de varianzas.

12c: Es evidente que la potencia, al ser mayor del 80%, es suficiente. Por lo tanto, podemos afirmar lo que dice el apartado c.

13c: La V de Crámer en sí no nos da un p-valor, necesitamos hacer un contraste de hipótesis. Como la V sólo la podemos calcular a tablas de contingencias, para ver si hay relación significativa debemos aplicar un test de la ji-cuadrado.

14d: Es la única que no encaja con ese esquema: a y b, por un lado, y d y e por otro, a una distancia corta y c a una distancia más próxima al primer subgrupo que al segundo. Cosa que no sucede en la muestra d.

15d: El error estándar es 15 porque 45/raiz(9) es ese valor. Como el intervalo es del 95% debemos tomar dos errores estándar para construir el intervalo.

16a: El valor de referencia en tablas 2×2 es de 3.84. Como 2.6 es menor que 3.84 podemos decir que no estamos ante una relación significativa. Lo afirmado en el punto d lleva al mismo resultado: la no significación, pero mediante una afirmación que no es cierta. No es por ser suficientemente próxima a 0, sino por estar por debajo del valor de referencia.

17c: Sólo tiene sentido calcularla cuando tenemos un p<0.05.

18d: Una ji-cuadrado nunca será negativa.

19d: El signo de la correlación y de la pendiente siempre coinciden.

20a: No es la significación de la interacción lo que hay que mirar para hacer las comparaciones múltiples sino la significación del factor estudiado. Si es significativo se harán comparaciones. Si no lo es de significativa entonces no se hacen tales comparaciones múltiples.

 

Situación 84: Examen (Temas 1-17 y 19)

1. ¿Cuál de las siguientes afirmaciones es cierta si hemos realizado un ANOVA de dos factores cruzados y tenemos una p=0.1 para el primer factor, una p=0.03 para el segundo factor y una p=0.01 para la interacción?

a. Hay diferencias significativas entre los niveles del primer factor, hay diferencias significativas entre los niveles del segundo factor y no hay interacción entre los dos factores.

b. Hay diferencias significativas entre los niveles del primer factor, hay diferencias significativas entre los niveles del segundo factor y hay interacción entre los dos factores.

c. No hay diferencias significativas entre los niveles del primer factor, no hay diferencias significativas entre los niveles del segundo factor y no hay interacción entre los dos factores.

d. No hay diferencias significativas entre los niveles del primer factor, hay diferencias significativas entre los niveles del segundo factor y hay interacción entre los dos factores.

 

2. ¿Cuál de las siguientes presentaciones de la Odds ratio es incoherente?

a. OR=0.33 IC 95% (0.01, 0.6) p=0.001

b. OR=0.1 IC 95% (0.01, 0.6) p=0.13

c. OR=4.2 IC 95% (1.5, 15.3) p=0.02

d. OR=0.5 IC 95% (0.3, 1.7) p=0.53

 

3. En un estudio clínico con los siguientes datos, ¿cuál es la afirmación cierta?

FullSizeRender

a. El p-valor del Factor A en un ANOVA de dos factores será menor de 0.05, el del Factor B será mayor que 0.05 y el p-valor de la interacción será menor que 0.05.

b. El p-valor del Factor A en un ANOVA de dos factores será mayor de 0.05, el del Factor B será menor que 0.05 y el p-valor de la interacción será mayor que 0.05.

c. El p-valor del Factor A en un ANOVA de dos factores será menor de 0.05, el del Factor B será menor que 0.05 y el p-valor de la interacción será mayor que 0.05.

d. El p-valor del Factor A en un ANOVA de dos factores será mayor de 0.05, el del Factor B será mayor que 0.05 y el p-valor de la interacción será mayor que 0.05.

 

4. Se están comparando dos tratamientos a pacientes con trastorno bipolar. La variable analizada es la concentración de un determinado neurotransmisor. El tamaño de muestra es de 50 personas. Todas ellas toman ambos tratamientos en distintas épocas pero siempre durante un periodo depresivo. La técnica adecuada al caso es:

a. Un test de proporciones.

b. Un test de McNemar.

c. Un test exacto de Fisher.

d. Ninguna de estas tres anteriores.

 

5. ¿Cuál de las siguientes muestras tiene un percentil 60 igual a 10?

a. (0, 0, 9, 9, 9, 9, 10, 20, 20, 20)

b. (0, 9, 9, 9, 9, 9, 11, 11, 11, 20)

c. (0, 0, 0, 9, 9, 10, 12, 13, 14, 20)

d. (9, 9, 9, 10, 10, 10, 11, 11, 13, 29)

 

6. Si la relación entre dos variables la podemos representar mediante una regresión lineal simpe con una R2=81%, ¿cuál de las siguientes afirmaciones es cierta?

a. Existe una correlación significativa entre las variables.

b. La correlación de Pearson es de 0.9.

c. Si la relación es significativa, cosa que no podemos afirmar con la información que tenemos, se trata de una muy débil determinación la que hay entre una y otra variable.

d. La regresión no sabemos si es o no significativa pero sí sabemos que la correlación es negativa entre las dos variables.

 

7. Si en un Análisis de componentes principales tenemos como primer componente la variable Y1=0.5X1+0.5X2+0.5X3+0.5X4+0.5X5, ¿qué afirmación cierta?:

a. Un individuo con los valores (0, 1, 1, 1, 1) de las cinco variables originales tendrá un valor de 1 para la primera componente.

b. Existe una débil correlación entre las cinco variables originales del estudio.

c. Un individuo con los valores (1, 1, 1, 1, 1) de las cinco variables originales tendrá un valor de 2.5 para la primera componente.

d. Un individuo con los valores (1, 1, 1, 1, 0) de las cinco variables originales tendrá un valor de 1 para la primera componente.

 

8. Tenemos un IC del 95% de la media que es (20, 22), ¿qué afirmación es cierta?

a. El tamaño de muestra es 200.

b. La desviación estándar es 1.

c. Si la desviación estándar es 10 el tamaño de muestra es 400.

d. Un intervalo de confianza del 99.5% sería (19, 23)

 

9. ¿Qué tamaño de muestra necesitamos tener para estimar la media poblacional del Mini-Mental en el diagnóstico de pacientes con Alzhéimer si sabemos, a partir de una muestra piloto, que la Desviación estándar es, aproximadamente, 0.2 y queremos tener un intervalo de confianza de una precisión establecida con un radio de 0.1?

a. 160

b. 1600

c. 16

d. 16000

 

10. Si comparamos el Mini-Mental al año y a los dos años del diagnóstico en 100 pacientes con Alzhéimer para comprobar si ha habido un descenso significativo en el nivel de esta variable y aplicamos un test de Shapiro-Wilk a las restas de los valores, paciente a paciente, obteniendo un p-valor de 0.001, debemos aplicar:

a. El test de la t de Student de varianzas iguales.

b. El test de los signos o el test de Wilcoxon. Cualquiera de los dos es aceptable en este caso.

c. El test de la t de Student de datos apareados.

d. Debemos comprobar la igualdad de varianzas con el test de Fisher-Snedecor. Si el p-valor de este test es mayor que 0.05 debemos aplicar el test de la t de Student de varianzas iguales, si el p-valor es menor que 0.05 debemos aplicar el test de la t de Student de varianzas desiguales.

 

11. Queremos comparar el nivel de conocimientos de estudiantes de Psicología de dos universidades distintas justo al final de sus estudios. Para ello realizamos un test a 40 alumnos de cada una de esas dos universidades. Las medias muestrales son 6 y 7, respectivamente. Las desviaciones estándar son 1.5 y 1.65, respectivamente. Aplicamos un test de Shapiro-Wilk a cada una de las dos muestras y tenemos los siguientes p-valores: 0.3 y 0.1, respectivamente. El test de Fisher-Snedecor de comparación de varianzas tiene un p-valor de 0.007. La técnica adecuada al caso será:

a. El test de la t de Student de datos apareados.

b. El test de Mann-Whitney.

c. El test de la t de Student de varianzas iguales.

d. El test de la t de Student de varianzas desiguales.

12. Si tenemos dos muestras independientes de dos poblaciones a las que hemos aplicado correctamente un test de la t de Student de varianzas iguales con un p-valor de 0.04 y una potencia del 90%, ¿cuál de las siguientes afirmaciones es cierta?:

a. No tenemos suficiente potencia.

b. Para afirmar que hay diferencias a nivel poblacional, con máximo nivel de fiabilidad, necesitamos tener una potencia del 99%.

c. Podemos afirmar ya, a partir del p-valor y de la potencia, que hay diferencias entre ambas poblaciones comparadas.

d. Debemos aumentar el tamaño de muestra hasta que el p-valor sea mayor que 0.05.

 

13. Si hemos calculado la V de Crámer entre dos variables cualitativas y resulta ser un valor de 0.5 podemos afirmar:

a. Es una relación estadísticamente significativa.

b. Podemos crear una regresión lineal simple entre estas dos variables.

c. Para evaluar la significación de la relación necesitamos hacer un test de la ji-cuadrado.

d. Se trata de una relación directa por ser un valor positivo el de la V de Crámer.

 

14. Si tenemos una muestra de cinco pacientes (a, b, c, d, e) a los que les hemos medido una única variable cuantitativa y de la cual tenemos el siguiente dendrograma, obtenido mediante un Análisis clúster:

IMG_1510

¿Cuál de las siguientes muestras no está razonablemente asociada a este análisis?:

a. (5, 6, 8, 50, 51)

b. (500, 503, 490, 150, 151)

c. (50, 51, 53, 5, 6)

d. (50, 51, 70, 80, 90)

 

15. Un intervalo de confianza del 95% de la media con media muestral de 100, con desviación estándar de 45 y tamaño muestral de 9 es el siguiente:

a. (97, 103).

b. (94, 106).

c. (85, 115).

d. (70, 130).

 

16. Si en una tabla de contingencias 2×2 en la que relacionamos dos variables cualitativas tenemos que el valor de la ji-cuadrado es 2.6 podemos afirmar:

a. Que estamos ante una relación no significativa porque el valor 2.6 es inferior al valor de referencia máximo aceptable para mantener la hipótesis nula en las tablas 2×2.

b. Que es imposible saber la significación porque no podemos saber si el p-valor es mayor o menor que 0.05.

c. Que el valor de la ji-cuadrado no nos dice nada sobre la significación de esa relación.

d. No es una relación significativa porque el valor 2.6 es un valor suficientemente próximo a cero.

 

17. ¿Cuál de las siguientes afirmaciones no es cierta respecto a la V de Crámer?

a. Es una medida del grado de relación entre dos variables cualitativas.

b. Es un valor que está entre 0 y +1.

c. Tiene sentido calcularla tras una ji-cuadrado con p>0.05.

d. Puede calcularse a cualquier tabla de contingencias.

 

18. ¿Cuál de las siguientes afirmaciones no es cierta?:

a. El error estándar siempre es menor o igual a la desviación estándar en el estudio de una variable.

b. Una correlación de Pearson no puede aplicarse a la relación entre variables cualitativas.

c. Una V de Crámer nunca puede ser negativa.

d. Un valor de ji-cuadrado negativo implica una relación inversa entre las variables estudiadas.

 

19. ¿Cuál de las siguientes afirmaciones es cierta?

a. La mediana de una muestra siempre es igual al primer cuartil.

b. Una Odds ratio de 2.5 con un intervalo de confianza del 95%: (0.45, 7.18) indica que estamos ante un factor de riesgo significativo porque el intervalo no incluye al 0.

c. Si en una muestra de una variable cuantitativa la asimetría estandarizada está dentro del intervalo -2 y 2, entonces podemos describirla perfectamente mediante la media y la desviación estándar.

d. Una correlación negativa irá acompañada de una regresión lineal simple con pendiente negativa.

 

20. ¿Cuál de las siguientes afirmaciones no es cierta?

a. En un ANOVA de dos factores las comparaciones múltiples de un factor se hacen únicamente si la interacción es significativa.

b. El rango y el rango intercuartílico, en una muestra, pueden ser iguales.

c. Una Odds ratio de 1.75 con un intervalo de confianza del 95%: (1.05, 3.18) indica que se trata de un factor de riesgo estadísticamente significativo.

d. Si en una tabla de contingencias calculamos un valor de ji-cuadrado y es 5.67, la significación de ese valor dependerá del número de filas y columnas de esa tabla.