Viaje en autobús turístico por el mundo de la Estadística

Una de las primeras cosas que uno se plantea ante un curso de Estadística es entender qué es la Estadística. En qué consiste. En este artículo vamos a hacer un viaje rápido por toda la ciudad de la Estadística. Sin entrar en detalles concretos, pero tratando de hacer una visión de conjunto, una visión que nos transmita, con cierta claridad, qué es lo que nos vamos a encontrar a lo largo de todo un curso de Estadística. Vamos a hacer un viaje que nos proporciones una visión similar a la que tenemos desde un autobús turístico de cualquier ciudad del mundo.

Empecemos el viaje:

La Estadística es la ciencia con la que, a partir de MUESTRAS, decimos cosas de POBLACIONES. Es muy importante tener siempre en cuenta esta idea. Con MUESTRAS decir cosas de POBLACIONES. A partir, pues, de unos POCOS hablar de TODOS.

Y todo científico continuamente tiene que enfrentarse a esta dualidad: Sólo tiene MUESTRAS pero su intención es hablar de POBLACIONES. Tiene sólo información de unos POCOS pero su finalidad es hablar de TODOS. Todo científico: un biólogo, un psicólogo, un médico, un economista, un sociólogo, un lingüista, un geólogo, etc.

Vamos a ver, en primer lugar, qué entendemos por POBLACIONES y por MUESTRAS en Estadística.

Una POBLACIÓN es un conjunto, generalmente muy grande, de personas, de seres vivos, de cosas, etc.

Ejemplos:

  1. La población de todos diabéticos de España.
  2. La población de todos los menores de 18 España.
  3. La población de todos los pokémons.
  4. La población de todas las ciudades del mundo de más de 100000 habitantes.
  5. La población de todos los perros de España.

Una MUESTRA es una parte, generalmente pequeña, de una POBLACIÓN.

Ejemplos:

  1. Hemos seleccionado al azar 100 diabéticos al azar en España.
  2. Hemos seleccionado 50 menores de 18 años en España al azar.
  3. Hemos seleccionado al azar 20 pokémons.
  4. Hemos seleccionado al azar 80 ciudades del mundo de más de 100000 habitantes al azar.
  5. Hemos seleccionado al azar 200 perros de España.

Observemos que la estructura de la relación entre POBLACIÓN y MUESTRA es siempre la que se ve en el siguiente dibujo:

img_3824

Siempre una MUESTRA es una parte de una POBLACIÓN. Y el objetivo de la Estadística es, precisamente, a partir de lo que podremos saber de esta MUESTRA, a base de estudiarla, de calcular cosas en ella, intentar decir cosas de cómo es la POBLACIÓN que no tenemos.

Evidentemente, no toda MUESTRA tiene la misma calidad. Hay muestras más representativas de la POBLACIÓN que otras. A la hora de elegir la muestra se trata de hacerlo con el máximo de coherencia para tratar que la MUESTRA sea lo más parecida posible a la POBLACIÓN, pero en miniatura. La elección de la MUESTRA es un paso fundamental puesto que, como ya hemos dicho, la Estadística pretende decir cosas de las POBLACIONES a partir del estudio de MUESTRAS. Si la elección de ésta es incoherente mala ciencia estaremos haciendo, evidentemente.

Esto es, pues, repitamos, la Estadística: Intentar saber cómo es un todo (una POBLACIÓN) que no tenemos a partir del estudio de una parte (una MUESTRA) que sí que tenemos.

Por lo tanto, estos dos conceptos (MUESTRA y POBLACIÓN) están siempre presentes, como hemos dicho, en la Estadística. Pero no sólo en la Estadística. Como hemos dicho, es un problema íntimamente asociado a toda Ciencia.

A las personas, seres vivos o cosas de las muestras que tenemos las analizamos para obtener de ellos alguna característica. A estas características las llamamos VARIABLES.

Ejemplos (Observa que cada punto está constituido por los elementos de las POBLACIONES y MUESTRAS vistas en la lección anterior):

  1. La cantidad de Hemoglobina glicada de un diabético.
  2. El número de veces que ha ido al dentista un menor de 18 años.
  3. La velocidad de un pokémon.
  4. La cantidad de un determinado contaminante en una ciudad de más de 100000 habitantes.
  5. Si un perro lleva o no un chip identificativo.

Observemos que hemos definido una VARIABLE en cada caso visto, pero podríamos escoger otras muchas, por supuesto.

Observemos, pues, que hasta ahora hemos visto tres conceptos en Estadística que son nucleares y que están siempre presentes en cualquier estudio realizado en cualquier ciencia:

  1. POBLACIÓN.
  2. MUESTRA.
  3. VARIABLE.

Es muy importante, siempre, situar bien cada uno de estos tres conceptos cuando se hace un estudio.

Veamos un ejemplo práctico:

Se quiere ver, en un estudio clínico, en personas que tienen una determinada enfermedad, si un nuevo medicamento que se quiere ensayar consigue más, menos o igual número de curaciones que el medicamento que se utiliza actualmente.

Llamemos al medicamento habitual como A y al nuevo como B.

Tenemos la POBLACIÓN de todos los enfermos de esa patología. Que pueden ser miles y miles.

El medicamento A lo damos a 100 personas con esa enfermedad y a los que seguiremos con detalle para ver si se curan o no. Estas 100 personas son una MUESTRA de la POBLACIÓN de todos los enfermos.

El medicamento B lo damos a otras 100 personas con esa enfermedad. Evidentemente, personas diferentes a las anteriores. Personas que también seguiremos detalladamente para ver si se curan o no con ese tratamiento. Estas 100 personas son una MUESTRA de la misma POBLACIÓN anterior, la POBLACIÓN de todos los enfermos de esa enfermedad.

La VARIABLE en este estudio es si el enfermo se cura o no con el tratamiento después de un cierto tiempo de tratamiento.

Veamos todo el planteamiento del estudio con un dibujo:

img_3832

Unos resultados que podríamos obtener, finalmente, del estudio podrían ser los siguientes:

Medicamento A:

70 se curan.

30 no se curan.

Medicamento B:

90 se curan.

10 no se curan.

Observemos que entre las dos MUESTRAS hay diferencias. Con el medicamento B se curan más personas que con el medicamento A. Es muy claro. De las 100 personas tratadas con el medicamento B se han curado 90. Esto lo expresamos así: un 90 por 100 (lo solemos escribir así: 90%). Sin embargo, con el medicamento A se han curado sólo 70: un 70 por 100 (70%).

Pero, algo muy importante: esto que vemos lo vemos en las MUESTRAS. ¿Pasaría lo mismo si estos tratamientos se aplicaran a la POBLACIÓN entera, a todos los enfermos? Observemos que esto no lo podremos decir, ciertamente, hasta que no lo apliquemos. Pero sería extremadamente importante poder predecir si las diferencias que vemos en esas MUESTRAS las veríamos también si cada uno de esos medicamentos se aplicara a toda la POBLACIÓN.

Pues éste es el papel de la Estadística. A eso nos dedicamos los estadísticos y para saber hacer este paso de las MUESTRAS a las POBLACIONES todos los científicos estudian Estadística.

Ya veremos que el gran problema de la Estadística será saber cuándo podemos decir que lo que vemos en las MUESTRAS es lo que veríamos, también, en las POBLACIONES. Cuando decimos, en Estadística, que lo que vemos es ESTADÍSTICAMENTE SIGNIFICATIVO es porque, con muchas posibilidades de no equivocarnos, lo que vemos en las MUESTRAS es lo que veríamos, también, en las POBLACIONES.

Ya tenemos, pues, los elementos básicos con los que se trabaja, siempre, en Estadística: POBLACIONES, MUESTRAS y VARIABLES.

Ahora vamos a empezar a manejarlos.

La Estadística es una ciencia que actúa manejando Técnicas analíticas, que solemos denominar TÉCNICAS ESTADÍSTICAS. Con ellas es como hacemos este proceso de decir cosas de POBLACIONES a partir de MUESTRAS. Hay muchos problemas distintos que precisan técnicas distintas. En el caso que hemos visto antes necesitamos utilizar una técnica analítica concreta. Una técnica estadística que nos permita decir si la diferencia que vemos a nivel MUESTRAL es, también, con muchísimas posibilidades, una diferencia POBLACIONAL. Si, por ejemplo, estuviéramos comparando tres tratamientos y lo que quisiéramos ver fuera si una cantidad cambia (por ejemplo, la cantidad de hemoglobina glicada), deberíamos aplicar otra técnica distinta.

La clave será aprender diferentes técnicas estadísticas, en qué situaciones se aplican y cómo, aplicándolas, podemos hacer este salto desde las MUESTRAS a las POBLACIONES.

Hay centenares de técnicas. En un curso de Estadística se suelen ver unas 15 ó 20. Se ven, por supuesto, las más utilizadas. Pero hay una cosa importante respecto a esas distintas técnicas. Se pueden clasificar en tres tipos, en tres familias de técnicas: Técnicas DESCRIPTIVAS, técnicas de RELACIÓN y técnicas de COMPARACIÓN.

En cada uno de estos tipos de técnicas decimos cosas de POBLACIONES a partir de las MUESTRAS.

En las técnicas DESCRIPTIVAS resumimos la muestra y vemos hasta qué punto con esos valores podemos pasar a valores poblacionales. Supongamos que en una muestra de 100 personas hay 10 que son diabéticos. En la muestra tengo un 10% de diabéticos. ¿Hasta qué punto puedo decir que eso también es, por ejemplo, de toda España, que es de donde he cogido la muestra? Para ello lo que solemos hacer los estadísticos es construir lo que llamamos un intervalo de confianza del 95% del porcentaje poblacional. No del muestral sino del poblacional. Si lo calculáramos veríamos que este intervalo es (4%, 16%). Si fueran 100 diabéticos entre 1000 sería (8,1%, 11.9%) y si fueran 1000 entre 10000 sería (9.4%, 10.6%). Cambian las cosas, ¿verdad? Cambia lo que podemos decir de la población, pero en la muestra siempre teníamos un 10%. Eso no cambiaba. Pero en las tres situaciones distintas lo que cambia, fundamentalmente, es nuestra posibilidad de decir cosas de las POBLACIONES a partir de las MUESTRAS. Como veremos, dependerá, entre otras cosas, del tamaño MUESTRAL que tengamos.

En las técnicas de RELACIÓN buscamos si ciertas asociaciones que detectamos entre variables, en las MUESTRAS, las podemos generalizar a las POBLACIONES. Por ejemplo, en personas con anorexia, ¿hay relación entre el tiempo que lleva esa persona con un trastorno alimentario y la pérdida de densidad ósea que se va a producir en ella? ¿Tener un determinado comportamiento está asociado a tener una determinada enfermedad?

En las técnicas de COMPARACIÓN buscamos ver si las diferencias que vemos entre MUESTRAS son generalizables a las POBLACIONES. Es el caso del ejemplo de antes de los medicamentos A y B que aplicábamos a diferentes pacientes y buscábamos si la respuesta es distinta o no.

Las técnicas de relación o de comparación se conducen, siempre, a un mismo esquema que en Estadística denominamos CONTRASTE DE HIPÓTESIS, donde, como dice el nombre: contrastamos, comparamos, dos hipótesis, dos afirmaciones, siempre (muy importante), POBLACIONALES.

HIPÓTESIS NULA: No hay relación (en técnicas de relación). Hay igualdad (en técnicas de comparación).

HIPÓTESIS ALTERNATIVA: Hay relación (en técnicas de relación). Hay diferencias (en técnicas de comparación).

Las técnicas de relación y de comparación siempre tienen por objetivo decidir, a la luz de la información MUESTRAL cuál es la afirmación POBLACIONAL más coherente por la cual decantarse: Por la HIPÓTESIS NULA, que es la que con la que partimos el estudio como cierta, o por la HIPÓTESIS ALTERNATIVA, que sólo abrazaremos si la NULA no tiene sentido mantenerla a la luz de la información muestral que tenemos.

Y, para acabar, un paralelismo sorprendente: Este esquema recuerda mucho a lo que sucede en un juicio. Cuando se juzga a una persona existen dos hipótesis a contrastar: Inocencia y Culpabilidad. Una hipótesis parte como cierta: es la célebre presunción de inocencia. Podríamos decir, por lo tanto, que en Ciencia hay presunción de no relación o de igualdad porque es lo que afirma siempre la HIPÓTESIS NULA, que es la que parte siempre como cierta. Además, otro paralelismo: el juez o el tribunal, en el juicio tiene una MUESTRA, pero su voluntad es saber la verdad que sería, aquí, lo equivalente a la POBLACIÓN, en Estadística, a tener toda la información exacta de lo que sucedió en los hechos que se juzgan.

Podemos decir, pues, para concluir este viaje en autobús turístico, que el DERECHO es a la SOCIEDAD lo que la ESTADÍSTICA es a la CIENCIA. Las grandes decisiones en el ámbito de la CIENCIA ( si un medicamento funciona o no, si un determinado comportamiento está relacionado o no con cierta patología, etc) las toman técnicas estadísticas; exactamente lo mismo que en la sociedad reservamos las decisiones conflictivas en manos del DERECHO.

 

3 pensamientos en “Viaje en autobús turístico por el mundo de la Estadística

  1. sepes

    Querido Jaume
    Si este es el primer artículo que alguien lee de tu web y le surgieran ganas de leersela toda.. ¿cual sería tu itinerario sugerido?
    ¿que orden seguir?
    Muchas gracias
    sepes

    Responder
      1. estadisticallopis Autor de la entrada

        Hola, me alegro que te haya gustado mi vídeo introductorio. Es verdad que el material está disperso. Como, debido a las circunstancias del confinamiento por la covid-19, a mis alumnos les voy organizando material, aprovecho para crear un CURSO DE ESTADÍSTICA BÁSICO. Verás una carperta arriba con este título. He creado un itinerario posible, con vídeos donde verás los textos que va siguiendo el curso. Lo he preparado por tu sugerencia, porque tienes razón: para realizar un itinerario hacía falta una orientación. Gracias por tu comentario.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s