Estadística

Autor: Profesor Jorge Carlos Carrá

Introducción

Un curso de Estadística debe propender a aprender a pensar estadísticamente.

Pensar significa poner énfasis en los conceptos y dejar de lado la memorización irreflexiva de las fórmulas. Se pueden saber muchas fórmulas sin entender nada. En la medida de lo posible se debe extraer de las mismas su lógica interna.

¿Y estadísticamente? La estadística provee los medios para poder tomar decisiones basadas en datos. Posibilita transformar los datos en conocimientos, haciendo a un lado las opiniones personales, sobre una base de evidencia sistemática.

Arsham (1996) sostiene que “pensar estadísticamente será algún día para un ciudadano eficiente, tan importante como leer o escribir”.
Dada que diversidad y cantidad de datos (demografía, negocios, educación, medicina, abogacía, física, etc.) aumenta día a día, la estadística necesita de la
informática, convirtiendo a las computadoras en indispensables.

Estadística descriptiva. Capítulo 1

Es la presentación accesible de un conjunto de datos, en general una muestra (aunque los métodos son también aptos para estudiar una población).

Estadística inferencial. Capítulo 5 y siguientes

La inferencia es el proceso por el cual se obtienen características de un conjunto grande de datos, llamado población, mediante un subconjunto de él, llamado muestra (observar la presencia de la incertidumbre en los resultados de distintas muestras).
Este tipo de razonamiento que busca generalizar un conocimiento, pertenece al tipo de razonamientos llamados
inductivos, si A sucede, B probablemente también suceda (no existe la certeza).
Este proceso resulta imprescindible en los casos en que el estudio de la población sea imposible (peces en un lago), o que sea posible pero impracticable por su costo o tiempo (población de votantes), o porque su estudio sea destructivo (resistencia de materiales).
Veamos un ejemplo de inferencia tomado de la vida diaria: supongamos que el cocinero de un restaurant desea conocer la calidad de la sopa (
población) que está preparando. No necesita tomarse toda la sopa para probar dicha calidad, le basta revolver bien y luego saborear una cucharada de la misma (muestra representativa al haber revuelto completamente la sopa). Registrar de paso que no interesa el tamaño del recipiente en donde se encuentra la sopa para realizar la inferencia (Gallup G. 1972, pag 74).
La
estadística inferencial es por lo tanto el empleo de la información que nos provee la muestra, para llevar a cabo decisiones inteligentes respecto de la población. El objeto de la estadística es, como vemos, siempre la población.

Puente entre el Capítulo 1 y el Capítulo 5

Se encuentra en el capítulo 4, Distribuciones Muestrales.
Para su estudio se requiere estudiar las Distribuciones de Probabilidades (capítulo 3) las cuales a su vez necesitan del capítulo 2, Probabilidades. La estadística necesita modelar la realidad, para lo cual requiere de la
teoría de probabilidades pues las variaciones y la incertidumbre son inevitables.
Este conjunto de 3 capítulos pertenecen a la Matemáticas y como tal solo comprenden razonamientos
deductivos, es decir en el esquema, A=>B, si A sucede, B también.
Para diferenciarlos claramente de los capítulos estadísticos, podrían y en realidad sería deseable, que se estudiaran en una materia separada, llamada Probabilidades.

Método científico

La estadística es además, parte del método científico. Por algún medio el científico o investigador elabora una hipótesis sobre un aspecto de la realidad y diseña un experimento para verificar esa hipótesis, en el cual se obtienen datos que proveen conocimiento de la población de donde partieron. Finalmente se procesan y analizan estadísticamente infiriendo a partir de ellos (estadística inferencial), el comportamiento de la población y por lo tanto rechazando o aceptando la hipótesis.
Se aprecia que en este proceso no importa lo que el investigador crea acerca de la veracidad de la hipótesis, pues se realiza una evaluación objetiva de la misma. El proceso luego se repite ya sea para validar o corregir la hipótesis.
El desarrollo de una investigación sigue aproximadamente la estructura de 5 pasos que se muestra en la figura I-1 (adaptada al problema de estadística inferencial).

[image]
Figura I-1

Todo proceso de diseño se encuentra asociado con una palabra llamada iteración. Esto significa que existe un lazo de realimentación entre cualquiera de los pasos, esencialmente entre los pasos 2 a 4 como se indica en la figura, pero esto no significa que necesariamente deba recorrerse el proceso en el orden indicado. Un prediseño aparentemente adecuado en el modelado del P2, puede resultar incorrecto en el análisis posterior del P3 o en el diseño de otras variables del P4. Se deberá entonces regresar a un paso anterior o incluso a la fase inicial del P1 para redefinir el problema y poder generar mejores soluciones.

En la siguiente descripción, se hará referencia a los capítulos corresponden a cada estudio.

Paso 1 Problema

En este paso se define el tipo de problema que se desea resolver y se realiza un análisis de tipo exploratorio con los datos y con los recursos del capítulo 1.

Los problemas básicos que resuelve la estadística (inferencial) se pueden agrupar en alguno de los siguientes 6, cuyo estudio comienza en el capítulo 5:

  1. Comparación entre grupos distintos.
    Capítulos 5, 6 y 8

  2. Asociación entre variables.
    Capítulos 5, 6 y 8

  3. Comparación de formas de las distribuciones.
    Capítulo 8

  4. Predicción de pertenencia a un grupo.
    Capítulo 6

  5. Análisis temporal.
    Capítulo 7

  6. Análisis de estructura.
    Capítulo 10

Paso 2 Modelado

Un modelo es una representación (no única) de la realidad. Los modelos se pueden clasificar en 2 grupos:

Los modelos físicos conservan las características físicas de los objetos originales.

Ejemplos en 2D: dibujos, planos, fotografías, mapas, etc.
Ejemplos en 3D: maquetas, estatuas, etc.

Los modelos simbólicos en cambio no conservan las características físicas del objeto en estudio y suelen representar solo alguna de sus propiedades. Pueden ser:

En nuestro caso se trabajará con modelos matemáticos.

Dado que se trata de resolver el comportamiento de un grupo grande de elementos (población) a partir de un subconjunto del mismo (muestra), se entiende que deberá conocerse alguna característica de esa población. En los capítulos 2, 3 y 4 estudiaremos que los fenómenos aleatorios presentan ciertas regularidades estadísticas y veremos que resulta natural elegir como modelo matemático adecuado, a la ley de comportamiento (distribución de probabilidades) de algún indicador de la población. Como todo modelo matemático, pertenecen a una disciplina exacta, es la aplicación de estos modelos al problema real (paso 4) la que se realiza en términos inexactos.

P2a Supuestos

La mayoría de los modelos simplifican e idealizan la realidad para facilitar su tratamiento. Es imprescindible conocer los supuestos o hipótesis del modelo para establecer la zona de validez.

P2b Modelo

Se establece el modelo matemático y cualquier técnica matemática necesaria para estudiar el modelo.

Paso 3 Diseño del experimento

Diseño es el proceso de concebir o inventar formas, partes y detalles de un sistema para cumplir un determinado propósito. Es en esencia una actividad creativa, por lo cual no existe una única metodología que garantice una solución y además es inherentemente iterativo, por lo cual algunos pasos se deberán repetir en la afinación del mismo.

Se refiere en este caso al diseño experimental y de muestreo. Aquí se definen las variables y el tamaño n de la muestra. Se debe estudiar en un capítulo posterior al 5 (en el listado de contenidos se encuentra en el capítulo 10), pues requiere el conocimiento de las técnicas inferenciales.

Hasta ese entonces se supondrá que la muestra es aleatoria simple, es decir que cada elemento tiene igual probabilidad de ser elegido. En palabras más precisas, deben cumplirse las siguientes 2 propiedades:

  1. Equiprobabilidad. Cada uno de los elementos debe tener igual probabilidad de ser incluido en la muestra o en otras palabras, las características de la muestra deben estar en iguales proporciones que en la población.

  2. Independencia. Todos los elementos deben ser independientes entre sí. Para que la toma de la muestra no afecte a la población, se considera o bien que la población es infinita o que la muestra se realiza con reemplazo del elemento extraído.

P3a Variables

Se definen el tipo y número de variables a estudiar.

P3b Datos

Se define el tamaño adecuado de la muestra.

Paso 4 Análisis

Se aplica el modelo del paso 2 para resolver el problema del paso 1.
En todos los casos se aplica la inferencia y como veremos en el capítulo 5, existen 2 métodos básicos:

P4a Inferencia

Aplicación de la técnica de inferencia para obtener resultados.

P4b Decisión

En base a los resultados del punto anterior, el investigador podrá hacer predicciones (siempre sobre aspectos contenidos en la información original).

P4c Verificar supuestos

Con los resultados del análisis podrá verificar la validez o no de alguno de los supuestos iniciales.

Paso 5 Validación

El investigador constatará las predicciones con la realidad, ya sea con una nueva muestra o con una subdivisión de la que procesó. Esto medirá la eficacia del modelo no solo para explicar los hechos actuales, sino también para predecir nuevas situaciones.