Estadística descriptiva

La estadística descriptiva es la rama de la estadística que reúne muchas técnicas utilizadas para describir un conjunto de datos relativamente grande .

Descripción estadística

El objetivo de la estadística descriptiva es describir, es decir resumir o representar, mediante estadísticas , los datos disponibles cuando son numerosos.

Los datos disponibles

Cualquier descripción de un fenómeno requiere observar o conocer ciertas cosas sobre este fenómeno.

La descripcion

Es bastante complicado definir la mejor descripción posible de un fenómeno. En el contexto de las estadísticas, será cuestión de proporcionar toda la información disponible sobre el fenómeno en el menor número de cifras y palabras posibles.

Normalmente, la ley de los gases ideales es una muy buena descripción del fenómeno que consiste en el comportamiento de un gas en un estado de equilibrio del que solo se observan la presión, la temperatura y el volumen. El valor de la constante puede verse entonces como una estadística asociada con esta descripción.

También surge la cuestión de la descripción visual , pero la dejaremos de lado por el momento. El artículo de visualización de datos responde a esto de manera más directa.

Punto de vista estadístico

El punto de vista estadístico sobre la descripción de un fenómeno surge de la opinión de que las observaciones disponibles son diferentes manifestaciones de un mismo fenómeno abstracto. Para seguir con el ejemplo de temperatura, presión y densidad medidas en varios instantes, consideraremos que cada vez que tomamos estas tres medidas, observamos el mismo fenómeno. Las medidas no serán exactamente las mismas; es la distribución de estas medidas lo que vamos a describir estadísticamente.

Ejemplos de

Cantidades fisicas

Si medimos de vez en cuando la presión, la temperatura y la densidad de un gas presente en un tanque, obtenemos una colección de tripletes de datos, indexados por el instante de medición.

Variables biológicas o de comportamiento

En el campo médico, por ejemplo, es posible medir el peso antes y después de tomar un medicamento para varias personas. Luego obtenemos una colección de pares de datos (peso antes y después) indexados por el nombre de la persona.

En sociología o marketing podemos medir la cantidad de libros leídos por año para muchas personas, cuya edad y nivel de educación se conocen. Aquí también obtenemos una colección de triples de datos, indexados por el nombre del lector .

Formalización de casos prácticos

Las diferentes magnitudes medidas se denominan variables .

El estudio estadístico requiere que asumamos que existe un fenómeno abstracto más o menos oculto que implementa estas variables (y quizás otras).

Cada valor del índice (que puede ser una fecha o un número que identifica a un individuo) identifica una fotografía parcial del fenómeno . Los valores de las variables para un índice dado se denominan observaciones o realización del fenómeno.

Desde un punto de vista formal, establecemos el principio de que el fenómeno abstracto puede incluir elementos deterministas como elementos aleatorios (también decimos estocásticos). Luego, todas las variables observadas se yuxtaponen en forma de un vector de datos . Hay más de una variable (pero es multivariada ).

Las observaciones son entonces muchas realizaciones (en el sentido de la estadística matemática ) de esta variable aleatoria multivariante.

Estudio de una sola variable

Descripción de un mono fenómeno variado

Comencemos con la situación más simple: la de observar una sola variable (por ejemplo, la presión en un tanque, o el número de libros leídos por año por una persona). Como vimos anteriormente, asumimos que existe un fenómeno del cual esta variable es parte, que este fenómeno es quizás en parte aleatorio. Esta parte aleatoria implica que la variable observada proviene de una variable abstracta sujeta en parte a un peligro desconocido.

Las observaciones a nuestra disposición son entonces realizaciones de esta variable aleatoria abstracta.

El objetivo de la estadística descriptiva en este contexto es resumir lo mejor posible esta colección de valores apoyándose posiblemente en nuestra hipótesis (la existencia de una ley aleatoria abstracta detrás de todo esto).

Ejemplo simple

Si nuestras observaciones son el éxito o el fracaso de 23 atletas en un evento de salto de altura. Será una serie de "éxito" (S), "fracaso" (E) indexados por el nombre del atleta. Aquí están los datos:

S, S, E, E, E, S, E, S, S, S, E, E, S, E, S, E, S, S, S, S, E, E, S

Sin pensar y utilizando criterios estadísticos, podemos decidir describir este fenómeno de la siguiente manera:

Al otorgar un punto a cada uno de los 23 atletas cuando completan con éxito su salto, y ninguno cuando fallan, el número promedio de puntos ganados es 0.5652 y la desviación estándar de los puntos ganados es 0.5069 .

Esta es una descripción bastante oscura, y debe tenerse en cuenta que contiene un poco menos de 200 caracteres, mientras que la lista de éxitos y fracasos tiene menos de 50. Probablemente preferiremos esta:

23 atletas saltaron, 13 de ellos tuvieron éxito.

Esta descripción es simple, clara y breve (menos de 50 caracteres).

También es bastante posible hacer una descripción que destruya información, por ejemplo esta:

Al otorgar un punto a cada atleta cuando tiene éxito en su salto, y ninguno cuando falla, el promedio de puntos ganados es 0.5652

De hecho, carece al menos del número de saltadores, que es un elemento descriptivo importante.

Por supuesto, si estamos tratando de describir un fenómeno en particular, como este si hubiera apostado por uno de los 23 tiros en salto, ¿qué posibilidades tenía de ganar? , la respuesta hubiera sido diferente:

57%

mucho más breve, y sin destruir ninguna información en vista de la pregunta. Ya no se trataba de describir los logros del fenómeno sin un punto de vista particular, sino con un ángulo muy preciso. En realidad, se describe otro fenómeno (el de las apuestas).

Por lo tanto, es muy importante responder correctamente a la pregunta y no aplicar fórmulas prefabricadas sin pensar.

Por último, echemos un vistazo a otra pregunta: si tuviera que apostar en un próximo evento, ¿cuáles serían mis posibilidades de ganar?

Pudimos responder 57%, como la pregunta anterior, pero después de todo, solo observamos 23 saltadores; ¿Es esto suficiente para sacar una conclusión sobre el desempeño de otros saltadores?

Para dar una respuesta de todos modos, especifiquemos la hipótesis principal que vamos a utilizar:

Hipótesis  : la naturaleza de la actuación de los saltadores será la misma que la observada.

Esto quiere decir que si esta competencia fue nacional, la segunda también será: no usaremos observaciones de un fenómeno a nivel nacional con el mismo fenómeno, pero a nivel olímpico por ejemplo.

E incluso en este contexto, si, por ejemplo, hubiéramos observado solo 2 saltadores, que ambos habían tenido éxito, ¿significaría eso que todos los saltadores de nivel nacional todavía lo lograron (es decir, tengo el 100% de posibilidades de ganar)? Claro que no.

Entonces debemos recurrir a la noción de intervalo de confianza  : el objetivo es tener en cuenta el tamaño de nuestra muestra de atletas, combinado con ciertos supuestos probabilísticos.

En este caso, las estadísticas matemáticas nos dicen que un estimador de proporciones calculado a partir de observaciones sigue una ley de varianza normal alrededor de la proporción teórica . En nuestro caso: y . Esto nos enseña que bajo nuestra suposición, hay un 95% de probabilidad de que nuestra probabilidad de ganar esté entre y . Por tanto, la respuesta es en última instancia:

Existe un 95% de probabilidad de que la probabilidad de ganar nuestra apuesta en un encuentro similar esté entre el 36 y el 77%.

Elementos metodológicos

Por último, existe una colección completa de estadísticas que se pueden utilizar con fines descriptivos. Estos son criterios que cuantifican diferentes características de la distribución de observaciones:

Sin a priori sobre la pregunta que se nos plantea, podemos revisar estos diferentes indicadores descriptivos.

Descripción intrínseca de una distribución de observación

Sin ningún a priori sobre la pregunta que uno mismo se hace, unas simples estadísticas permiten describirla:

Los dos primeros a menudo se denominan criterios de posición y los otros entran más en la categoría de criterios de dispersión .

Promedio

La media aritmética es la suma de los valores de la variable dividida por el número de individuos:

Mediana

La mediana es el valor central que divide la muestra en 2 grupos del mismo tamaño: 50% arriba y 50% abajo. La mediana puede tener un valor diferente de la media. En Francia (y además en la mayoría de los países), el salario medio es más bajo que el salario medio: hay muchos salarios mínimos y pocos salarios altos. Sin embargo, los que más ganan elevan el promedio.

En general, una mediana es, en una serie ordenada, un valor M tal que hay tantos valores mayores o iguales que M como valores menores o iguales que M. Ejemplo: 1 3 5 7 9 la mediana es 5

5 5 6 6 8 8 la médiane est égale à (6+6)/2=6 Moda

El modo corresponde a la realización más frecuente.

La moda de una serie, o dominante de una distribución, es el valor de la variable (o unidad estadística) que ocurre con mayor frecuencia en la serie. Es el valor central de la clase que tiene la mayor cantidad de inscripciones.

Ej .: Sea la serie {8,4,4,3,4,3,8,2,5} El valor más frecuente de esta serie es 4. La moda es, por tanto, igual a 4. El número asociado con esta moda es 3 .

Es el índice más fácil de determinar, ya que basta con leer un gráfico o mirar la tabla de personal.

Diferencia

La varianza empírica corregida por el cuadrado de la desviación estándar (o varianza):

Nota  : la varianza (noción de estadística descriptiva) igual es la media aritmética simple de los cuadrados de las desviaciones de la media aritmética observada, pero la varianza insesgada (noción de estadística matemática, que significa que en promedio el valor empírico es igual a la valor teórico) es multiplicado por la varianza observada. Por tanto, la varianza insesgada es mayor que la varianza observada.

Desviación Estándar

 : es la raíz cuadrada de la varianza

Mínimo y máximo
  • Extensión  : este es el intervalo entre el valor más pequeño y el más grande. Decimos de un fenómeno que presenta una "dinámica fuerte" cuando la extensión (o dispersión) es grande.
Intervalo de confianza

El teorema del límite central asegura que la media estimada está a una distancia menor que la media teórica con una probabilidad cercana a , donde sigue una distribución gaussiana estándar. También significa que ( es el cuantil correspondiente a para un gaussiano):

Por lo tanto, a medida que el tamaño de la muestra aumenta linealmente, la precisión del estimador de la media aumenta en .

Cuando el conjunto de puntos no constituye una muestra de la población, sino la población total, no es necesario utilizar la varianza insesgada, ya que ya no estamos en un contexto de estimación sino de medición.

Cuantiles

Quantiles es una generalización de la noción de mediana que divide la distribución en dos partes iguales. Definimos en particular los cuartiles , deciles y percentiles (o percentiles) de la población, ordenados en orden ascendente, que dividimos en 4, 10 o 100 partes de un mismo número.

Hablaremos así del “percentil 90” para indicar el valor que separa al primer 90% de la población del 10% restante. Así, en una población de niños pequeños, un niño cuya estatura esté por encima del percentil 90 o por debajo del percentil 10, puede ser objeto de un seguimiento especial.

Histograma

Aunque a menudo se considera como una representación gráfica, y por lo tanto tiene más su lugar en una descripción de los métodos de visualización de los datos , el histograma es un híbrido de una representación exhaustiva de los datos y una descripción mediante el recurso a leyes estadísticas.

Distribución empírica

La densidad empírica de una variable de valor discreto es simplemente la proporción de observaciones que toman cada valor.

En el ejemplo de los deportistas, la densidad empírica de nuestra población es del 57% de éxitos y del 43% de fracasos. El histograma asociado es muy simple (ver imagen a la izquierda).

Llamamos función de distribución empírica asociada a una serie de observaciones de valor real que tienen los valores de la siguiente función:

Es una estimación de la probabilidad de que el valor de un evento del fenómeno observado tenga un valor mayor o igual a .

Si quisiéramos deducir la densidad empírica asociada con las observaciones, tendríamos que derivar . Dado que la derivada de una indicatriz ( ) es una distribución de Dirac, el resultado no sería muy útil.

Son posibles varias alternativas:

  • utilizando un estimador de kernel, se trata de implementar la siguiente densidad:

donde es una función del núcleo (de masa igual a uno).

  • aproxima la densidad mediante una función escalonada.

Un histograma es la mejor estimación mediante una función escalonada de la densidad empírica. Es decir, la integral del histograma debe ser lo más cercana posible a . Tenga en cuenta que la integral del histograma es una función continua afín por partes. Desde cierto punto de vista:

encontrar la función continua afín por partes que mejor se aproxima a la función de distribución empírica equivale a caracterizar completamente el histograma.

En este contexto, el número de piezas (de clases o barras ) es un parámetro muy importante. Tienes que recurrir a un criterio adicional si quieres encontrar tu mejor valor posible. Tomamos, por ejemplo, un criterio de información de Akaike o el criterio de información bayesiano ; también es posible utilizar un criterio de información o de entropía.

Por construcción, las barras del histograma no son necesariamente todas del mismo ancho.

Construcción de un histograma Ejemplo de histogram.png

El histograma es una de las posibles representaciones gráficas de datos estadísticos . Como los cuantiles, el histograma divide a la población en clases, pero el punto de vista es diferente.

Con los cuantiles, el objetivo es localizar los límites entre clases del mismo tamaño. A menudo se utilizan, por ejemplo, en materia de ingresos, para comparar las dos clases extremas.

Para los histogramas, los anchos de clase se eligen para reflejar mejor la distribución real de las observaciones. Ésta es una tarea difícil.

Para simplificar, las clases de histogramas a veces se toman del mismo ancho y altura variable: tales histogramas se denominan gráficos de barras . Estos no son histogramas reales.

Es posible comparar la distancia entre estas dos curvas.

  • por ejemplo, utilizando la prueba de Kolmogorov-Smirnov
  • donde al observar que la distancia entre estas dos curvas (definida por el área entre ellas) sigue una ley de .

Yendo más allá, este tipo de método de comparar funciones de distribución (aquí entre las que resultan del histograma y la distribución empírica) se puede utilizar para comparar la distribución empírica de nuestras observaciones con la de una ley conocida (c 'es, por ejemplo, el principio de el derecho de Henry ). Esto responde a la pregunta: ¿ mi distribución se parece a una distribución conocida? .

Descripción por comparación de una distribución de observaciones

Esto implica comparar la distribución de observaciones con una ley estadística conocida.

Si identificamos una distribución conocida (por ejemplo, una gaussiana) cuya distribución es estadísticamente indistinguible de nuestra distribución empírica, tenemos una muy buena manera de resumir la información: lo que es más descriptivo que una oración como mis observaciones se distribuyen como una distribución normal con media 0 y desviación estándar 0,2  ?

Estudio de varias variables

El principio es el mismo que para una sola variable, excepto que todas las características (media, moda, desviación estándar, etc.) son bivariadas (vectores).

Por otro lado, hay una característica adicional: la correlación . Es una medida lineal de la dependencia entre los diferentes componentes de la variable multivariante.

Hay otras medidas de dependencia entre dos variables, como la información mutua (o la entropía condicional).

Más allá de las mediciones, también podemos explorar las dependencias utilizando tablas o herramientas gráficas .

Disyunción de datos

La matriz más simple posible es una disyunción . Cuando tenemos dos variables y , observadas por ejemplo en varias ocasiones (nótese la observación de las dos variables en este momento ), siempre es posible elegir un umbral en la segunda variable y transformar nuestra muestra en . Luego formamos dos grupos de tiempos:

  1. aquellos para los que la segunda variable es mayor que ;
  2. aquellos para los que la segunda variable es menor o igual a .

Cuanto más diferentes sean estos dos conjuntos (desde el punto de vista de los criterios monovariados: media, desviación estándar, comparación con una distribución conocida, etc.), más impacto tendrá el evento en la distribución de los valores. de . Cuando este es el caso, hemos identificado una dependencia entre y el evento .

Es posible continuar con esto cortando nuestra muestra en varios pedazos, usando varios umbrales .

Luego obtenemos una población de muestras con una sola variable ( ), que se puede estudiar por separado. Si notamos que las distribuciones de las muestras son muy diferentes, es porque existe una dependencia entre las dos variables.

Ver también