Mediana (estadísticas)

En teoría de probabilidad y estadística , la mediana es el valor que separa la mitad inferior de la mitad superior de un conjunto ( muestra , población , distribución de probabilidad ). Intuitivamente, la mediana es, por tanto, el punto medio del conjunto. Es un indicador de tendencia central de la serie. Podemos determinar una mediana para un conjunto de valores no numéricos siempre que podamos elegir un criterio para ordenar estos valores.

Método de cálculo

Enfoque general

Para determinar una mediana de un conjunto de valores, basta con ordenar los valores en una lista creciente y elegir el valor que está en el centro de esta lista. Para una lista ordenada de n elementos, siendo n impar, el valor del elemento en la posición (n + 1) / 2 es la mediana. Si el número n de elementos es par, cualquier valor entre los elementos en las posiciones (n-1) / 2 y (n + 1) / 2 es una mediana; en la práctica, en el caso de una lista de números, es la media aritmética de estos dos valores centrales la que se utiliza con mayor frecuencia .

La complejidad del algoritmo para calcular la mediana es, por tanto, la complejidad del algoritmo de clasificación utilizado, a saber, O ( n log n ) en el mejor de los casos .

Ejemplos de

Otro enfoque

Para determinar una mediana de un conjunto de valores, basta con calcular los porcentajes acumulados crecientes y tomamos el primer valor de la serie cuyo porcentaje acumulado supera el 50%.

Este método es más práctico cuando tiene una gran cantidad de valores.

Eficiencia de algoritmos

Existen algoritmos de complejidad lineal (en O ( n )), por lo tanto más eficientes. Estos son algoritmos que generalmente permiten determinar el k -ésimo elemento de una lista de n elementos (ver Algoritmo de selección ); k = n / 2 para la mediana. Se trata de adaptaciones de los algoritmos de ordenación, pero que son más eficientes porque no nos interesan todos los valores. Por ejemplo, podemos usar el algoritmo de dividir y conquistar solo en operaciones O ( n ); en el caso del algoritmo QuickSelect , cambie la ordenación rápida ( quicksort ), que generalmente está en O ( n ) pero puede estar en O ( n 2 ) en el peor de los casos.

En la práctica, si buscamos la mediana de una lista de n enteros, y si tenemos la suerte de encontrar que el valor máximo m es menor que n 2 (este hallazgo cuesta O ( n )), entonces el orden de conteo , implementación muy fácil y cuyo costo es, en este caso, O ( m ) operaciones permite obtener la mediana en menos de O ( n 2 ) operaciones. Este caso se aplica en particular al caso de calificaciones sobre 20 (sin decimales) en una clase de más de 5 alumnos (5 al cuadrado es mayor que 20).

Medida de dispersión estadística

Cuando se usa la mediana para ubicar valores en estadística descriptiva, existen diferentes posibilidades para expresar la variabilidad: rango , rango intercuartílico y rango absoluto . Dado que la mediana tiene el mismo valor que el segundo cuartil , su cálculo se detalla en el artículo sobre cuartiles .

Medianas en distribuciones de probabilidad

Para todas las distribuciones de probabilidad real, la mediana m satisface la igualdad:

es decir, en términos de función de distribución  :

Entonces, para una distribución de probabilidad difusa (función de distribución continua):

Medianas de algunas distribuciones

Para todas las distribuciones simétricas , la mediana es igual a la expectativa.

Medianas en estadística descriptiva

La mediana se utiliza principalmente para distribuciones sesgadas porque las representa mejor que la media aritmética. Considere el conjunto {1, 2, 2, 2, 3, 9}. La mediana es 2, al igual que la moda, que es una mejor medida de tendencia central que la media aritmética de 3,166….

El cálculo de la mediana se realiza comúnmente para representar diferentes distribuciones y es fácil de entender y calcular. También es más robusto que el promedio en presencia de valores extremos.

Propiedades teóricas

Propiedad óptima

La mediana es también el valor central que minimiza el valor medio de las desviaciones absolutas. En la serie {1, 2, 2, 2, 3, 9} dada anteriormente, esto sería (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1.5, en lugar de 1.944 de la media, que, para su parte, minimiza las desviaciones cuadráticas. En la teoría de la probabilidad, el valor c que minimiza

es la mediana de la distribución de probabilidad de la variable aleatoria X .

Desigualdad de medios y medianas

Para distribuciones de probabilidad continuas, la diferencia entre la mediana y la expectativa es como máximo una desviación estándar .

Notas y referencias

  1. "Cálculo de la mediana" , Estadísticas de Canadá .
  2. Fabrice Mazerolle, "  Mediana  " ,2012(consultado el 13 de febrero de 2012 ) .
  3. [ (en)  Selección (determinista y aleatoria): encontrar la mediana en tiempo lineal ]

Ver también

Artículos relacionados

enlaces externos