Función de distribución empírica

En estadística , una función de distribución empírica es una función de distribución que asigna la probabilidad 1 / n a cada uno de los n números de una muestra .

Cualquiera de $X 1 , ..., X n$ una muestra de las variables iid definidos en un espacio de probabilidad con valores en , con la función de distribución F . La función de distribución empírica de la muestra se define por: ${\ Displaystyle (\ Omega, {\ mathcal {A}}, \ mathbb {P})}$ $\ mathbb {R}$ $F_ {n}$ $X_ {1}, \ ldots, X_ {n}$

{\ Displaystyle \ forall x \ in \ mathbb {R}, \ forall \ omega \ in \ Omega, F_ {n} (x, \ omega) = {\ frac {\ mathrm {número ~ de {\ aguda {e} } los {\ agudos {e}} mentos} \, \ leq x \, \ mathrm {en ~ la {\ aguda {e}} muestra}} {n}} = {\ frac {1} {n}} \ suma _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} (\ omega) \ leq x}}

que es la función indicadora del evento At . ${\ Displaystyle \ mathbf {1} _ {A}}$

Para cada $ω$ , el mapa es una función escalonada, función de distribución de la ley de probabilidad uniforme sobre el conjunto . ${\ Displaystyle x \ to F_ {n} (x, \ omega)}$ ${\ Displaystyle \ {X_ {1} (\ omega), \ dots, X_ {n} (\ omega) \}}$

Para cada x , la variable aleatoria es una variable aleatoria de Bernoulli , parámetro $p$ $=$ $F$ $($ $x$ $)$ . En consecuencia, la variable aleatoria , que se observará , se distribuye según una ley binomial , con la media $nF$ $($ $x$ $)$ y la varianza $nF$ $($ $x$ $) (1 -$ $F$ $($ $x$ $))$ . En particular, $F$ $n$ $($ $x$ $)$ es un estimador insesgado de $F$ $($ $x$ $)$ . ${\ Displaystyle \ mathbf {1} _ {(X_ {i} \ leq x)}}$ ${\ Displaystyle \ omega \ to nF_ {n} (x, \ omega)}$ ${\ Displaystyle nF_ {n} (x,.)}$

Propiedades asintóticas

Por la fuerte ley de los grandes números ,

para todo x , casi seguro .

{\ Displaystyle F_ {n} (x ,.) \ to F (x)}

Por el teorema del límite central ,

{\ Displaystyle {\ sqrt {n}} (F_ {n} (x ,.) - F (x))}

converge en ley a una ley normal para una x fija.

{\ Displaystyle {\ mathcal {N}} (0, F (x) (1-F (x))}

El teorema de Berry-Esseen proporciona la tasa de convergencia.

Por el teorema de Glivenko-Cantelli , casi con toda seguridad , la convergencia uniforme se lleva a cabo, o bien, de forma equivalente: $\ scriptstyle \ F_ {n} \ to F \$

{\ Displaystyle \ | F_ {n} -F \ | _ {\ infty} = \ sup _ {x \ in \ mathbb {R}} \ | F_ {n} (x ,.) - F (x) \ | ~ {\ xrightarrow [{n \ to \ infty}] {}} ~ 0}

casi seguro . La desigualdad de Dvoretzky-Kiefer-Wolfowitz proporciona la tasa de convergencia.

Kolmogorov demostró que

{\ Displaystyle {\ sqrt {n}} \ | F_ {n} -F \ | _ {\ infty}}

converge en distribución a la distribución de Kolmogorov, siempre que F sea continua. La prueba de Kolmogorov-Smirnov de bondad de ajuste se basa en este hecho.

Según el teorema de Donsker ,

{\ sqrt {n}} (F_ {n} -F)

, como un proceso indexado por x , converge débilmente en un puente browniano B ( F ( x )).

\ ell ^ {\ infty} ({\ mathbb {R}})

Bibliografía

(en) Galen R. Shorack y Jon A. Wellner , Procesos empíricos con aplicaciones a la estadística , Sociedad de Matemáticas Industriales y Aplicadas,4 de septiembre de 2009, 998 p. ( ISBN 978-0-89871-684-9 y 0-89871-684-5 , lea en línea )
van der Vaart, AW y Wellner, JA (1996) "Convergencia débil y procesos empíricos", Springer. ( ISBN 0-387-94640-3 ) .