Convergencia de variables aleatorias

En la teoría de la probabilidad , existen diferentes nociones de convergencia de variables aleatorias . La convergencia (en uno de los sentidos que se describen a continuación) de secuencias de variables aleatorias es un concepto importante de la teoría de la probabilidad que se utiliza en particular en estadística y en el estudio de procesos estocásticos . Por ejemplo, la media de $n$ variables aleatorias independientes e idénticamente distribuidas casi seguramente converge a la expectativa común de estas variables aleatorias (si existe). Este resultado se conoce como la ley fuerte de los grandes números .

En este artículo, asumimos que $( X n )$ es una secuencia de variables aleatorias reales , que $X$ es una variable aleatoria real y que todas estas variables están definidas en el mismo espacio de probabilidad . $(\ Omega, \ mathcal {F}, \ mathbb {P})$

Convergencia jurídica

Dejar que $F 1 , F 2 , ...$ el resultado de las funciones de distribución asociadas a variables aleatorias $X 1 , X 2 , ...$ , y $F$ la función de distribución de la verdadera variable aleatoria $X$ . En otras palabras, $F n$ se define por $F n ( x ) = P ( X n \leq x )$ y $F$ por $F ( x ) = P ( X \leq x )$ .

La secuencia $X n$ converge a $X$ en la ley , o en la distribución , si

\ lim _ {{n \ rightarrow \ infty}} F_ {n} (a) = F (a),

para todo real

a

donde

F

es continuo .

Dado que $F ( a ) = P ( X \leq a )$ , esto significa que la probabilidad de que $X$ pertenezca a un cierto intervalo es muy cercana a la probabilidad de que $X n$ esté en este intervalo para $n$ suficientemente grande. A menudo se observa convergencia en la ley

X_ {n} {\ xrightarrow {{\ mathcal {L}}}} X

X_ {n} {\ xrightarrow {d}} X

La convergencia en derecho es la forma más débil en el sentido de que, en general, no implica las otras formas de convergencia que se definen a continuación, mientras que estas otras formas de convergencia implican convergencia en derecho. Este es el tipo de convergencia que se utiliza en el teorema del límite central .

De manera equivalente, la secuencia $( X n )$ converge en ley a $X$ si y solo si para cualquier función acotada continua

{\ Displaystyle \ lim _ {n \ rightarrow \ infty} \ mathbb {E} [f (X_ {n})] = \ mathbb {E} [f (X)].}

Teorema de continuidad Levy - Let $φ n ( t )$ la función característica de $X n$ y $φ ( t )$ que el de $X$ . Entonces

\ left \ {\ forall t \ in {\ mathbb {R}}: \ varphi _ {n} (t) \ to \ varphi (t) \ right \} \ quad \ Leftrightarrow \ quad \ left \ {X_ {n } {\ xrightarrow {{\ mathcal L}}} X \ right \}

En otras palabras, $( X n )$ converge en distribución a $X$ si y sólo si la función característica de la verdadera variable aleatoria $X n$ converge simplemente a la función característica de la verdadera variable aleatoria $X$ .

Ejemplo: teorema del límite central:

La media de una serie de variables aleatorias cuadradas integrables y centradas, independientes y de la misma ley, una vez renormalizadas por $\sqrt n$ converge en ley hacia la ley normal

{\ sqrt {n}} {\ bar X} _ {n} {\ xrightarrow {{\ mathcal {L}}}} {\ mathcal {N}} (0, \ sigma ^ {2}).

Ejemplo: convergencia de la ley de Student:

El parámetro de distribución de Student $k$ converge, cuando $k$ tiende a $+ \infty$ , a la ley de Gauss :

{\ mathrm {t}} (k) {\ xrightarrow {{\ mathcal {L}}}} {\ mathcal {N}} (0,1).

En este caso, también podemos utilizar el lema de Scheffé , que es un criterio de convergencia de una serie de variables aleatorias de densidad hacia una variable aleatoria de densidad .

Ejemplo: ley degenerada:

La secuencia converge en derecho hacia una variable aleatoria $X$ $0$ denominada degenerada, que toma un solo valor (0) con probabilidad 1 (a veces hablamos de masa de Dirac en 0, anotado $δ$ $0$ ): ${\ mathcal {N}} \ left (0, {\ frac {1} {n}} \ right)$

{\ mathbb {P}} (X_ {0} \ leq x) = \ delta _ {0} \ left (] - \ infty, x] \ right) = {\ begin {cases} 0 & {\ text {si }} x <0, \\ 1 & {\ text {si}} x \ geq 0. \ end {cases}}

Convergencia en probabilidad

Definición - Sea $( X n ) n$ una serie de variables aleatorias reales definidas en el mismo espacio de probabilidad . Decimos que $X$ $n$ converge a $X$ en probabilidad si ${\ Displaystyle \ left (\ Omega, {\ mathcal {A}}, \ mathbb {P} \ right)}$

\ forall \ varepsilon> 0, \ qquad \ lim _ {{n \ rightarrow \ infty}} {\ mathbb {P}} \ left (\ left | X_ {n} -X \ right | \ geq \ varepsilon \ right) = 0.

A veces notamos

X_ {n} {\ xrightarrow {p}} X

X_ {n} {\ xrightarrow {{\ mathbb {P}}}} X

Lema : si tenemos las siguientes convergencias, respectivamente en $( E , d )$ y en $\ mathbb {R}$

X_ {n} {\ xrightarrow [{}] {(d)}} X \ qquad {\ text {y}} \ qquad d (X_ {n}, Y_ {n}) {\ xrightarrow [{}] {( d)}} 0

entonces tenemos

(X_ {n}, Y_ {n}) {\ xrightarrow [{}] {(d)}} (X, X)

en el espacio $E \times E$ provisto de la distancia infinita.

Demostración

Deje $F$ un cerrado $E \times E$ . Para todo $ε > 0$ denotamos

{\ Displaystyle F _ {\ varepsilon}: = \ {(x, y) \ in E \ times E: d _ {\ infty} ((x, y), F) \ leq \ varepsilon \}}

Entonces

{\ mathbb {P}} ((X_ {n}, Y_ {n}) \ en F) \ leq {\ mathbb {P}} ((X_ {n}, X_ {n}) \ en F _ {{ \ epsilon}}) + {\ mathbb {P}} (d (X_ {n}, Y_ {n}) \ geq \ epsilon)

Pasar el $limsup$ se obtiene utilizando los dos supuestos y el perchero del teorema de 3 puntos e

\ limsup _ {n} {\ mathbb {P}} ((X_ {n}, Y_ {n}) \ in F) \ leq {\ mathbb {P}} ((X, X) \ in F _ {{ \ epsilon}})

luego, al hacer que $ε$ tiende hacia 0, ya que F está cerrado

\ limsup _ {n} {\ mathbb {P}} ((X_ {n}, Y_ {n}) \ en F) \ leq {\ mathbb {P}} ((X, X) \ en F

Llegamos a la conclusión utilizando de nuevo el 3 er punto del teorema de perchero.

Propiedad : si $X n$ converge a $X$ en probabilidad, entonces $X n$ converge a $X$ en ley .

Demostración

Es una consecuencia del lema anterior al tomar $X n = X$ y al observar que la convergencia en la ley

d (X, Y_ {n}) {\ xrightarrow [{}] {(d)}} 0

en es la convergencia en probabilidad $\ mathbb {R}$

Y_ {n} {\ xrightarrow [{}] {{\ mathbb {P}}}} X

en $( E , d )$ .

De lo contrario, puede proceder de la siguiente manera. Comencemos por enunciar un lema.

Lema - Sean $X$ , $Y$ variables aleatorias reales, $c$ a real y $ε > 0$ . Entonces

{\ mathbb {P}} (Y \ leq c) \ leq {\ mathbb {P}} (X \ leq c + \ varepsilon) + {\ mathbb {P}} (XY> \ varepsilon)

De hecho, basta con notar que:

\ {Y \ leq c \} \ subconjunto \ {X \ leq c + \ varepsilon \} \ cup \ {X> c + \ varepsilon, Y \ leq c \}

La desigualdad sigue naturalmente.

Para todo $ε > 0$ , debido a este lema, tenemos:

{\ mathbb {P}} (X_ {n} \ leq a) \ leq {\ mathbb {P}} (X \ leq a + \ varepsilon) + {\ mathbb {P}} (\ left | X_ {n} - X \ derecha |> \ varepsilon)

{\ mathbb {P}} (X \ leq a- \ varepsilon) \ leq {\ mathbb {P}} (X_ {n} \ leq a) + {\ mathbb {P}} (\ left | X_ {n} -X \ derecha |> \ varepsilon)

Entonces tenemos

{\ mathbb {P}} (X \ leq a- \ varepsilon) - {\ mathbb {P}} (\ left | X_ {n} -X \ right |> \ varepsilon) \ leq {\ mathbb {P}} (X_ {n} \ leq a) \ leq {\ mathbb {P}} (X \ leq a + \ varepsilon) + {\ mathbb {P}} (\ left | X_ {n} -X \ right |> \ varepsilon).

O bien $es$ un punto de continuidad de $F X$ . Fijamos un $ε ' > 0$ real . Por continuidad de $F X$ en $a$ , existe un $ε > 0$ real tal que

{\ Displaystyle | \ mathbb {P} (X \ leqslant a + \ varepsilon) - \ mathbb {P} (X \ leqslant a) | <\ varepsilon '\ mathrm {y} | \ mathbb {P} (X \ leqslant a - \ varepsilon) - \ mathbb {P} (X \ leqslant a) | <\ varepsilon '}

La convergencia de $( X n ) n$ en probabilidad a $X$ , se puede deducir la existencia de un número entero $N$ tal que: si $n$ $\geq$ $N$ . ${\ mathbb {P}} (\ left | X_ {n} -X \ right |> \ varepsilon) <\ varepsilon '$

Donde: . ${\ Displaystyle \ forall n \ in \ mathbb {N}, n \ geqslant N \ Rightarrow | \ mathbb {P} (X_ {n} \ leqslant a) - \ mathbb {P} (X \ leqslant a) | <2 \ varepsilon '}$

Teorema de Slutsky : si $X n$ converge en la ley a $X$ , y si $Y n$ converge en la probabilidad a una constante $c$ , entonces el par $( X n , Y n )$ converge en la ley al par $( X , c )$ .

Convergencia casi segura

Definición : decimos que $X n$ casi seguramente converge a $X$ si

{\ mathbb {P}} \ left (\ lim _ {{n \ rightarrow \ infty}} X_ {n} = X \ right) = 1

o de manera equivalente, si existe un - subconjunto insignificante $N$ $\subset Ω$ tal que $\ mathbb {P}$

\ forall \ omega \ in \ Omega \ setminus N, \ qquad X_ {n} (\ omega) {\ xrightarrow [{n \ to \ infty}] {}} X (\ omega)

También hablamos de convergencia en casi todas partes o con probabilidad 1 o alta , y escribimos

X_ {n} {\ xrightarrow {ps}} X

o, en inglés ( casi seguro )

X_ {n} {\ xrightarrow {as}} X

La convergencia casi segura se reescribe como:

{\ Displaystyle \ forall \ varepsilon> 0, \ qquad \ mathbb {P} \ left (\ liminf _ {n} \ {| X_ {n} -X | <\ varepsilon \} \ right) = 1}

{\ Displaystyle \ forall \ varepsilon> 0, \ qquad \ mathbb {P} \ left (\ limsup _ {n} \ {| X_ {n} -X |> \ varepsilon \} \ right) = 0}

{\ Displaystyle \ liminf _ {n} \ {| X_ {n} -X | <\ varepsilon \}: = \ bigcup _ {N \ in \ mathbb {N}} \ bigcap _ {n \ geq N} \ { | X_ {n} -X | <\ varepsilon \} = \ {| X_ {n} -X | <\ varepsilon \ {\ textrm {a}} \ {\ textrm {inicio}} \ {\ textrm {d ' a}} \ {\ textrm {cierto}} \ {\ textrm {sonó}} \}}

{\ Displaystyle \ limsup _ {n} \ {| X_ {n} -X |> \ varepsilon \}: = \ bigcap _ {N \ in \ mathbb {N}} \ bigcup _ {n \ geq N} \ { | X_ {n} -X |> \ varepsilon \} = \ {| X_ {n} -X |> \ varepsilon \ {\ textrm {infinitamente}} \ {\ textrm {a menudo}}. \}}

Teorema : si $X n$ converge a $X$ casi con seguridad, entonces $X n$ converge a $X$ en probabilidad .

Demostración

Según el lema de Fatou , tenemos para todo $ε > 0$ :

{\ Displaystyle \ liminf _ {n} \ mathbb {P} (| X_ {n} -X | <\ varepsilon) \ geq \ mathbb {P} \ left (\ liminf _ {n} \ {| X_ {n} -X | <\ varepsilon \} \ derecha) = 1}

La convergencia casi segura se usa en la ley fuerte de los grandes números .

Convergencia promedio de orden r

Definición - Sea $r > 0$ y $( X n ) n$ una serie de variables aleatorias reales definidas en el mismo espacio de probabilidad . Decimos que $X$ $n$ converge a $X como$ un promedio de orden r o como una norma L r si para todos $n$ y si $\ left (\ Omega, \ mathcal A, P \ right)$ $E (| X_ {n} | ^ {r}) <+ \ infty$

\ lim _ {{n \ rightarrow \ infty}} E \ left (\ left | X_ {n} -X \ right | ^ {r} \ right) = 0

A veces nos damos cuenta . $X_ {n} {\ xrightarrow {{\ mathbb {L}} ^ {r}}} X$

Para r = 1, simplemente hablamos de convergencia promedio y para r = 2 de convergencia cuadrática media .

Propiedad - Para r > s ≥ 1, la convergencia de la norma implica la convergencia de la norma . ${\ mathbb {L}} ^ {r}$ ${\ mathbb {L}} ^ {s}$

Demostración

Es una aplicación simple de la desigualdad de Jensen con la función convexa $x \ mapsto x ^ {{r / s}}$

Para r = 2, tenemos el siguiente resultado:

Propiedad - Sea $c$ una constante real. Entonces tenemos

X_ {n} {\ xrightarrow {{\ mathbb {L}} ^ {2}}} c

si y solo si

\ lim _ {{n \ to \ infty}} {\ mathbb {E}} [X_ {n}] = c \ qquad {\ text {y}} \ qquad \ lim _ {{n \ to \ infty}} \ operatorname {Var} [X_ {n}] = 0

Demostración

Esto sigue la siguiente identidad:

{\ mathbb {E}} \ left [(X_ {n} -c) ^ {2} \ right] = \ operatorname {Var} (X_ {n}) + \ left ({\ mathbb {E}} [X_ {n}] - c \ right) ^ {2}

Propiedad : si $X n$ converge a $X$ en la norma L r , entonces $X n$ converge a $X$ en probabilidad .

Demostración

Es una aplicación directa de la desigualdad de Markov para variables aleatorias reales que admiten un momento de orden r :

{\ mathbb {P}} \ left (\ left | X_ {n} -X \ right | \ geq \ varepsilon \ right) \ leq {\ frac {\ operatorname {E} [\ left | X_ {n} -X \ right | ^ {r}]} {\ varepsilon ^ {r}}}

Ejemplo:

La ley débil de los grandes números es una consecuencia directa de estas dos últimas propiedades.

Convergencia de una función de una variable aleatoria

Un teorema muy práctico, generalmente referido en inglés como el teorema de mapeo (en) , establece que una función continua $g$ aplicada a una variable que converge a $X$ convergerá $ag$ $($ $X$ $)$ para todos los modos de convergencia:

Teorema - ( Teorema de mapeo ) Sea una función continua en cualquier punto de un conjunto $C$ tal que : $g: \ mathbb {R} ^ {k} \ to \ mathbb {R} ^ {m}$ ${\ mathbb {P}} (X \ en C) = 1$

Si ; $X_ {n} {\ xrightarrow {{\ mathcal {L}}}} X {\ text {luego}} g (X_ {n}) {\ xrightarrow {{\ mathcal {L}}}} g (X)$
Si ; $X_ {n} {\ xrightarrow {p}} X {\ text {luego}} g (X_ {n}) {\ xrightarrow {p}} g (X)$
Sí . $X_ {n} {\ xrightarrow {ps}} X {\ text {luego}} g (X_ {n}) {\ xrightarrow {ps}} g (X)$

Ejemplo:

En estadística , un estimador convergente de la varianza $σ 2$ viene dado por:

s _ {{n-1}} ^ {2} \ equiv {\ frac {1} {n-1}} \ sum _ {{i = 1}} ^ {n} \ left (y_ {i} - \ overline {y} \ right) ^ {2}

Entonces sabemos por el teorema de mapeo continuo que el estimador de la desviación estándar $σ$ $=$ $\sqrt$ $σ$ $2$ $es convergente, porque la función$ $raíz$ $es una función continua.$ ${\ sqrt {s _ {{n-1}} ^ {2}}}$

Implicaciones recíprocas

En resumen, tenemos la cadena de implicaciones entre las diferentes nociones de convergencia de variables aleatorias:

{\ begin {matrix} {\ xrightarrow {L ^ {s}}} & {\ underset {s> r \ geq 1} {\ Rightarrow}} & {\ xrightarrow {L ^ {r}}} && \\ && \ Flecha abajo && \\ {\ xrightarrow {ps}} & \ Rightarrow & {\ xrightarrow {\ p \}} & \ Rightarrow & {\ xrightarrow {\ d \}} \ end {matrix}}

La convergencia en probabilidad no implica convergencia ni convergencia casi segura, como muestra el siguiente ejemplo: ${\ mathbb {L}} ^ {r}$

Ejemplo:

Sea $r > 0$ . Consideramos $( X n ) n \geq 1$ una secuencia de variables aleatorias independientes tales que

{\ mathbb {P}} (X_ {n} = n ^ {{1 / r}}) = {\ frac {1} {n}} \ qquad {\ text {y}} \ qquad {\ mathbb {P }} (X_ {n} = 0) = 1 - {\ frac {1} {n}}

La secuencia $( X n ) n$ converge en probabilidad a 0 porque

\ forall \ varepsilon> 0, \ qquad \ forall n \ geq \ varepsilon, \ qquad {\ mathbb {P}} (| X_ {n} | \ geq \ varepsilon) = {\ mathbb {P}} (X_ {n } = n ^ {{1 / r}}) = {\ frac {1} {n}} \ a 0

Por otro lado, no converge porque ${\ mathbb {L}} ^ {r}$ ${\ mathbb {E}} [X_ {n} ^ {r}] = 1 \ nrightarrow 0$

Demostremos que tampoco es casi seguro que converja. Si este fuera el caso, su límite casi seguro sería necesariamente su límite de probabilidad, a saber 0. Sin embargo, dado que las variables aleatorias $X$ $n$ son independientes, tenemos por la ley de Borel de cero-uno : $\ sum _ {n} {\ mathbb {P}} (X_ {n} = n ^ {{1 / r}}) = + \ infty$

{\ mathbb {P}} \ left (\ limsup _ {n} \ {X_ {n} = n ^ {{1 / r}} \} \ right) = 1

es decir, es casi seguro que $X n = n 1 / r$ para un infinito de $n$ . Por tanto, es casi seguro que A fortiori $X$ $n$ no converja casi con seguridad en 0. $\ limsup _ {n} X_ {n} = + \ infty.$

Ejemplo:

En el ejemplo anterior, para evitar recurrir a la ley cero-uno de Borel, podemos definir explícitamente la secuencia $X n de la$ siguiente manera. Elegimos $Ω = [0; 1]$ provisto de su tribu Boreliana y la medida de Lebesgue . Posamos , para , entonces $a_ {1}: = 0$ $a_ {n}: = {\ frac {1} {2}} + \ cdots + {\ frac {1} {n}} {\ pmod 1}$ $n \ geq 2$

I_ {n}: = \ left \ {{\ begin {matrix} \ left [a _ {{n-1}}, a_ {n} \ right] & {\ text {si}} a _ {{n- 1}} <a_ {n} \\\ izquierda [0, a_ {n} \ right] \ cup \ left [a _ {{n-1}}, 1 \ right] & {\ text {si}} a _ {{n -1}}> a_ {n} \ end {matriz}} \ derecha.

Finalmente definimos

X_ {n} (\ omega): = \ left \ {{\ begin {matrix} n ^ {{1 / r}} & {\ text {si}} \ omega \ in I_ {n} \\ 0 & { \ text {si}} \ omega \ notin I_ {n} \ end {matrix}} \ right.

Las $X n$ así definidas no son independientes pero verifican como en el ejemplo anterior

{\ mathbb {P}} \ left (\ limsup _ {n} \ {X_ {n} = n ^ {{1 / r}} \} \ right) = 1

Con algunas excepciones, estas implicaciones no son recíprocas, estrictamente hablando. Sin embargo, aquí hay algunas propiedades útiles que podrían describirse como "apariencia de recíproco":

Si $X n$ converge en la ley hacia una constante real $c$ , entonces $X n$ converge en probabilidad hacia $c$ .
Si $X n$ converge en probabilidad a $X$ , entonces existe una subsecuencia que converge casi seguramente a $X$ . ${\ Displaystyle X _ {\ sigma (n)}}$
Si $X n$ converge en probabilidad a $X$ , y si para todo $n$ y algo de b , entonces $X$ $n$ converge en promedio de orden $r$ a $X$ para todo $r$ $\geq 1$ . De manera más general, si $X$ $n$ converge en probabilidad a $X$ , y si la familia ( $X$ ${\ Displaystyle \ mathbb {P} (| X_ {n} | \ leq b) = 1}$ $p n$ ) Es uniformemente integrable, entonces $X n$ converge en media de orden p para $X$ .
Si para todo $ε > 0$ ,

$\ sum _ {n} {\ mathbb P} \ left (| X_ {n} -X |> \ varepsilon \ right) <\ infty,$ entonces $X n$ converge casi seguramente a $X$ . En otras palabras, si $X n$ converge en probabilidad a $X$ suficientemente rápidamente ( i . E . Los anteriores serie converge para todo $ε > 0$ ), entonces $X n$ converge casi seguramente como $X$ . Esto resulta de una aplicación directa del teorema de Borel-Cantelli .

Sea $( X n ) n \geq 1$ una secuencia de variables aleatorias reales independientes. Para todo $n$ , establecemos:

$S_ {n} = X_ {1} + \ cdots + X_ {n}$ . Entonces, la convergencia casi segura de la secuencia $( S n ) n \geq 1 es$ equivalente a su convergencia en probabilidad; en otras palabras, la convergencia casi segura de la serie del término general $X n es$ equivalente a su convergencia en probabilidad.

De acuerdo con Skorokhod teorema de representación , si $X n$ converge en distribución a $X$ , entonces hay copias de $X n$ y $X$ , digamos $Y n$ e $Y$ , tal que $Y n$ converge casi seguramente a $Y$ . (Ver Convergencia en ley y función de distribución y en particular (1 → 3).)

Notas y referencias

Para obtener más información sobre este ejemplo, consulte Davidson y McKinnon 1993 , cap. 4.
Vaart 1998 , p. 7.

Bibliografía

(en) Russell Davidson y James McKinnon ( traducido del alemán), Estimación e inferencia en Econometría , Nueva York, Oxford University Press ,1993, 874 p. ( ISBN 978-0-19-506011-9 , LCCN 92012048 ) , pág. 874
(en) GR Grimmett y DR Stirzaker , Probabilidad y procesos aleatorios , Oxford, Clarendon Press,1992, 2 nd ed. ( ISBN 0-19-853665-8 ) , pág. 271-285
(en) Adrianus Willem van der Vaart ( traducción del alemán), Asymptotic Statistics , Cambridge, Cambridge University Press ,1998, 1 st ed. , 443 p. , tapa dura ( ISBN 978-0-521-49603-2 , LCCN 98015176 ) , pág. 443

enlaces externos

[1] : Curso de primer año en la escuela central de París sobre la convergencia de variables aleatorias