Proceso de Galton-Watson

El proceso de ramificación (o proceso de Bienaymé-Galton-Watson ) es un proceso estocástico utilizado para describir la dinámica de la población .

Histórico

Originalmente, este modelo fue introducido por Bienaymé en 1845 e independientemente por Galton en 1873 para estudiar la desaparición de los apellidos .

Supongamos que cada varón adulto transmite su apellido a cada uno de sus hijos. Supongamos también que el número de hijos de cada hombre es una variable aleatoria entera (y que la distribución de probabilidad es la misma para todos los hombres de un linaje ). Por lo tanto, un patronímico cuyos portadores tienen un número de hijos estrictamente inferior a 1 en promedio está destinado a desaparecer. Por el contrario, si el número medio de hijos es superior a 1, entonces la probabilidad de supervivencia de este nombre es distinta de cero y, en caso de supervivencia, el número de portadores del apellido crece exponencialmente.

Formulación general

Se asume que existe una población de individuos que se reproducen de forma independiente. Cada individuo i da a luz a individuos y muere. Suponemos que son variables aleatorias independientes con valores enteros siguiendo la distribución Por ejemplo,

Notación  :  la función generadora asociada con la distribución de probabilidad definida por:

es de particular importancia en la discusión de los resultados esenciales de los procesos de Galton-Watson.

Parámetro crítico y clasificación de los procesos de Galton-Watson

Tenga en cuenta el tamaño de la población en la enésima generación. A menudo se asume que la población tiene un solo ancestro , lo que resulta en

El número

denota el número medio de hijos de un individuo típico de la población considerada. La evolución del tamaño medio de la población se rige por la siguiente fórmula de recurrencia, consecuencia de la fórmula de Wald  :

de lo que se sigue que

Definición  -  Si, a partir de cierto rango, todos los términos de la secuencia son cero, decimos que hay extinción de la población.

Clasificación de los procesos de Galton-Watson  :  hay dos regímenes separados por un valor crítico del parámetro :

Notación de sobrino

La notación de Neveu permite una descripción rigurosa de la evolución de la población utilizando un árbol plano enraizado , que es de hecho el árbol genealógico de esta población. Este árbol plano enraizado se puede describir sin ambigüedades por la lista de sus vértices, cada uno designado por una serie finita de números enteros, que son las posiciones, dentro de sus hermanos, de los antepasados ​​(o ascendentes) de este vértice: el vértice 2 | 4 | 3 designa el 3 rd  hijo del 4 º  hijo de la 2 nd  hijo del ancestro (el antepasado sí mismo siendo designan a continuación vaciar, observado ). Por convención, el antepasado es el vértice inicial del borde de la raíz y el vértice final del borde de la raíz es el hijo mayor del antepasado: como tal, por lo tanto, se denota por 1 . La longitud de la secuencia asociada a un vértice es la altura (o profundidad ) del vértice, es decir, la distancia entre este vértice y el comienzo de la raíz, que representa al antepasado: siguiendo la metáfora , un vértice de altura n representa una individuo perteneciente a la enésima generación de la población fundada por el antepasado. Los 5 árboles con 3 aristas:

Catalan3trees.png



son descritos por los 5 conjuntos de palabras

Con esta notación, un árbol plano codifica convenientemente una realización del proceso de Galton-Watson con extinción: este árbol se llama entonces árbol de Galton-Watson . Nada se opone a definir un árbol plano infinito utilizando la notación de Neveu, que permite codificar las realizaciones de los procesos de Galton-Watson donde la población no se extingue.

Ejemplo:

El árbol de la figura opuesta corresponde a una serie de variables aleatorias definidas de la siguiente manera:


Así, un proceso de Galton-Watson puede verse como un funcional determinista de una familia de variables aleatorias independientes y de la misma ley la variable que designa la descendencia del individuo i (el número de hijos a los que dan a luz al morir). Aquí denota el conjunto (contable) de secuencias de números enteros de longitudes finitas (posiblemente de longitud cero en el caso de ):


Ejemplo:

Algunas variables aleatorias en la secuencia no influyen en el proceso de Galton-Watson: en el ejemplo opuesto, o no tienen importancia porque el antepasado tiene estrictamente menos de 4 hijos ( ) y el individuo 12 tiene estrictamente menos de 6 hijos ( ). De manera similar individuos descendencia de la 5 ª  generación ( correspondiente a suites i longitud 5) no influyen en la realización del proceso de Galton-Watson como la población murió en el 4 °  generación ( ).

Estudio detallado del tamaño de las generaciones

Tenga en cuenta la función generadora de la variable aleatoria definida por

Vamos a posar

donde las X i son variables aleatorias independientes, todas de derecho  ; es el k- ésimo poder convolucional de la ley

En virtud de la propiedad de composición de las funciones generadoras , tenemos la siguiente relación:

Relación fundamental de recurrencia  -  Demostración

Para poder aplicar la propiedad de composición de las funciones generadoras , es necesario estar convencido de que (el número de la n + 1ª generación) tiene la misma ley que la suma de variables aleatorias independientes, todas de ley e independientes de por supuesto, es la suma de la descendencia de los individuos pertenecientes a la n º generación, pero, a diferencia del contexto de la propiedad de la composición de generación de funciones , no elegimos los primeros términos de una sucesión de variables aleatorias iid indexado por  : la calificación Neveu , por ejemplo, se indexa la secuencia de variables aleatorias iid y las variables de la secuencia que intervienen en la suma se eligen de acuerdo con la historia completa de la población, hasta la n -ésima generación (no incluida). Una vez que estamos convencidos de que, a pesar de esto, (el número de la n + 1ª generación) tiene la misma ley que la suma de variables aleatorias independientes, todas de ley e independientes de, deducimos que

Demostración

Un enunciado preciso utiliza la noción de ley condicional  : para poder aplicar la propiedad de composición de funciones generadoras , debemos verificar que, para cualquier k , la ley condicional de conocer el evento es la ley de la suma de k independientes variables aleatorias, toda la ley descrita por Para verificar esto, tenemos que calcular la ley condicional conociendo un evento más preciso que, es decir, conociendo la composición exacta de la n -ésima generación. Sea L un conjunto de elementos de Denotemos el evento:

En particular, se conocen los ancestros de los individuos pertenecientes a L , proporcionando así información sobre las generaciones 1, 2, ... hasta la generación n-1 . Observamos que el evento pertenece a la tribu generada por la familia de donde i es una secuencia de longitud menor o igual a n-1 . Por otro lado,

Dado que L es disjunto del conjunto de secuencias de longitud menor o igual que n-1 , el lema de agrupación implica que

Esta última probabilidad depende pero, sobre todo, depende de L solo a través de su cardinal Entonces, en cuanto

en virtud de una variante de la fórmula de probabilidad total . Por cierto, esto muestra que la secuencia tiene la propiedad de Markov . Más precisamente, es una cadena de Markov homogénea de probabilidad de transición.

Darse cuenta de que

deducimos, por inducción, que

luego la relación de recurrencia fundamental. También podemos obtener esta relación de manera más directa, descomponiendo de manera diferente (como la suma de X copias de en lugar de como la suma de copias de X ).

Notas: luego se sigue de la fórmula para la derivación de funciones compuestas .

Caso demasiado crítico

En el caso demasiado crítico, el tamaño de la población crece exponencialmente en un conjunto bastante grande.

Teorema  :  si la ley de la descendencia es integrable, con media m > 1, entonces existe una variable aleatoria M tal que, casi con seguridad,

Si, además, la ley de la descendencia es cuadrática integrable, entonces además, converge a M en L 2 .

Se pueden obtener resultados más precisos gracias al teorema de Kesten-Stigum .

Demostración

Sea una familia independiente e idénticamente distribuida de variables aleatorias de distribución , de media . Definimos filtración:

Entonces el proceso definido por inducción por:

es un proceso de Galton-Watson de ley de reproducción . Luego definimos el proceso:

que es una - martingala . En efecto,

lo que resulta en

Como es una martingala positiva, es casi seguro que converja en una variable aleatoria real.

Si además asumimos eso , podemos demostrar que el conjunto es de medida positiva, y que es casi seguro que es igual al conjunto de no extinción del árbol De hecho, en este caso, un cálculo por inducción muestra que está acotado en We entonces deducir la convergencia de versos . Entonces tenemos, en particular,

En consecuencia, en un conjunto de medidas distintas de cero.

Entonces, casi con certeza, es una buena aproximación, al primer orden, del número de individuos de la generación al menos en el conjunto que tiene una probabilidad distinta de cero.

Un cálculo explícito

Hay bastantes ejemplos en los que la fórmula de recurrencia fundamental conduce a un cálculo explícito de El ejemplo más conocido es aquel en el que la ley de reproducción es una mezcla de la masa de Dirac en 0 y la ley geométrica ,

de esperanza

Esto corresponde exactamente a las funciones generadoras que son homografías  :

De acuerdo con la clasificación de homografías en función del número de puntos fijos, la homografía se combina con mapeos cuyas iteraciones se calculan simplemente, es decir a en casos no críticos (dos puntos fijos, 1 y ) y a en el caso crítico ( un punto fijo doble, 1).

Caso no crítico

Tan pronto como encontremos, por diagonalización de un mapa lineal asociado a la homografía

lo que provoca

y conduce a un cálculo explícito de

Caso critico

El caso es el caso crítico que encontramos, siempre razonando sobre un mapa lineal (no diagonalizable) asociado a la homografía

Entonces

Finalmente es una homografía:

que corresponde a la siguiente elección de parámetros :

Aquí T denota la fecha de extinción , es decir, el número de la primera generación vacía.

Probabilidad de extinción

Teorema  :  la probabilidad de extinción de un proceso de Galton-Watson con una distribución de descendencia es la solución más pequeña, en el intervalo [0,1] , de la ecuación:

Demostración

Esto resulta de lo que

de donde se sigue, por propiedad del límite creciente , que

Además la continuación

está definido por (char ), y por la relación de recurrencia

lo que lleva a ver como un punto fijo de φ .

Para probar la relación de recurrencia en , observemos que

Entonces

Ahora, suponga que hay un punto fijo de en el intervalo [0,1] . Entonces, siendo la función creciente en el intervalo [0,1] , entra entonces, por inducción, Pero, por un lado, (que se puede reescribir ), por otro lado Así, la secuencia es creciente y aumentada en 1, por lo tanto convergente. Además, hemos visto que la secuencia está limitada por cualquier punto fijo de pertenencia al intervalo [0,1] . Por tanto, el límite de la secuencia también se incrementa en cualquier punto fijo de pertenencia al intervalo [0,1] . Pero como la función es continua en el intervalo [0,1] , su límite es uno de los puntos fijos de la función y por tanto, necesariamente, el más pequeño de ellos.

Como es toda una serie de radio de convergencia al menos igual a 1, con coeficientes positivos o cero, es convexa (e incluso estrictamente convexa si p 0 + p 1 <1 ), e indefinidamente diferenciable en el intervalo ] 0.1 [ , y por lo tanto tiene como máximo 2 puntos fijos en el intervalo [0,1] , a menos que en 2007 se haya probado un teorema análogo sobre mapas planos aleatorios (una generalización natural de árboles aleatorios).

Ejemplo:

Más generalmente

Teorema  :  hay 3 casos:

Demostración

Esto resulta de lo que

En efecto :

El comportamiento del proceso de Galton-Watson en los casos subíndices y supercríticos corresponde a la intuición. Por otro lado, el comportamiento del proceso de Galton-Watson en el caso crítico aleatorio (la extinción es cierta) es radicalmente diferente del comportamiento del proceso de Galton-Watson en el caso crítico determinista (cada individuo tiene exactamente un hijo y el la extinción es imposible).

También para ver

Notas

  1. "  Tres artículos sobre la historia de los procesos de ramificación  " , en stat.washington.edu (consultado el 23 de marzo de 2018 )
  2. Jacques Neveu , "  Árboles y procesos de Galton-Watson  ", Ann. del PHI , vol.  22, n o  21986( leer en línea ) (sección 2)
  3. (en) H. Kesten y BP Stigum , "  Un teorema del límite para los procesos multidimensionales de Galton-Watson  " , The Annals of Mathematical Statistics , vol.  37, n o  5,Octubre de 1966, p.  1211-1223 ( leer en línea )
  4. (in) Krishna B. Athreya , "  Una prueba simple de un resultado de Kesten y Stigum en el proceso de ramificación de Galton-Watson multitipo supercrítico  " , The Annals of Mathematical Statistics , vol.  41, n o  1,Febrero de 1970, p.  195-202 ( leer en línea )
  5. (en) Jean-François Marckert y Gregory Miermont , "  Principios de invariancia para mapas planos bipartitos aleatorios  " , Ann. Probab. , vol.  35, n o  5,2007, p.  1642-1705 ( DOI  10.1214 / 009117906000000908 , leer en línea ), Proposición 1.

Bibliografía

Enlaces útiles

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">