Ley normal multidimensional

Distribución normal multidimensional



configuraciones	${\ Displaystyle \ mu = [\ mu _ {1}, \ dots, \ mu _ {N}] ^ {\ top}}$ media ( vector real) matriz de varianza-covarianza ( matriz real positiva definida ) $\ Sigma$ $N \ veces N$
Apoyo	${\ Displaystyle x \ in \ mathbb {R} ^ {N}}$
Densidad de probabilidad	${\ Displaystyle {\ frac {1} {(2 \ pi) ^ {N / 2} \ left \| \ Sigma \ right \| ^ {1/2}}} \; \; e ^ {- {\ frac {1 } {2}} (x- \ mu) ^ {\ top} \ Sigma ^ {- 1} (x- \ mu)}}$
Esperanza	$\ mu$
Mediana	$\ mu$
Moda	$\ mu$
Diferencia	$\ Sigma$
Asimetría	0
Entropía	${\ Displaystyle \ ln \ left ({\ sqrt {(2 \, \ pi \, e) ^ {N} \ left \| \ Sigma \ right \|}} \ right) \!}$
Función generadora de momentos	${\ Displaystyle M_ {X} (t) = \ exp \ left (\ mu ^ {\ top} t + {\ frac {1} {2}} t ^ {\ top} \ Sigma t \ right)}$
Función característica	${\ Displaystyle \ phi _ {X} (t; \ mu, \ Sigma) = \ exp \ left (i \ mu ^ {\ top} t - {\ frac {1} {2}} t ^ {\ top} \ Sigma t \ derecha)}$

Llamamos a la ley normal multidimensional , o normal multivariante o ley multinormal o la ley de Gauss con varias variables , una ley de probabilidad que es la generalización multidimensional de la ley normal .

Mientras que la ley normal clásica está parametrizada por un escalar $μ$ correspondiente a su media y un segundo escalar $σ 2$ correspondiente a su varianza, la ley multinormal está parametrizada por un vector que representa su centro y una matriz semidefinida positiva que es su matriz de varianza. -covarianza . Lo definimos por su función característica , para un vector , ${\ boldsymbol {\ mu}} \ in \ mathbb {R} ^ {N}$ ${\ boldsymbol {\ Sigma}} \ in {\ mathcal {M}} _ {N} (\ mathbb {R})$ ${\ Displaystyle {\ boldsymbol {x}} \ in \ mathbb {R} ^ {N}}$

{\ displaystyle \ phi _ {{\ boldsymbol {\ mu}}, {\ boldsymbol {\ Sigma}}} ({\ boldsymbol {x}}) = \ exp \ left (i {\ boldsymbol {x}} ^ { \ top} {\ boldsymbol {\ mu}} - {\ frac {1} {2}} {\ boldsymbol {x}} ^ {\ top} {\ boldsymbol {\ Sigma}} {\ boldsymbol {x}} \ derecho)}

En el caso no degenerado donde $Σ$ es positivo definido , por lo tanto invertible , la ley normal multidimensional admite la siguiente densidad de probabilidad :

señalando $| X |$ el determinante de $X$ ,

{\ displaystyle f _ {{\ boldsymbol {\ mu}}, {\ boldsymbol {\ Sigma}}} \ left ({\ boldsymbol {x}} \ right) = {\ frac {1} {(2 \ pi) ^ {N / 2} \ left | {\ boldsymbol {\ Sigma}} \ right | ^ {1/2}}} \; \ exp \ left [- {\ frac {1} {2}} \ left ({ \ boldsymbol {x}} - {\ boldsymbol {\ mu}} \ right) ^ {\ top} {\ boldsymbol {\ Sigma}} ^ {- 1} \ left ({\ boldsymbol {x}} - {\ boldsymbol {\ mu}} \ derecha) \ derecha]}

Esta ley generalmente se observa por analogía con la ley normal unidimensional. ${\ displaystyle {\ mathcal {N}} ({\ boldsymbol {\ mu}}, \, {\ boldsymbol {\ Sigma}})}$

Ley no degenerada

Esta sección se enfoca en la construcción de la distribución normal multidimensional en el caso no degenerado donde la matriz de varianza-covarianza $Σ$ es definida positiva.

Recordatorio sobre la ley normal unidimensional

El teorema del límite central muestra una variable gaussiana centrada reducida $U$ (media cero, varianza unitaria):

{\ Displaystyle \ mathbb {E} [U] = 0 \ qquad \ mathbb {E} [U ^ {2}] = 1}

{\ Displaystyle p_ {U} (u) = {\ frac {1} {\ sqrt {2 \ pi}}} \; \; \ mathrm {e} ^ {- {\ frac {1} {2}} u ^ {2}} \,}

Pasamos a la variable gaussiana general cambiando la variable

{\ Displaystyle X = \ sigma U + \ mu \,}

lo que lleva a

{\ Displaystyle \ mathbb {E} [X] = \ mu \ qquad \ mathbb {E} [(X- \ mu) ^ {2}] = \ sigma ^ {2}}

{\ Displaystyle p_ {X} (x) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} \; \; \ mathrm {e} ^ {- {(x- \ mu) ^ {2}} \ over {2 \ sigma ^ {2}}}}

La densidad de esta ley se caracteriza por un exponencial que incluye un exponente de segundo grado.

Ley unitaria con varias variables

Dadas N variables aleatorias independientes con la misma ley de Gauss de centro reducido, su densidad de probabilidad conjunta se escribe:

{\ Displaystyle p_ {U_ {1} ... U_ {N}} (u_ {1}, ..., u_ {N}) = {\ frac {1} {{(2 \ pi)} ^ {N / 2}}} \; \; \ mathrm {e} ^ {- {1 \ over 2} \ sum _ {j = 1} ^ {N} u_ {j} ^ {2}}}

Es la ley que está en la base de la ley de χ² .

Se puede sintetizar en fórmulas matriciales. Primero definimos el vector aleatorio $U$ que tiene las N variables como componentes y el vector de estado $u$ que tiene sus valores digitales como componentes.

Podemos asociar con el vector de estado el vector de media que tiene como componentes las medias de las componentes, es decir, en este caso, el vector cero:

{\ displaystyle \ mathbb {E} [{\ boldsymbol {U}}] = {\ boldsymbol {0}} \,}

La matriz de covarianza tiene elementos diagonales (las varianzas) que son iguales a 1 mientras que los elementos no diagonales (las covarianzas en sentido estricto) son cero: es la matriz unitaria. Se puede escribir usando la transposición:

{\ Displaystyle \ mathbb {E} [{\ boldsymbol {U}} {\ boldsymbol {U}} ^ {\ top}] = {\ boldsymbol {I}} \,}

Finalmente, la densidad de probabilidad se escribe:

{\ Displaystyle p _ {\ boldsymbol {U}} ({\ boldsymbol {u}}) = {\ frac {1} {{{(2 \ pi)} ^ {N / 2}}} \; \; \ mathrm {e} ^ {- {1 \ over 2} {\ boldsymbol {u}} ^ {\ top} {\ boldsymbol {u}}}}

Ley general con varias variables

Se obtiene de un cambio de variable afín

{\ displaystyle {\ boldsymbol {X}} = {\ boldsymbol {a}} {\ boldsymbol {U}} + {\ boldsymbol {\ mu}}}

El problema se limita al caso de que una matriz $sea$ cuadrada (mismo número de variables de salida) y regular. Siendo lineal el operador de expectativa vectorial, obtenemos el vector medio

{\ displaystyle \ mathbb {E} [{\ boldsymbol {X}}] = {\ boldsymbol {a}} \ mathbb {E} [{\ boldsymbol {U}}] + {\ boldsymbol {\ mu}} = { \ boldsymbol {\ mu}} \,}

y la matriz de covarianza

{\ displaystyle \ mathbb {E} [{\ boldsymbol {(X- \ mu)}} {\ boldsymbol {(X- \ mu)}} ^ {\ top}] = \ mathbb {E} [{\ boldsymbol { a}} {\ boldsymbol {U}} {\ boldsymbol {U}} ^ {\ top} {\ boldsymbol {a}} ^ {\ top}] = {\ boldsymbol {a}} {\ boldsymbol {a}} ^ {\ top} = {\ boldsymbol {\ Sigma}} \,}

La densidad de probabilidad está escrita

{\ displaystyle p _ {\ boldsymbol {X}} ({\ boldsymbol {x}}) = {\ frac {1} {{{(2 \ pi)} ^ {N / 2} \ left | {\ boldsymbol { \ Sigma}} \ right | ^ {1/2}}} \; \ mathrm {e} ^ {- {1 \ over 2} {\ boldsymbol {(x- \ mu)}}} ^ {\ top} { \ boldsymbol {\ Sigma}} ^ {- 1} {\ boldsymbol {(x- \ mu)}}}}

Observaciones varias

Un nuevo cambio lineal en las variables aplicadas a $X$ da como resultado una densidad de probabilidad que tiene la misma forma matemática:

{\ displaystyle {\ boldsymbol {Y}} = {\ boldsymbol {b}} {\ boldsymbol {X}} + {\ boldsymbol {\ nu}} = {\ boldsymbol {b}} {\ boldsymbol {a}} { \ boldsymbol {U}} + {\ boldsymbol {b}} {\ boldsymbol {\ mu}} + {\ boldsymbol {\ nu}}}

Las fórmulas esenciales, convenientemente obtenidas del cálculo matricial, se traducen en términos escalares:

{\ Displaystyle X_ {k} = \ sum _ {j = 1} ^ {N} {a_ {kj} U_ {j}} \, (k = 1, N) \,}

{\ Displaystyle p_ {X_ {1} ... X_ {N}} (x_ {1}, ... x_ {N}) = {\ frac {1} {{(2 \ pi)} ^ {N / 2} \ left | {\ boldsymbol {\ Sigma}} \ right | ^ {1/2}}} \; \; \ mathrm {e} ^ {- {1 \ over 2} \ sum _ {j = 1} ^ {N} \ sum _ {k = 1} ^ {N} t_ {jk} (x_ {j} - \ mu _ {j}) (x_ {k} - \ mu _ {k})}}

el $t jk$ siendo los coeficientes de la inversa de la matriz de covarianza.

El exponente de la fórmula anterior es cuadrático con respecto a todas las variables. Se comprueba que una integración con respecto a uno de ellos da un resultado similar. Las integraciones sucesivas ( N -1) conducen a una ley de probabilidad marginal provista de un exponente cuadrático: cada variable es gaussiana, lo que no era obvio a priori .

Combinando las observaciones anteriores, llegamos al resultado según el cual cualquier combinación lineal de los componentes de un vector gaussiano es una variable gaussiana.

En esta ley de probabilidad conjunta, a cualquier par de variables descorrelacionadas le corresponde una matriz de covarianza diagonal, que asegura su independencia. De hecho, la pareja es en sí misma gaussiana y su densidad conjunta es el producto de las densidades de sus dos componentes.
El término presente en el exponencial es el cuadrado de la distancia de Mahalanobis . ${\ Displaystyle \ left ({\ boldsymbol {x}} - {\ boldsymbol {\ mu}} \ right) ^ {\ top} {\ boldsymbol {\ Sigma}} ^ {- 1} \ left ({\ boldsymbol { x}} - {\ boldsymbol {\ mu}} \ right)}$

Distribuciones condicionales

Si , y están particionados como se describe a continuación $X$ $\ mu$ $\ Sigma$

{\ Displaystyle \ mu = {\ begin {bmatrix} \ mu _ {1} \\\ mu _ {2} \ end {bmatrix}} \ quad}

con las dimensiones donde

{\ Displaystyle {\ begin {bmatrix} q \ times 1 \\ p \ times 1 \ end {bmatrix}}}

{\ Displaystyle N = p + q}

{\ Displaystyle \ Sigma = {\ begin {bmatrix} \ Sigma _ {11} & \ Sigma _ {12} \\\ Sigma _ {21} & \ Sigma _ {22} \ end {bmatrix}} \ quad}

con dimensiones

{\ Displaystyle {\ begin {bmatrix} q \ times q & q \ times p \\ p \ times q & p \ times p \ end {bmatrix}}}

${\ Displaystyle X = {\ begin {bmatrix} X_ {1} \\ X_ {2} \ end {bmatrix}} \ sim {\ mathcal {N}} _ {N} \ left (\ mu, \ Sigma \ right )}$

entonces la distribución de condicionalmente a es una distribución normal multidimensional donde $X_ {1}$ ${\ Displaystyle X_ {2} = a}$ ${\ Displaystyle (X_ {1} | X_ {2} = a) \ sim {\ mathcal {N}} _ {q} (\ mu _ {1 | a}, \ Sigma _ {11.2})}$

{\ Displaystyle \ mu _ {1 | a} = \ mu _ {1} + \ Sigma _ {12} \ Sigma _ {22} ^ {- 1} \ left (a- \ mu _ {2} \ right) }

y la matriz de varianza-covarianza se escribe

{\ Displaystyle \ Sigma _ {11.2} = \ Sigma _ {11} - \ Sigma _ {12} \ Sigma _ {22} ^ {- 1} \ Sigma _ {21}.}

Esta matriz es el complemento de Schur de en . ${\ Displaystyle {\ mathbf {\ Sigma} _ {22}}}$ ${\ Displaystyle {\ mathbf {\ Sigma}}}$

Tenga en cuenta que saber que a es $igual a$ cambia la varianza de y que, sorprendentemente, la media también se modifica. Esto hay que compararlo con la situación en la que no conocemos $a$ , en cuyo caso se dispone de distribución . ¡Esto resulta de la condición que no es trivial! $X_ {2}$ $X_ {1}$ $X_ {1}$ ${\ Displaystyle {\ mathcal {N}} _ {q} \ left (\ mu _ {1}, \ Sigma _ {11} \ right)}$ ${\ Displaystyle X \ sim {\ mathcal {N}} _ {N} \ left (\ mu, \ Sigma \ right)}$

La matriz se llama matriz de coeficientes de regresión . ${\ Displaystyle \ Sigma _ {12} \ Sigma _ {22} ^ {- 1}}$

Propiedades

Los isocontornos de una distribución normal multidimensional no singular son elipsoides centrados en la media $μ$ . Las direcciones de los ejes principales de estos elipsoides son los vectores propios de $Σ$ . Los cuadrados de las longitudes relativas de estos ejes están dados por los valores propios asociados con estos vectores propios.

La entropía diferencial de la distribución normal multidimensional está dada por

{\ Displaystyle H \ left (f \ right) = - \ int _ {\ mathbb {R} ^ {N}} f (x) \ ln f (x) \, \ mathrm {d} x}

{\ Displaystyle = {\ frac {1} {2}} \ left (N + N \ ln \ left (2 \ pi \ right) + \ ln \ left | \ Sigma \ right | \ right) \!}

{\ Displaystyle = {\ frac {1} {2}} \ ln \ {(2 \ pi \ mathrm {e}) ^ {N} \ left | \ Sigma \ right | \}}

La divergencia de Kullback-Leibler toma una forma particular en el caso de dos leyes normales multidimensionales y ${\ Displaystyle {\ mathcal {N}} _ {0} (\ mu _ {0}, \ Sigma _ {0})}$ ${\ Displaystyle {\ mathcal {N}} _ {1} (\ mu _ {1}, \ Sigma _ {1})}$

{\ Displaystyle D _ {\ text {KL}} (N_ {0} \ | N_ {1}) = {1 \ over 2} \ left (\ ln \ left ({\ frac {\ left | \ Sigma _ { 1} \ right |} {\ left | \ Sigma _ {0} \ right |}} \ right) + \ mathrm {tr} \ left (\ Sigma _ {1} ^ {- 1} \ Sigma _ {0} \ right) + \ left (\ mu _ {1} - \ mu _ {0} \ right) ^ {\ top} \ Sigma _ {1} ^ {- 1} (\ mu _ {1} - \ mu _ {0}) - N \ derecha).}

La noción de función acumulativa $Φ$ (o función de distribución) de la ley normal en la dimensión 1 se puede generalizar a la ley normal multidimensional. Para hacer esto, el principio clave es la distancia de Mahalanobis : la función acumulativa es la probabilidad de que la variable aleatoria normal caiga en la elipse determinada por su distancia de Mahalanobis $r$ al gaussiano. Existen fórmulas analíticas para calcular los valores de la función acumulativa. ${\ Displaystyle \ Phi _ {n} (r)}$

Simulación

Para simular una ley multinormal cuyos parámetros son conocidos o estimado, es decir, y , buscamos generar una artificiales muestra de vectores independientes de . ${\ Displaystyle {\ boldsymbol {X}} \ sim {\ mathcal {N}} (\ mu, \, \ Sigma)}$ ${\ Displaystyle m \ sim \ mu}$ ${\ Displaystyle C \ sim \ Sigma}$ ${\ boldsymbol {X}}$

Si $C$ no es diagonal , no es posible producir sucesivamente las n variables $X i$ , porque este método no respetaría las covarianzas.

Más bien, el enfoque consiste en expresar el vector $X$ como una combinación lineal de variables escalares independientes de la forma ${\ Displaystyle Y_ {i} \ sim {\ mathcal {N}} (0,1)}$

{\ displaystyle {\ boldsymbol {X}} = m + B {\ boldsymbol {Y}}}

donde $B$ es una matriz cuadrada que satisface la restricción

{\ Displaystyle C = BB ^ {T}.}

Una propiedad de la covarianza muestra en efecto que esto asegura que la restricción de covarianza $es x$ respetados .

Después de determinar $B$ , simplemente generar simulaciones de $Y i$ para (utilizando la relación anterior) versiones independientes del vector $X$ .

Hay varias posibilidades para elegir $B$ :

Si la ley multinormal no es degenerada, la factorización de Cholesky de $C$ (luego la inversión) determina una matriz triangular inferior a $B$ que satisface exactamente la restricción anterior.
En el caso general, $C$ es semidefinido positivo y el método de diagonalización permite caracterizar

{\ Displaystyle C = ODO ^ {T}}

donde

O

es una matriz ortogonal cuyas columnas son vectores propios de

C

, y

D

es una matriz diagonal formada por los valores propios de

C

, todos positivos o cero. Solo tienes que elegir

{\ Displaystyle B = OD ^ {1/2}}

Notas:

Aunque estos enfoques son equivalentes en teoría, el segundo es numéricamente preferible porque exhibe una mejor estabilidad cuando la condición de la matriz de covarianza es "mala".
Muy a menudo, un generador de números pseudoaleatorios repite los valores de una serie limitada (encontramos los mismos resultados después de llegar al final de la serie). Cuidado con este aspecto a la hora de generar un gran número de simulaciones de un vector multinormal de gran tamaño n : la independencia ya no estará garantizada tras el agotamiento de la serie.

Aplicaciones

La ley normal multidimensional se utiliza en particular en el procesamiento de imágenes médicas. Por tanto, se utiliza con frecuencia, por ejemplo, en la formación de imágenes del tensor de difusión . De hecho, estas imágenes modelan la distribución de las principales direcciones de difusión del agua mediante una ley normal multidimensional con media cero. Así, el tensor en cada punto de la imagen no es más que la matriz de covarianza de la ley normal multidimensional.

Una segunda aplicación de la distribución normal multivariada es la determinación, a partir de las intensidades en la RM del cerebro de un paciente, las diferentes clases de tejidos ( sustancia gris , sustancia blanca , líquido cefalorraquídeo ) que lo componen. Esta técnica se basa en el uso de un algoritmo de maximización de expectativas en el que cada una de las clases es modelada por una ley normal multidimensional cuya dimensión es igual al número de modalidades utilizadas para la clasificación.

Notas y referencias

(in) DV Gokhale, NA Ahmed, BC Res, NJ Piscataway, " Estimadores de entropía para expresiones y sus distribuciones multivariantes " , IEEE Transactions on Information Theory , vol. 35, n o 3,Mayo de 1989, p. 688–692
Véase, por ejemplo (en) Michael Bensimhoun , " función acumulativa N-dimensional y otros datos útiles acerca de gaussianas y Normal Densidades " [PDF] ,2006