Covarianza

En teoría de probabilidad y estadística , la covarianza entre dos variables aleatorias es un número que permite cuantificar sus desviaciones conjuntas de sus respectivas expectativas . También se utiliza para dos series de datos numéricos (desviaciones de las medias ). La covarianza de dos variables aleatorias independientes es cero, aunque lo contrario no siempre es cierto.

La covarianza es una extensión de la noción de varianza . La correlación es una forma de covarianza normalizada (la dimensión de la covarianza entre las dos variables es el producto de sus dimensiones, mientras que la correlación es una variable adimensional ).

Este concepto se generaliza naturalmente a varias variables ( vector aleatorio ) mediante la matriz de covarianza (o matriz de varianza-covarianza ) que, para un conjunto de p variables aleatorias reales X 1 , etc., X p es la matriz cuadrada cuyo l 'elemento de la fila iy la columna j es la covarianza de las variables X i y X j . Esta matriz permite cuantificar la variación de cada variable frente a cada una de las demás. La forma normalizada de la matriz de covarianza es la matriz de correlación .

Por ejemplo, la dispersión de un conjunto de puntos al azar en un espacio de dos dimensiones no puede ser totalmente caracterizado por un único número, ni por las varianzas en las x y Y direcciones solos  ; una matriz de 2 × 2 permite comprender completamente la naturaleza bidimensional de las variaciones.

La matriz de covarianza de ser un semi-positiva definida matriz , se puede diagonalizar y el estudio de los valores propios y los vectores propios hace que sea posible para caracterizar la distribución utilizando una base ortogonal  : este enfoque es el objeto de la análisis de componentes principales que puede ser visto como una tipo de compresión de información.

Definición de covarianza

La covarianza de dos variables aleatorias reales X e Y, cada una con una varianza (finita), denominada Cov ( X, Y ) o, a veces, σ XY , es el valor:

Definición  - 

donde denota la expectativa matemática . Por tanto, la varianza de X es Var ( X ) = Cov ( X , X ).

Intuitivamente, la covarianza caracteriza las variaciones simultáneas de dos variables aleatorias: será positiva cuando las diferencias entre las variables y sus medias tiendan a ser del mismo signo, negativa en caso contrario.

Según su expresión de definición, la dimensión de la covarianza es el producto de las dimensiones de las variables. Por otro lado, la correlación , que se expresa mediante la varianza y la covarianza, toma sus valores en [-1, 1] y permanece adimensional.

Se dice que dos variables aleatorias cuya covarianza es cero no están correlacionadas: su correlación también es cero.

Para dos variables aleatorias discretas X e Y tomando sus valores respectivamente en dos conjuntos finitos y tenemos

mientras que:

Definición de la matriz de covarianza

La matriz de covarianza de un vector de p variables aleatorias , cada una de las cuales tiene una varianza, es la matriz cuadrada cuyo término genérico está dado por

La matriz de covarianza, a veces notada , se define por

Definición  - 

Ampliando los términos:

Propiedades de covarianza

Una generalización del teorema de König-Huygens para la varianza implica:

Propiedad  - 

Corolario  :  si X e Y son independientes, entonces .

Por lo general, lo contrario no es cierto.

Contraejemplo

Basta encontrar dos variables X e Y con covarianza nula y que no sean independientes. Sea z una variable discreta que puede tomar los valores 1 o -1 de forma equiprobable (según una ley de Rademacher ).

Sea X cualquier variable aleatoria independiente de z . Entonces X e Y = z X claramente no son independientes. sin emabargo

Propiedades  - 

Bilinealidad de covarianza:

Propiedad  - 

Esto refleja el hecho de que la covarianza es una forma bilineal simétrica positiva y que la forma cuadrática asociada es la varianza.

Corolario  - 

Esta fórmula es análoga a . De hecho, la mayoría de las propiedades de la covarianza son análogas a las del producto de dos reales o del producto escalar de dos vectores.

Propiedad  - 

Esta fórmula es clásica para una forma cuadrática asociada con una forma bilineal simétrica .

Propiedades de la matriz de covarianza

Estimar

A partir de una muestra de realizaciones independientes de un vector aleatorio, un estimador insesgado de la matriz de covarianza viene dado por

donde está el vector de medios empíricos.

El estimador de la covarianza de dos variables X e Y es solo un caso especial:

Sin embargo, cuando X sigue una distribución normal multidimensional , el estimador de máxima verosimilitud es:

En el caso de que los datos se generen mediante una ley normal multidimensional, el estimador de máxima verosimilitud sigue una ley de Wishart .

La prueba de esfericidad de Bartlett para juzgar si los coeficientes extradiagonales de la matriz son generalmente inexistentes.

Para los procesos estocásticos que se ocupan de la evolución de una variable aleatoria, la covarianza da paso a los conceptos de autocovarianza y autocorrelación , y para estimar la densidad espectral para procesos estacionarios .

Ejemplos de

Si X es un proceso isotrópico centrado en ℝ d , la autocorrelación isotrópica satisface ρ (‖ h ‖) ≥  −1 ⁄ d .

Uso en estadísticas

La matriz de covarianza es una herramienta esencial para el análisis multivariado  :

Otras aplicaciones

El conocimiento de las covarianzas suele ser esencial en las funciones de estimación , filtrado y suavizado . En fotografía , permiten alcanzar el enfoque dramáticamente borroso correcto y el desenfoque de movimiento, lo cual es extremadamente importante para las imágenes astronómicas. También se utilizan automáticamente . En sociolingüística , la covarianza designa la correspondencia entre la pertenencia a una determinada clase social y un determinado lenguaje inherente a esta condición social. Las matrices de covarianza se utilizan para métodos de análisis de descomposición ortogonal de kriging y valor propio . Finalmente, todavía se usa en finanzas para juzgar si dos inversiones tienden a evolucionar en la misma dirección, en direcciones opuestas, o si sus valores no están vinculados.

Ver también

Notas y referencias

  1. Se supone que las variables pertenecen al espacio vectorial de variables aleatorias integrables cuadradas.