Regresión espuria

La regresión espuria se refiere a una situación en la que el uso de series de tiempo no estacionarias en una regresión lineal arrojó resultados erróneos demasiado optimistas, quienes creen una relación entre variables mientras que este no es el caso.

Histórico

Granger y Newbold demostraron en 1974 que muchos estudios estadísticos de series de tiempo arrojaban resultados falsos, porque no tenían en cuenta el problema de la autocorrelación de los datos. En efecto, con una fuerte autocorrelación, tanto el índice como las pruebas de los coeficientes tienden a ser demasiado optimistas y a hacer creer en una relación entre las variables que de hecho es sólo falaz .

Explicación

Se desea hacer una regresión lineal entre dos series de tiempo: con un ruido blanco .

Si y son dos variables integradas de orden 1 , la distribución clásica del estimador de coeficientes ya no es según la ley de Student , sino según un movimiento browniano . Sin embargo, el uso de la distribución Student conduce precisamente a estos resultados demasiado buenos.

De hecho, en el caso convencional, la convergencia del estimador de mínimos cuadrados se muestra a partir del hecho de que la matriz de varianza-covarianza de la muestra tiende a la matriz de varianza-covarianza de la población, donde el 'tomamos que Ω â = σ ε ² · ( X  ' X ) −1 . Sin embargo, la varianza de una variable integrada no estacionaria de orden 1 no es fija y, por tanto, el estimador no es convergente en probabilidad, debido a que los propios residuales están integrados de orden 1, como ha demostrado Philips (1986). Como resultado, las pruebas de Student y Fisher también son inadecuadas.

Solución

Hay varias formas de solucionar el problema. Si las variables se integran de orden 1, la serie de sus diferencias será estacionaria (por definición del orden de integración). Entonces es suficiente hacer la regresión sobre las variables de diferencia para que sea válida.

En caso contrario, es posible utilizar un modelo de rezagos distribuidos, es decir, un modelo que también incorpora los rezagos de la variable explicada y la variable explicativa. (Hamilton, 1994, p. 562)

Ejemplo

Una simulación con el software de estadísticas R gratuito ilustra el fenómeno:

Regresión de dos ruidos blancos generados aleatoriamente
Resultado mostrado Código R

Llamar: lm (fórmula = x ~ y)

Derechos residuales de autor

Min 1T Mediana 3T Max
-2.776e + 00 -6.140e-01 -1.208e-03 6.279e-01 3.205e + 00

Coeficientes

Estimar Std. Error valor t Pr (> | t |)
(Interceptar) 0.03447376 0.04348857 0,79270862 0,42832508
y -0.04997771 0.04306249 -1.16058589 0,24636639

Error estándar residual: 0,972 en 498 grados de libertad

R cuadrado múltiple: 0,0027, R cuadrado ajustado: 0,000695

Estadístico F: 1,35 en 1 y 498 DF, valor de p: 0,246

set.seed(123) #Conditionnement du compteur aléatoire pour obtenir les mêmes valeurs que l'exemple x<-rnorm(500) #Simulation d'un bruit blanc y<-rnorm(500) #Simulation d'un bruit blanc summary(lm(x~y)) #Régression linéaire
 

En este ejemplo donde hacemos una regresión de dos ruidos blancos, se rechaza la relación: R 2 = 0.002 7, y la probabilidad de que y = 0 es del 24%.

Regresión de dos paseos aleatorios generados aleatoriamente
Resultado mostrado Código R

Llamar: lm (fórmula = x2 ~ y2)

Derechos residuales de autor

Min 1T Mediana 3T Max
-1.357º + 01 -6.564o + 00 -1.047º + 00 6.846e + 00 1.631e + 01

Coeficientes

Estimar Std. Error valor t Pr (> | t |)
(Interceptar) -1.591223e + 01 7.543316e-01 -2.109447e + 01 4.727110e-71
y2 -5.255336e-01 3.562320e-02 -1.475257e + 01 3.990599e-41

Error estándar residual: 7,49 en 498 grados de libertad

R cuadrado múltiple: 0,304, R cuadrado ajustado: 0,303

Estadístico F: 218 en 1 y 498 DF, valor de p: <2e-16

set.seed(123) #Conditionnement du compteur aléatoire pour obtenir les mêmes valeurs que l'exemple x<-rnorm(500) #Simulation d'un bruit blanc y<-rnorm(500) #Simulation d'un bruit blanc x2<-cumsum(x) #Génération d'une marche aléatoire à partir du bruit blanc : somme cumulée y2<-cumsum(y) #idem summary(lm(x2~y2)) #Régression linéaire
 

Observamos aquí, por otro lado, que la regresión de paseos aleatorios , que son procesos integrados de orden 1, sugiere una relación significativa: el coeficiente R 2 = 0.304, y la probabilidad de que y sea cero es menor que 0.000 000 1%, que sugeriría que existe una relación entre las variables. El estadístico de Fisher, que prueba si la regresión per se tiene sentido, también es muy rechazado.

Regresión de las diferencias de dos paseos aleatorios generados aleatoriamente
Resultado mostrado Código R

Llamar: lm (fórmula = x3 ~ y3)

Derechos residuales de autor

Min 1T Mediana 3T Max
-3.503o + 00 -6,791e-01 -9.397e-03 6.483e-01 3,133e + 00

Coeficientes

Estimar Std. Error valor t Pr (> | t |)
(Interceptar) 0,009479887 0.046269837 0.204882665 0.837747679
y3 0.091363533 0.048239919 1,893940415 0.058813318

Error estándar residual: 1.03 en 497 grados de libertad

R-cuadrado múltiple: 0,00717, R-cuadrado ajustado: 0,00517

Estadístico F: 3,59 en 1 y 497 DF, valor de p: 0,0588

set.seed(123) #Conditionnement du compteur aléatoire pour obtenir les mêmes valeurs que l'exemple x<-rnorm(500) #Simulation d'un bruit blanc y<-rnorm(500) #Simulation d'un bruit blanc x2<-cumsum(x) #Génération d'une marche aléatoire à partir du bruit blanc : somme cumulée y2<-cumsum(y) #idem x3<-diff(x2) #Série des différences de la marche aléatoire y3<-diff(y2) #idem summary(lm(x3~y3)) #Régression linéaire
 

Cuando retrocedemos las diferencias de los paseos aleatorios, ya no tenemos el problema de una relación aparente: los estadísticos de Fisher y Student son menos rechazados y sobre todo el coeficiente R 2 es igual a 0,007 17, lo que lleva a la conclusión de no existe relación entre estas variables.

Notas y referencias

  1. Granger, CWJ, Newbold, P. (1974): "Regresiones espurias en econometría", Journal of Econometrics , 2, 111-120

Ver también

Bibliografía

Artículos relacionados

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">