Multicolinealidad

En un análisis de regresión, la multicolinealidad se produce cuando dos o más variables predictoras (variables independientes) muestran una alta correlación. Esto puede hacer que los coeficientes de regresión sean inestables y dejen de ser interpretables.

¿Por qué es un problema la multicolinealidad?

La multicolinealidad es un problema porque distorsiona la significación estadística de la variable independiente.

Uno de los principales objetivos de la regresión es determinar la relación de cada variable independiente con la variable dependiente. Sin embargo, cuando las variables están muy correlacionadas, puede que ya no sea posible determinar exactamente qué influencia proviene de cada variable. Así, los valores p de los coeficientes de regresión ya no pueden interpretarse.

Con la multicolinealidad, los coeficientes de regresión pueden variar mucho cuando los datos cambian muy ligeramente o se añaden nuevas variables.

¿La multicolinealidad es siempre un problema?

La multicolinealidad sólo afecta a las variables independientes que están altamente correlacionadas. Si le interesan otras variables que no presentan multicolinealidad, puede interpretarlas normalmente.

Si utiliza el modelo de regresión para hacer una predicción, la multicolinealidad no afecta al resultado de la predicción. La multicolinealidad sólo afecta a los coeficientes individuales y al valor p.

¿Cómo evitar la multicolinealidad?

Para evitar la multicolinealidad, no debe existir una dependencia lineal entre los predictores; así ocurre, por ejemplo, cuando una variable es el múltiplo de otra. En este caso, como las variables están perfectamente correlacionadas, una variable explica el 100% de la otra y no hay valor añadido en tomar ambas variables en un modelo de regresión. Si no hay correlación entre las variables independientes, entonces no hay multicolinealidad.

En realidad, casi nunca se da una correlación lineal perfecta, por lo que se habla de multicolinealidad cuando las variables individuales están muy correlacionadas entre sí. Y en este caso el efecto de las variables individuales no puede separarse claramente de las demás.

Hay que tener en cuenta que los coeficientes de regresión ya no pueden interpretarse de forma significativa, pero la predicción con el modelo de regresión es posible.

Prueba de multicolinealidad

Dado que siempre hay cierta multicolinealidad en un conjunto de datos determinado, se introdujeron ratios para indicar la multicolinealidad. Para comprobar la multicolinealidad, se crea un nuevo modelo de regresión para cada variable independiente. En estos modelos de regresión, la variable dependiente original se deja fuera y una de las variables independientes se convierte en la variable dependiente en cada caso.

De este modo, se comprueba hasta qué punto una variable independiente puede ser representada por las demás variables independientes. Si una variable independiente puede estar muy bien representada por las demás variables independientes, es un signo de multicolinealidad.

Por ejemplo, si x1 puede estar completamente compuesta por las otras variables, entonces el modelo de regresión no puede saber qué es b1 o cuáles deben ser los otros coeficientes. En matemáticas decimos que la ecuación está sobredeterminada.

Valor de tolerancia

Para saber si existe multicolinealidad, se considera, por un lado, la tolerancia de los predictores individuales. La tolerancia _Ti para el predictor i. se calcula con

Para calcular _Ri2, se crea un nuevo modelo de regresión, como se ha comentado anteriormente. Este modelo contiene todos los predictores, por lo que el predictor i. se utiliza como nuevo criterio (variable dependiente). De este modo, se puede determinar hasta qué punto el predictor i. puede ser representado por los demás predictores.

Un valor de tolerancia (T) inferior a 0.1 se considera crítico y la multicolinealidad está presente. En este caso, más del 90% de la varianza puede ser explicada por los otros predictores.

Multicolinealidad VIF

Otra medida utilizada para comprobar la multicolinealidad es el VIF (Factor de Inflación de la Varianza). La estadística VIF se calcula mediante

Cuanto más alto sea el valor del VIF, más probable es que haya multicolinealidad. En la prueba VIF, los valores superiores a 10 se consideran críticos. Por lo tanto, el valor del VIF aumenta con el incremento de la multicolinealidad.