Regresión lineal
¿Qué es un análisis de regresión lineal?
El análisis de regresión lineal se utiliza para crear un modelo que describa la relación entre una variable dependiente y una o más variables independientes. Dependiendo de si hay una o más variables independientes, se distingue entre análisis de regresión lineal simple y múltiple.
En el caso de una regresión lineal simple, el objetivo es examinar la influencia de una variable independiente sobre una variable dependiente. En el segundo caso, el de una regresión lineal múltiple, se analiza la influencia de varias variables independientes sobre una variable dependiente.
En la regresión lineal, los requisitos previos importantes son que la escala de medida de la variable dependiente sea métrica y que exista una distribución normal. Si la variable dependiente es categórica, se utiliza una regresión logística. Puedes realizar fácilmente un análisis de regresión en la calculadora de regresión lineal aquí en DATAtab.
Ejemplo: Regresión lineal simple
¿Influye la altura en el peso de una persona?
Ejemplo: Regresión lineal múltiple
¿Influyen la altura y el sexo en el peso de una persona?
- Variable dependiente
- Variables independientes
Regresión lineal simple
El objetivo de una regresión lineal simple es predecir el valor de una variable dependiente a partir de una variable independiente. Cuanto mayor sea la relación lineal entre la variable independiente y la variable dependiente, más precisa será la predicción. Esto va unido al hecho de que cuanto mayor sea la proporción de la varianza de la variable dependiente que puede explicar la variable independiente, más exacta será la predicción. Visualmente, la relación entre las variables puede mostrarse en un diagrama de dispersión. Cuanto mayor sea la relación lineal entre las variables dependiente e independiente, más se situarán los puntos de datos en una línea recta.
La tarea de la regresión lineal simple consiste en determinar exactamente la línea recta que mejor describe la relación lineal entre la variable dependiente y la independiente. Para determinar esta línea recta, que se trazará en el diagrama de dispersión, la regresión lineal utiliza el método de los mínimos cuadrados.
La recta de regresión puede describirse mediante la siguiente ecuación:
Definición de los "Coeficientes de regresión":
- a: punto de intersección con el eje y
- b: pendiente de la recta
ŷ es la estimación respectiva del valor y. Esto significa que para cada valor x se estima el valor y correspondiente. En nuestro ejemplo, esto significa que la altura de las personas se utiliza para estimar su peso.
Si todos los puntos (valores medidos) estuvieran exactamente en una línea recta, la estimación sería perfecta. Sin embargo, casi nunca es así y, por tanto, en la mayoría de los casos hay que encontrar una línea recta que se aproxime lo más posible a los puntos de datos individuales. Así pues, se intenta que el error en la estimación sea lo más pequeño posible, de modo que la distancia entre el valor estimado y el valor real sea lo menor posible. Esta distancia o error se denomina "residuo", se abrevia como "e" (error) y se puede representar con la letra griega épsilon (ϵ).
Al calcular la recta de regresión, se intenta determinar los coeficientes de regresión (a y b) de modo que la suma de los residuos al cuadrado sea mínima. (MCO- "Mínimos cuadrados ordinarios")
El coeficiente de regresión b puede tener ahora distintos signos, que pueden interpretarse del siguiente modo
- b > 0: existe una correlación positiva entre x e y (a mayor x, mayor y)
- b< 0: existe una correlación negativa entre x e y (cuanto mayor es x, menor es y)
- b = 0: no hay correlación entre x e y
Los coeficientes de regresión estandarizados suelen designarse con la letra "beta". Son valores comparables entre sí. Aquí ya no importa la unidad de medida de la variable. El coeficiente de regresión estandarizado (beta) es emitido automáticamente por DATAtab.
Regresión lineal múltiple
A diferencia de la regresión lineal simple, la regresión lineal múltiple permite considerar más de dos variables independientes. El objetivo es estimar una variable en función de otras variables. La variable que hay que estimar se llama variable dependiente (criterio). Las variables que se utilizan para la predicción se denominan variables independientes (predictores).
La regresión lineal múltiple se utiliza con frecuencia en la investigación social empírica, así como en los estudios de mercado. En ambos ámbitos interesa averiguar qué influencia tienen distintos factores en una variable. Por ejemplo, ¿qué factores determinantes influyen en la salud de una persona o en su comportamiento de compra?
Ejemplo de marketing:
Para un servicio de vídeos en streaming debes predecir cuántas veces al mes una persona visualiza vídeos. Para ello, obtienes un registro de los datos del usuario (edad, ingresos, sexo, ...).
Ejemplo médico:
Quieres averiguar qué factores influyen en el nivel de colesterol de los pacientes. Para ello analizas un conjunto de datos de pacientes con el nivel de colesterol, la edad, las horas de deporte a la semana, etc.
La ecuación necesaria para el cálculo de una regresión múltiple se obtiene con k variables dependientes tal que:
Los coeficientes pueden interpretarse ahora de forma similar a la ecuación de regresión lineal. Si todas las variables independientes son 0, el valor resultante es a. Si una variable independiente cambia en una unidad, el coeficiente asociado indica en cuánto cambia la variable dependiente. Así, si la variable independiente xi aumenta una unidad, la variable dependiente y aumenta bi.
Regresión múltiple frente a regresión multivariante
No hay que confundir la regresión múltiple con la regresión multivariante. En el primer caso, se examina la influencia de varias variables independientes sobre una variable dependiente. En el segundo caso, se calculan varios modelos de regresión para poder sacar conclusiones sobre varias variables dependientes. Por consiguiente, en una regresión múltiple se tiene en cuenta una variable dependiente, mientras que en una regresión multivariante se analizan varias variables dependientes.
Coeficiente de determinación
Para averiguar hasta qué punto el modelo de regresión puede predecir o explicar la variable dependiente, se utilizan dos medidas principales. Por un lado, el coeficiente de determinación R2 y, por otro, el error estándar de estimación. El coeficiente de determinación R2, también conocido como explicación de la varianza, indica cuán grande es la parte de la varianza que pueden explicar las variables independientes. Cuanta más varianza pueda explicarse, mejor es el modelo de regresión. Para calcular R2, se relaciona la varianza del valor estimado con la varianza de los valores observados:
R2 ajustado
El coeficiente de determinación R2 está influido por el número de variables independientes utilizadas. Cuantas más variables independientes se incluyan en el modelo de regresión, mayor será la resolución de la varianza R2. Para tener esto en cuenta, se utiliza el R2 ajustado.
Error estándar de estimación
El error estándar de estimación es la desviación estándar del error de estimación. Da una idea de cuánto difiere la predicción del valor correcto. Interpretado gráficamente, el error estándar de estimación es la dispersión de los valores observados en torno a la recta de regresión.
El coeficiente de determinación y el error estándar de estimación se utilizan tanto para la regresión lineal simple como para múltiple.
Coeficiente de regresión estandarizado y no estandarizado
El coeficiente de regresión puede representarse como coeficiente de regresión estandarizado o no estandarizado. Los coeficientes de regresión no estandarizado son los coeficientes que se utilizan en la ecuación de regresión y se abrevian b.
Los coeficientes de regresión estandarizados se obtienen multiplicando el coeficiente de regresión bi por la desviación típica de la variable dependiente Sxi y dividiendo por la desviación típica de la variable independiente respectiva Sy.
Supuestos de la regresión lineal
Para interpretar con sentido los resultados del análisis de regresión, deben cumplirse ciertas condiciones.
- Linealidad: Debe existir una relación lineal entre las variables dependiente e independiente.
- Homocedasticidad: Los residuos deben tener una varianza constante.
- Normalidad: Error distribuido normalmente.
- No multicolinealidad: Ninguna correlación elevada entre las variables independientes
- Sin autocorrelación: El componente de error no debe tener autocorrelación
Linealidad
En la regresión lineal, se traza una línea recta a través de los datos. Esta línea recta debe representar todos los puntos lo mejor posible. Si los puntos se distribuyen de forma no lineal, la línea recta no puede cumplir esta tarea.
En el gráfico superior izquierdo, hay una relación lineal entre la variable dependiente y la independiente, y por lo tanto la recta de regresión puede tener sentido. En el gráfico de la derecha puedes ver que existe una relación claramente no lineal entre la variable dependiente y la independiente. Por tanto, no es posible dibujar la recta de regresión a través de los puntos de forma significativa. Por este motivo los coeficientes no pueden ser interpretados de forma significativa por el modelo de regresión y podría haber errores en la predicción mayores de lo deseado.
Por eso es importante comprobar previamente si existe una relación lineal entre la variable dependiente y cada una de las variables independientes. Esto suele comprobarse de manera gráfica.
Homocedasticidad
Como en la práctica el modelo de regresión nunca predice exactamente la variable dependiente, siempre hay un error. Este error debe tener una varianza constante a lo largo del intervalo de predicción.
Para comprobar la homocedasticidad, es decir, la varianza constante de los residuos, se representa la variable dependiente en el eje de abscisas y el error en el eje de ordenadas. Ahora el error debería dispersarse uniformemente por todo el intervalo. Si es así, existe homocedasticidad. Si no es así, hay heteroscedasticidad. En el caso de la heteroscedasticidad, el error tiene diferentes varianzas, dependiendo del intervalo de valores de la variable dependiente.
Distribución normal del error
El siguiente requisito de la regresión lineal es que el error épsilon (ϵ) debe distribuirse normalmente. Hay dos formas de averiguarlo: una es la forma analítica y la otra es la forma gráfica. En la forma analítica puedes utilizar la prueba de Kolmogorov-Smirnov o la prueba de Shapiro-Wilk. Si el valor p es superior a 0.05, no hay desviación de los datos respecto a la distribución normal y se puede suponer que los datos se distribuyen normalmente.
Sin embargo, estas pruebas analíticas se utilizan cada vez menos porque tienden a atestiguar la distribución normal para muestras pequeñas y se vuelven significativas muy rápidamente para muestras grandes, rechazando así la hipótesis nula de que los datos están distribuidos normalmente. Por ello, cada vez se utiliza más la variante gráfica.
En la variante gráfica, se observa el histograma o, mejor aún, el llamado diagrama Q-Q (del inglés, Quantile-Quantile-plot). Cuanto más se sitúen los datos sobre la línea, mejor será la distribución normal.
Multicolinealidad
La multicolinealidad significa que dos o más variables independientes están fuertemente correlacionadas entre sí. El problema de la multicolinealidad es que los efectos de cada variable independiente no pueden separarse claramente unos de otros.
Si, por ejemplo, existe una alta correlación entre x1 y x2, entonces es difícil determinar b1 y b2. Si ambos son, por ejemplo, completamente iguales, el modelo de regresión no sabe cómo de grandes deben ser b1 y b2, volviéndose inestable.
Por supuesto, esto no es un problema mayor si el modelo de regresión sólo se utiliza para una predicción; en el caso de una predicción, sólo interesa el valor de la misma, pero no cuán grande es la influencia de cada variable respectivamente. Sin embargo, si el modelo de regresión se utiliza para medir la influencia de las variables independientes sobre la variable dependiente, y si existe multicolinealidad, los coeficientes no pueden interpretarse de forma significativa.
Puedes encontrar información más detallada sobre la multicolinealidad aquíPrueba de significación y regresión
El análisis de regresión suele realizarse para hacer afirmaciones sobre la población a partir de una muestra. Por lo tanto, los coeficientes de regresión se calculan utilizando los datos de la muestra. Para descartar la posibilidad de que los coeficientes de regresión no sean aleatorios y tengan valores completamente distintos en otra muestra, los resultados se comprueban estadísticamente con la prueba de significación. Esta prueba se realiza a dos niveles.
- Prueba de significación para todo el modelo de regresión
- Prueba de significación para los coeficientes de regresión
En cualquier caso, hay que tener en cuenta que deben cumplirse los supuestos del apartado anterior.
Prueba de significación para el modelo de regresión
Aquí se comprueba si el coeficiente de determinación R2 en la población difiere de cero. Por tanto, la hipótesis nula es que el coeficiente de determinación R2 en la población es cero. Para confirmar o rechazar la hipótesis nula, se calcula la siguiente prueba F
El valor F calculado debe compararse ahora con el valor F crítico. Si el valor F calculado es mayor que el valor F crítico, se rechaza la hipótesis nula y la R2 se desvía de cero en la población. El valor F crítico se puede leer en la tabla de distribución F. Los grados de libertad del denominador son k y los del numerador son n-k-1.
Prueba de significación de los coeficientes de regresión
El siguiente paso es comprobar qué variables tienen una contribución significativa a la predicción de la variable dependiente. Esto se hace comprobando si las pendientes (coeficientes de regresión) también difieren de cero en la población. Para analizarlo se calculan los siguientes estadísticos de prueba:
donde bj es el coeficiente de regresión j y sb_j es la desviación estándar de bj. Esta estadística de prueba tiene una distribución t con los grados de libertad n-k-1. El valor t crítico se puede leer en la tabla de distribución t.
Calcular con DATAtab
Recalcula el ejemplo directamente con DATAtab de forma gratuita:
Cargar conjunto de datos de regresión linealComo ejemplo de regresión lineal, se establece un modelo que predice el peso corporal de una persona. Por tanto, la variable dependiente es el peso corporal, mientras que la altura, la edad y el sexo se eligen como variables independientes. Dispones del siguiente conjunto de datos de ejemplo:
peso | altura | edad | sexo |
---|---|---|---|
79 | 1.80 | 35 | hombre |
69 | 1.68 | 39 | hombre |
73 | 1.82 | 25 | hombre |
95 | 1.70 | 60 | hombre |
82 | 1.87 | 27 | hombre |
55 | 1.55 | 18 | mujer |
69 | 1.50 | 89 | mujer |
71 | 1.78 | 42 | mujer |
64 | 1.67 | 16 | mujer |
69 | 1.64 | 52 | mujer |
Después de copiar tus datos en la calculadora estadística, debes seleccionar las variables que sean relevantes para ti. A continuación recibirás los resultados en forma de tabla.
Interpretación de los resultados
Esta tabla muestra que el 75.4% de la variación del peso puede determinarse por la altura, la edad y el sexo. El modelo estima un error estándar de 6.587 al predecir el peso de una persona. La ecuación de regresión da como resultado
Peso = 47.379 - Altura + 0.297 - Edad + 8.922 - es_hombre -24.41
La ecuación muestra, por ejemplo, que si la edad aumenta un año, el peso aumenta 0.297 kg según el modelo. En el caso de la variable dicotómica sexo, la pendiente debe interpretarse como la diferencia: según el modelo un hombre pesa 8.922 kg más que una mujer. Si todas las variables independientes son cero, el resultado es un peso de -24.41.
Los coeficientes estandarizados beta se miden por separado y oscilan siempre entre -1 y +1. Cuanto mayor es beta, mayor es la contribución de cada variable independiente para explicar la variable dependiente. En este análisis de regresión, la variable edad es la que más influye en la variable peso.
Los coeficientes calculados se refieren a la muestra utilizada para el cálculo por el análisis de regresión, por lo que interesa saber si los valores B se desvían de cero sólo por azar o si también son distintos de cero en la población. Para ello, se formula la hipótesis nula de que el respectivo valor B calculado es igual a cero en la población. Si es así, significa que la variable dependiente respectiva no tiene una influencia significativa en la variable dependiente.
El valor sigma indica si una variable tiene una influencia significativa. Los valores sigma inferiores a 0.05 se consideran significativos. En este ejemplo, sólo la edad puede considerarse un predictor significativo del peso de una persona.
Presentación de los resultados de la regresión
Al presentar tus resultados, debes incluir el efecto estimado, es decir, el coeficiente de regresión, el error típico de la estimación y el valor p. Por supuesto, también es útil interpretar los resultados de la regresión para que todo el mundo sepa lo que significan los coeficientes de regresión.
Por ejemplo: se encontró una relación significativa (p < 0.041) entre el peso de una persona y su edad.
Si se calculó una regresión lineal simple, el resultado también puede mostrarse mediante un diagrama de dispersión.