t-Test, Chi-Square, ANOVA, Regression, Correlation...

La regresión es un método estadístico que permite modelizar las relaciones entre una variable dependiente y una o más variables independientes.

Un análisis de regresión permite inferir o predecir otra variable basándose en una o más variables.

Por ejemplo, puede que te interese saber qué influye en el salario de una persona. Para averiguarlo, podrías tomar el nivel educativo, las horas de trabajo semanales y la edad de una persona.

A continuación podrías investigar si estas tres variables influyen en el salario de una persona. Si es así, puedes predecir el salario de una persona utilizando el nivel educativo, las horas de trabajo semanales y la edad de una persona.

¿Qué son las variables dependientes e independientes?

La variable que hay que deducir se llama variable dependiente (criterio). Las variables utilizadas para la predicción se llaman variables independientes (predictores).

Así, en el ejemplo anterior, el salario es la variable dependiente y el nivel educativo, las horas semanales trabajadas y la edad son las variables independientes.

¿Cuándo utilizar un análisis de regresión?

Al realizar un análisis de regresión se pueden perseguir dos objetivos. Por un lado, se puede medir la influencia de una o más variables sobre otra variable y, por otro, se puede utilizar la regresión para predecir una variable mediante otra u otras variables. Por ejemplo:

1) Medición de la influencia de una o más variables sobre otra variable

¿Qué influye en la capacidad de concentración de los niños?
¿Afectan el nivel educativo de los padres y el lugar de residencia a los futuros logros educativos de los niños?

2) Predicción de una variable mediante otra u otras variables

¿Cuánto tiempo permanece un paciente en el hospital?
¿Qué producto es más probable que compre una persona en una tienda online?

Así pues, el análisis de regresión proporciona información sobre cómo cambia el valor de la variable dependiente si se modifica una de las variables independientes.

Tipos de análisis de regresión

Los análisis de regresión se dividen en regresión lineal simple, regresión lineal múltiple y regresión logística. El tipo de análisis de regresión que debe utilizarse depende del número de variables independientes y de la escala de medida de la variable dependiente.

	Número de variables independientes	Escala de medida variable dependiente	Escala de medida variable independiente
Regresión lineal simple	una	métrica	métrica, ordinal, nominal
Regresión lineal múltiple	múltiple	métrica	métrica, ordinal, nominal
Regresión logística	múltiple	ordinal, nominal	métrica, ordinal, nominal

Si sólo quieres utilizar una variable para la predicción, se utiliza una regresión simple. Si utilizas más de una variable, tienes que realizar una regresión múltiple. Si la variable dependiente es de escala nominal, hay que calcular una regresión logística. Si la variable dependiente está escalada métricamente, se utiliza una regresión lineal. Que se utilice una regresión lineal o no lineal depende de la propia relación. Para realizar una regresión lineal, es necesaria una relación lineal entre las variables independientes y la variable dependiente.

Variable independiente de la regresión

Independientemente de la regresión que se calcule, el nivel de escala de las variables independientes puede adoptar cualquier forma (métrica, ordinal y nominal). Sin embargo, si hay una variable ordinal o nominal con más de dos valores, deben formarse las llamadas variables ficticias.

Variables ficticias y categoría de referencia

Cuando una variable independiente es categórica, se codifica como un conjunto de variables ficticias binarias antes de incluirla en el modelo de regresión.

Cuando se crean variables ficticias, una variable con varias categorías se convierte en varias variables con sólo 2 categorías cada una.

Una de las categorías se establece como categoría de referencia y se crea una nueva variable para cada una de las categorías restantes.

Pongamos un ejemplo para ilustrarlo. Supongamos que estás estudiando el efecto del nivel educativo -que es una variable categórica con tres niveles: bachillerato, universidad y postgrado- sobre el salario. Para incluir esta variable categórica en un modelo de regresión, hay que codificarla como variables ficticias.

Digamos que utilizamos el bachillerato como categoría de referencia y creamos dos variables ficticias: es_universitario y es_licenciado. La variable es_universitario, por ejemplo, tomará el valor 1 si el individuo tiene un título universitario y 0 en caso contrario.

Variable de control (covariable)

En el análisis de regresión, una variable de control (también conocida como "covariable") es una variable independiente adicional que se incluye en el modelo de regresión para tener en cuenta posibles factores de confusión. El objetivo principal de incluir variables de control es aislar la relación de interés entre la(s) variable(s) independiente(s) principal(es) y la variable dependiente, garantizando que la relación observada no está siendo impulsada por otros factores no observados.

La inclusión de variables de control puede ayudar de varias formas:

Reducir el sesgo de variable omitida: si hay una variable que afecta tanto a la variable dependiente como a una de las variables independientes y no se incluye en el modelo, el coeficiente de la variable independiente podría estar sesgado. Incluir la variable de control ayuda a reducir o eliminar este sesgo.
Aumento de la precisión: controlar las fuentes adicionales de variabilidad puede reducir la varianza residual, lo que da lugar a estimaciones más precisas.
Contabilización de los factores de confusión: en muchos casos, la relación entre dos variables puede ser espuria debido a una tercera variable que influye en ambas. Incluir esta tercera variable como control puede ayudar a revelar la verdadera relación.

Ejemplo

Por ejemplo, supongamos que estás estudiando el efecto del ejercicio sobre la pérdida de peso. La edad también podría influir en la pérdida de peso (el metabolismo cambia a medida que envejecemos) y podría estar relacionada con la cantidad de ejercicio que hace alguien (quizá la gente más joven hace más ejercicio). Si ignoras la edad, podrías atribuir erróneamente todo el efecto sobre la pérdida de peso al ejercicio, cuando la edad también desempeña un papel. Si incluyes la edad como variable de control en tu regresión, podrás aislar mejor el impacto específico del ejercicio en la pérdida de peso.

Consideraciones

Sin embargo, es crucial ser reflexivo sobre qué variables de control incluir en un modelo. Incluir variables de control irrelevantes puede complicar innecesariamente el modelo y reducir el poder de análisis. Por otra parte, omitir controles importantes puede dar lugar a estimaciones sesgadas. Un razonamiento teórico adecuado y pruebas de diagnóstico empíricas pueden guiar la elección de las variables de control.

Correlación y causalidad en el análisis de regresión

En el caso de la regresión lineal, la variable independiente puede utilizarse para predecir la variable dependiente si existe una correlación entre ambas variables. Sin embargo, lo que es importante señalar es que una correlación entre dos variables no significa necesariamente causalidad. ¿Qué significa esto? Si los valores elevados de una variable van acompañados de valores elevados de la otra variable, no significa que los valores de una variable aumenten porque los valores de la otra variable aumenten.

Ejemplos de regresión

Regresión lineal simple

¿Influye el tiempo de trabajo semanal en el salario por hora de los trabajadores?

Regresión lineal múltiple

¿Influyen el tiempo de trabajo semanal y la edad de los trabajadores en su salario por hora?

Regresión logística

¿Influyen la tiempo de trabajo semanal y la edad de los trabajadores en la probabilidad de que corran riesgo de sufrir burnout?

Variable dependiente
Variables independientes

Calcular la regresión

Sólo son necesarios tres sencillos pasos y la calculadora de regresión te dará todos los ratios importantes:

1. Copia tus datos en la tabla de la calculadora estadística
2. Haz clic en Regresión
3. Selecciona una variable dependiente y una o más variables independientes

Si una de las variables independientes tiene un nivel de medida categórico (ordinal o nominal), se generan automáticamente variables ficticias y se define una categoría de referencia. En cuanto una serie contiene sólo números, la calculadora estadística la define automáticamente como variable métrica.

Análisis de regresión