Regresión logística
La regresión logística es un caso especial del análisis de regresión y se utiliza cuando la variable dependiente tiene una escala nominal. Es el caso, por ejemplo, de la variable decisión de compra con los dos valores compra un producto y no compra un producto.
El análisis de regresión logística es, por tanto, la contrapartida de la regresión lineal, en la que la variable dependiente del modelo de regresión debe tener al menos una escala de intervalo.
Con la regresión logística, ahora es posible explicar la variable dependiente o estimar la probabilidad de ocurrencia de las categorías de la variable.
Ejemplo empresarial:
Para un minorista online, necesitas predecir qué producto es más probable que compre un cliente determinado. Para ello, recibes un conjunto de datos con visitantes anteriores y sus compras en el comercio online.
Ejemplo médico:
Quieres investigar si una persona es susceptible de contraer una determinada enfermedad o no. Para ello, recibes un conjunto de datos con personas enfermas y no enfermas, así como otros parámetros médicos.
Ejemplo político:
¿Votaría una persona al partido A si hubiera elecciones el próximo fin de semana?
Si necesitas calcular una regresión logística, puedes utilizar fácilmente la calculadora de Análisis de Regresión aquí en DATAtab.
¿Qué es una regresión logística?
En la forma básica de la regresión logística, se pueden predecir variables dicotómicas (0 ó 1). Para ello, se estima la probabilidad de que se produzca el valor 1 (=característica presente).
En medicina, por ejemplo, una aplicación frecuente es averiguar qué variables influyen en una enfermedad. En este caso, 0 podría significar no enfermo y 1 enfermo. Posteriormente, se podría examinar la influencia de la edad, el sexo y el hábito de fumar (fumador o no) en esta enfermedad concreta.
Regresión logística y probabilidades
En la regresión lineal, las variables independientes (por ejemplo, la edad y el sexo) se utilizan para estimar el valor específico de la variable dependiente (por ejemplo, el peso corporal).
En cambio, en la regresión logística, la variable dependiente es dicotómica (0 ó 1) y se estima la probabilidad de que se produzca la expresión 1. Volviendo al ejemplo anterior, esto significa: ¿Qué probabilidad hay de que se produzca la enfermedad si la persona considerada tiene una edad, un sexo y un hábito relativo al tabaco determinados.
Calcular la regresión logística
Para construir un modelo de regresión logística, se parte de la ecuación de regresión lineal.
No obstante, si simplemente se calculara una regresión lineal para resolver una regresión logística, gráficamente se obtendría el siguiente resultado:
Como puede verse en el gráfico, ahora pueden darse valores entre más y menos infinito. El objetivo de la regresión logística es, sin embargo, estimar la probabilidad de ocurrencia y no el valor de la variable en sí. Por tanto, esta ecuación debe ser transformada.
Para ello, es necesario restringir el intervalo de valores de la predicción al intervalo entre 0 y 1. Para garantizar que sólo son posibles valores entre 0 y 1, se utiliza la función< logística f.
Función logística
El modelo logístico se basa en la función lógica. Lo especial de la función logística es que para valores entre menos y más infinito, siempre asume sólo valores entre 0 y 1.
Así es que la función logística es perfecta para describir la probabilidad P(y=1). Si ahora se aplica la función logística a la ecuación de regresión mostrada anteriormente, el resultado es:
Esto garantiza que, independientemente del intervalo en que se encuentren los valores de x, sólo resultarán valores entre 0 y 1. El nuevo gráfico tiene ahora este aspecto:
La probabilidad de que para unos valores dados de la variable independiente la variable dependiente dicotómica y sea 0 ó 1 viene dada por:
Para calcular la probabilidad de que una persona esté enferma o no mediante la regresión logística del ejemplo anterior, primero hay que determinar los parámetros del modelo b1, b2, b3 y a. Una vez determinados, la ecuación del ejemplo anterior es:
Método de máxima verosimilitud
Para determinar los parámetros del modelo de la ecuación de regresión logística, se aplica el método de máxima verosimilitud. El método de máxima verosimilitud es uno de los varios métodos utilizados en estadística para estimar los parámetros de un modelo matemático. Otro estimador muy conocido es el método de los mínimos cuadrados, que se utiliza en la regresión lineal.
La función de verosimilitud
Para entender el método de máxima verosimilitud, introducimos la función de verosimilitud L. L es una función de los parámetros desconocidos del modelo, que en el caso de la regresión logística son b1,... bn, a. Por tanto, también podemos escribir L(b1,... bn, a) o L(θ) si los parámetros se resumen en θ.
L(θ) indica ahora la probabilidad de que se produzcan los datos observados. Con el cambio de θ, cambia la probabilidad de que los datos ocurran tal y como se han observado.
Estimador de Máxima Verosimilitud
El Estimador de Máxima Verosimilitud puede aplicarse a la estimación de modelos complejos tanto no lineales como lineales. En el caso de la regresión logística, el objetivo es estimar los parámetros b1,... bn, a, que maximizan la llamada función de verosimilitud logarítmica LL (θ). La función de verosimilitud logarítmica es simplemente el logaritmo de L(θ).
Para esta optimización no lineal, se han establecido diferentes algoritmos a lo largo de los años, como por ejemplo el Descenso Gradiente Estocástico.
Regresión logística multinomial
Mientras la variable dependiente tenga dos características (por ejemplo, hombre, mujer), es decir, sea dicotómica, se utiliza la regresión logística binaria. Sin embargo, si la variable dependiente tiene más de dos instancias, por ejemplo, qué concepto de movilidad describe el trayecto de una persona al trabajo (coche, transporte público, bicicleta), debe utilizarse la regresión logística multinomial.
Cada expresión de la variable de movilidad (coche, transporte público, bicicleta) se transforma en una nueva variable. El concepto de movilidad de una variable se convierte en las tres nuevas variables:
- se utiliza el coche
- se utiliza el transporte público
- se utiliza la bicicleta
Cada una de estas nuevas variables sólo tiene las dos expresiones sí o no, por ejemplo, la variable se utiliza el coche sólo tiene las dos opciones de respuesta sí o no (se utiliza o no). Así, para la única variable "concepto de movilidad" con tres valores, hay tres nuevas variables con dos valores cada una, sí y no (0 y 1). Por lo que se crean tres modelos de regresión logística para estas tres variables.
Interpretación de los resultados
La relación entre las variables dependientes e independientes en la regresión logística no es lineal, por lo que los coeficientes de regresión no pueden interpretarse del mismo modo. Es por ello, que en la regresión logística se interpretan las probabilidades.
Regresión lineal:
Una variable independiente se considera "buena" si está fuertemente correlacionada con la variable dependiente.
Regresión logística:
Se dice que una variable independiente es "buena" si permite distinguir significativamente entre sí los grupos de la variable dependiente.
Las probabilidades se calculan relacionando las dos probabilidades de que y sea 1 y de que y sea no 1.
Este cociente puede tomar cualquier valor positivo. Si ahora se obtiene el logaritmo de este valor, los valores entre menos y más son infinitamente posibles
Estas probabilidades logarítmicas suelen denominarse logits.
Pseudo-R cuadrado
En una regresión lineal, el coeficiente de determinación R2 indica la proporción de la varianza explicada. En la regresión logística, la variable dependiente se escala nominal u ordinalmente y no es posible calcular una varianza, por lo que el coeficiente de determinación no puede calcularse en la regresión lógica.
Sin embargo, para hacer una afirmación sobre la calidad del modelo de regresión logística, se han establecido los llamados pseudocoeficientes de determinación, también llamados pseudo-R cuadrado. Los pseudocoeficientes de determinación se construyen de forma que se sitúen entre 0 y 1, igual que el coeficiente de determinación original. Los coeficientes de determinación más conocidos son el R-cuadrado de Cox y Snell y el R-cuadrado de Nagelkerke.
Modelo nulo
Para calcular la R-cuadrado de Cox y Snell y la R-cuadrado de Nagelkerke, se necesita la verosimilitud del llamado modelo nulo L0 y la verosimilitud L1 del modelo que está siendo ajustado. El modelo nulo es un modelo en el que no se incluyen variables independientes, L1 es la verosimilitud del modelo con las variables dependientes.
R-cuadrado de Cox y Snell
En el R-cuadrado de Cox y Snell, se compara la relación de la función de verosimilitud del modelo nulo L0 y L1. Cuanto mejor sea el modelo que está siendo ajustado en comparación con el modelo nulo, menor será la relación entre L0 y L1. El R-cuadrado de Cox y Snell se obtiene mediante:
R-cuadrado de Nagelkerkes
La medida de pseudodeterminación de Cox y Snell no puede convertirse en 1 ni siquiera con un modelo con una predicción perfecta, esto lo corrige el R-cuadrado de Nagelkerkes. El pseudocoeficiente de determinación de Nagelkerkes se convierte en 1 si el modelo que está siendo ajustado da una predicción perfecta con una probabilidad de 1.
R-cuadrado de McFadden
El R-cuadrado de McFadden también utiliza el modelo nulo y el modelo que está siendo ajustado para calcular el R2.
Prueba Chi2 y regresión logística
En el caso de la regresión logística, la prueba Chi-cuadrado indica si el modelo es significativo en su conjunto o no.
Aquí se comparan dos modelos. En un modelo se utilizan todas las variables independientes y en el otro modelo no se utilizan las variables independientes.
Ahora la prueba Chi-cuadrado compara lo buena que es la predicción cuando se utilizan las variables dependientes y lo buena que es cuando no se utilizan las variables dependientes.
La prueba Chi-cuadrado indica ahora si hay una diferencia significativa entre estos dos resultados. La hipótesis nula es que ambos modelos son iguales. Si el valor p es inferior a 0.05, se rechaza esta hipótesis nula.
Ejemplo de regresión logística
Como ejemplo de regresión logística, se examina el comportamiento de compra en una tienda online. El objetivo es determinar los factores influyentes que llevan a una persona a comprar inmediatamente, más adelante o a no hacerlo en la tienda online después de visitar el sitio web. La tienda online proporciona los datos recogidos para este fin. Por tanto, la variable dependiente tiene las tres características siguientes:
- Compra inmediatamente
- Compra más tarde
- No compra
El sexo, la edad, los ingresos y el tiempo pasado en la tienda online están disponibles como variables independientes.
Comportamiento de compra | Sexo | Edad | Tiempo pasado en la tienda online |
---|---|---|---|
Compra inmediatamente | mujer | 22 | 40 |
Compra inmediatamentea | mujer | 25 | 78 |
Compra inmediatamente | hombre | 18 | 65 |
... | ... | ... | ... |
Compra más tarde | mujer | 27 | 28 |
Compra más tarde | mujer | 27 | 15 |
Compra más tarde | hombre | 48 | 110 |
... | ... | ... | ... |
No compra | mujer | 33 | 65 |
No compra | mujer | 43 | 34 |
Representación del resultado de la regresión logística
De forma similar a los modelos de regresión lineal, las regresiones logísticas se pueden calcular de forma rápida y sencilla con DATAtab. Si desea volver a calcular el ejemplo anterior, sólo tiene que copiar la la tabla sobre el comportamiento de compra en la tienda online en la calculadora de estadísticas de DATAtab. A continuación, seleccione la pestaña Regresión y haga clic en las variables deseadas. Directamente aparecerán los siguientes resultados en forma de tabla.