Regresión logística

Datos de un ejemplo de marketing Datos de un ejemplo médico

La regresión logística es un caso especial del análisis de regresión y se utiliza cuando la variable dependiente tiene una escala nominal. Es el caso, por ejemplo, de la variable decisión de compra con los dos valores compra un producto y no compra un producto.

El análisis de regresión logística es, por tanto, la contrapartida de la regresión lineal, en la que la variable dependiente del modelo de regresión debe tener al menos una escala de intervalo.

Con la regresión logística, ahora es posible explicar la variable dependiente o estimar la probabilidad de ocurrencia de las categorías de la variable.

Ejemplo empresarial:

Para un minorista online, necesitas predecir qué producto es más probable que compre un cliente determinado. Para ello, recibes un conjunto de datos con visitantes anteriores y sus compras en el comercio online.

Ejemplo médico:

Quieres investigar si una persona es susceptible de contraer una determinada enfermedad o no. Para ello, recibes un conjunto de datos con personas enfermas y no enfermas, así como otros parámetros médicos.

Ejemplo político:

¿Votaría una persona al partido A si hubiera elecciones el próximo fin de semana?

Si necesitas calcular una regresión logística, puedes utilizar fácilmente la calculadora de Análisis de Regresión aquí en DATAtab.

¿Qué es una regresión logística?

En la forma básica de la regresión logística, se pueden predecir variables dicotómicas (0 ó 1). Para ello, se estima la probabilidad de que se produzca el valor 1 (=característica presente).

Logistic regression and dichotomous variables

En medicina, por ejemplo, una aplicación frecuente es averiguar qué variables influyen en una enfermedad. En este caso, 0 podría significar no enfermo y 1 enfermo. Posteriormente, se podría examinar la influencia de la edad, el sexo y el hábito de fumar (fumador o no) en esta enfermedad concreta.

Regresión logística y probabilidades

En la regresión lineal, las variables independientes (por ejemplo, la edad y el sexo) se utilizan para estimar el valor específico de la variable dependiente (por ejemplo, el peso corporal).

En cambio, en la regresión logística, la variable dependiente es dicotómica (0 ó 1) y se estima la probabilidad de que se produzca la expresión 1. Volviendo al ejemplo anterior, esto significa: ¿Qué probabilidad hay de que se produzca la enfermedad si la persona considerada tiene una edad, un sexo y un hábito relativo al tabaco determinados.

Calcular la regresión logística

Para construir un modelo de regresión logística, se parte de la ecuación de regresión lineal.

No obstante, si simplemente se calculara una regresión lineal para resolver una regresión logística, gráficamente se obtendría el siguiente resultado:

Como puede verse en el gráfico, ahora pueden darse valores entre más y menos infinito. El objetivo de la regresión logística es, sin embargo, estimar la probabilidad de ocurrencia y no el valor de la variable en sí. Por tanto, esta ecuación debe ser transformada.

Para ello, es necesario restringir el intervalo de valores de la predicción al intervalo entre 0 y 1. Para garantizar que sólo son posibles valores entre 0 y 1, se utiliza la función< logística f.

Función logística

El modelo logístico se basa en la función lógica. Lo especial de la función logística es que para valores entre menos y más infinito, siempre asume sólo valores entre 0 y 1.

Así es que la función logística es perfecta para describir la probabilidad P(y=1). Si ahora se aplica la función logística a la ecuación de regresión mostrada anteriormente, el resultado es:

Esto garantiza que, independientemente del intervalo en que se encuentren los valores de x, sólo resultarán valores entre 0 y 1. El nuevo gráfico tiene ahora este aspecto:

La probabilidad de que para unos valores dados de la variable independiente la variable dependiente dicotómica y sea 0 ó 1 viene dada por:

Para calcular la probabilidad de que una persona esté enferma o no mediante la regresión logística del ejemplo anterior, primero hay que determinar los parámetros del modelo b₁, b₂, b₃ y a. Una vez determinados, la ecuación del ejemplo anterior es:

Método de máxima verosimilitud

Para determinar los parámetros del modelo de la ecuación de regresión logística, se aplica el método de máxima verosimilitud. El método de máxima verosimilitud es uno de los varios métodos utilizados en estadística para estimar los parámetros de un modelo matemático. Otro estimador muy conocido es el método de los mínimos cuadrados, que se utiliza en la regresión lineal.

La función de verosimilitud

Para entender el método de máxima verosimilitud, introducimos la función de verosimilitud L. L es una función de los parámetros desconocidos del modelo, que en el caso de la regresión logística son b₁,... b_n, a. Por tanto, también podemos escribir L(b₁,... b_n, a) o L(θ) si los parámetros se resumen en θ.

L(θ) indica ahora la probabilidad de que se produzcan los datos observados. Con el cambio de θ, cambia la probabilidad de que los datos ocurran tal y como se han observado.

Estimador de Máxima Verosimilitud

El Estimador de Máxima Verosimilitud puede aplicarse a la estimación de modelos complejos tanto no lineales como lineales. En el caso de la regresión logística, el objetivo es estimar los parámetros b₁,... b_n, a, que maximizan la llamada función de verosimilitud logarítmica LL (θ). La función de verosimilitud logarítmica es simplemente el logaritmo de L(θ).

Para esta optimización no lineal, se han establecido diferentes algoritmos a lo largo de los años, como por ejemplo el Descenso Gradiente Estocástico.

Regresión logística multinomial

Mientras la variable dependiente tenga dos características (por ejemplo, hombre, mujer), es decir, sea dicotómica, se utiliza la regresión logística binaria. Sin embargo, si la variable dependiente tiene más de dos instancias, por ejemplo, qué concepto de movilidad describe el trayecto de una persona al trabajo (coche, transporte público, bicicleta), debe utilizarse la regresión logística multinomial.

Cada expresión de la variable de movilidad (coche, transporte público, bicicleta) se transforma en una nueva variable. El concepto de movilidad de una variable se convierte en las tres nuevas variables:

se utiliza el coche
se utiliza el transporte público
se utiliza la bicicleta

Cada una de estas nuevas variables sólo tiene las dos expresiones sí o no, por ejemplo, la variable se utiliza el coche sólo tiene las dos opciones de respuesta sí o no (se utiliza o no). Así, para la única variable "concepto de movilidad" con tres valores, hay tres nuevas variables con dos valores cada una, sí y no (0 y 1). Por lo que se crean tres modelos de regresión logística para estas tres variables.

Interpretación de los resultados

La relación entre las variables dependientes e independientes en la regresión logística no es lineal, por lo que los coeficientes de regresión no pueden interpretarse del mismo modo. Es por ello, que en la regresión logística se interpretan las probabilidades.

Regresión lineal:

Una variable independiente se considera "buena" si está fuertemente correlacionada con la variable dependiente.

Regresión logística:

Se dice que una variable independiente es "buena" si permite distinguir significativamente entre sí los grupos de la variable dependiente.

Las probabilidades se calculan relacionando las dos probabilidades de que y sea 1 y de que y sea no 1.

Este cociente puede tomar cualquier valor positivo. Si ahora se obtiene el logaritmo de este valor, los valores entre menos y más son infinitamente posibles

Estas probabilidades logarítmicas suelen denominarse logits.

Pseudo-R cuadrado

En una regresión lineal, el coeficiente de determinación R² indica la proporción de la varianza explicada. En la regresión logística, la variable dependiente se escala nominal u ordinalmente y no es posible calcular una varianza, por lo que el coeficiente de determinación no puede calcularse en la regresión lógica.

Sin embargo, para hacer una afirmación sobre la calidad del modelo de regresión logística, se han establecido los llamados pseudocoeficientes de determinación, también llamados pseudo-R cuadrado. Los pseudocoeficientes de determinación se construyen de forma que se sitúen entre 0 y 1, igual que el coeficiente de determinación original. Los coeficientes de determinación más conocidos son el R-cuadrado de Cox y Snell y el R-cuadrado de Nagelkerke.

Modelo nulo

Para calcular la R-cuadrado de Cox y Snell y la R-cuadrado de Nagelkerke, se necesita la verosimilitud del llamado modelo nulo L₀ y la verosimilitud L₁ del modelo que está siendo ajustado. El modelo nulo es un modelo en el que no se incluyen variables independientes, L₁ es la verosimilitud del modelo con las variables dependientes.

R-cuadrado de Cox y Snell

En el R-cuadrado de Cox y Snell, se compara la relación de la función de verosimilitud del modelo nulo L₀ y L₁. Cuanto mejor sea el modelo que está siendo ajustado en comparación con el modelo nulo, menor será la relación entre L₀ y L₁. El R-cuadrado de Cox y Snell se obtiene mediante:

R-cuadrado de Nagelkerkes

La medida de pseudodeterminación de Cox y Snell no puede convertirse en 1 ni siquiera con un modelo con una predicción perfecta, esto lo corrige el R-cuadrado de Nagelkerkes. El pseudocoeficiente de determinación de Nagelkerkes se convierte en 1 si el modelo que está siendo ajustado da una predicción perfecta con una probabilidad de 1.

R-cuadrado de McFadden

El R-cuadrado de McFadden también utiliza el modelo nulo y el modelo que está siendo ajustado para calcular el R².

Prueba Chi² y regresión logística

En el caso de la regresión logística, la prueba Chi-cuadrado indica si el modelo es significativo en su conjunto o no.

Aquí se comparan dos modelos. En un modelo se utilizan todas las variables independientes y en el otro modelo no se utilizan las variables independientes.

Chi-2 Test and Logistic Regression Interpretation

Ahora la prueba Chi-cuadrado compara lo buena que es la predicción cuando se utilizan las variables dependientes y lo buena que es cuando no se utilizan las variables dependientes.

La prueba Chi-cuadrado indica ahora si hay una diferencia significativa entre estos dos resultados. La hipótesis nula es que ambos modelos son iguales. Si el valor p es inferior a 0.05, se rechaza esta hipótesis nula.

Ejemplo de regresión logística

Como ejemplo de regresión logística, se examina el comportamiento de compra en una tienda online. El objetivo es determinar los factores influyentes que llevan a una persona a comprar inmediatamente, más adelante o a no hacerlo en la tienda online después de visitar el sitio web. La tienda online proporciona los datos recogidos para este fin. Por tanto, la variable dependiente tiene las tres características siguientes:

Compra inmediatamente
Compra más tarde
No compra

El sexo, la edad, los ingresos y el tiempo pasado en la tienda online están disponibles como variables independientes.

Carga este conjunto de datos y pruébalo

Comportamiento de compra	Sexo	Edad	Tiempo pasado en la tienda online
Compra inmediatamente	mujer	22	40
Compra inmediatamentea	mujer	25	78
Compra inmediatamente	hombre	18	65
...	...	...	...
Compra más tarde	mujer	27	28
Compra más tarde	mujer	27	15
Compra más tarde	hombre	48	110
...	...	...	...
No compra	mujer	33	65
No compra	mujer	43	34

Representación del resultado de la regresión logística

De forma similar a los modelos de regresión lineal, las regresiones logísticas se pueden calcular de forma rápida y sencilla con DATAtab. Si desea volver a calcular el ejemplo anterior, sólo tiene que copiar la la tabla sobre el comportamiento de compra en la tienda online en la calculadora de estadísticas de DATAtab. A continuación, seleccione la pestaña Regresión y haga clic en las variables deseadas. Directamente aparecerán los siguientes resultados en forma de tabla.