Correlación punto-biserial

Cargar datos de muestra

La correlación punto-biserial (también llamada biserial puntual) es un caso especial de la correlación de Pearson y examina la relación entre una variable dicotómica y una variable métrica.

¿Qué es una variable dicotómica y qué es una variable métrica? Una variable dicotómica es una variable con dos expresiones, por ejemplo el sexo (hombre-mujer) o la condición de fumador (fumador-no fumador). Una variable métrica es, por ejemplo, el peso de una persona o el salario de una persona.

Por tanto, si tenemos una variable dicotómica y una variable métrica y queremos saber si existe correlación, podemos utilizar una correlación punto-biserial. Por supuesto, tenemos que comprobar previamente las condiciones previas, pero hablaremos de ello más adelante.

Calcular la correlación punto-biserial

Como hemos dicho al principio, la correlación punto-biserial es un caso especial de la correlación de Pearson. Pero, ¿cómo podemos calcular la correlación de Pearson cuando una variable es nominal? Veámoslo con un ejemplo.

Supongamos que queremos estudiar la correlación entre el número de horas dedicadas a aprender para un examen y el resultado del examen (aprobado-suspendido).

Recopilamos datos de 20 estudiantes, de los cuales 12 aprobaron el examen y 8 lo suspendieron. También registramos el número de horas que cada alumno estudió para el examen.

Para calcular la correlación punto-biserial, primero tenemos que convertir la puntuación del examen en números. Podemos asignar un valor de 1 a los alumnos que aprobaron el examen y de 0 a los que suspendieron.

Ahora podemos calcular la correlación de Pearson entre el tiempo y la puntuación del examen, o bien utilizar la ecuación de la correlación punto-biserial.

Correlación punto-biserial y correlación de Pearson

Pero da igual si calculamos la correlación de Pearson o si utilizamos la ecuación de la correlación punto-biserial. ¡Obtenemos el mismo resultado las dos veces!

Cargar datos de muestra

Echemos un vistazo rápido a esto en DATAtab. Tenemos las horas de aprendizaje, el resultado del test con aprobado y suspendido, y el resultado del test con cero y uno. El resultado de la prueba con cero y uno, lo definimos como variable métrica.

Si ahora vamos a correlación y calculamos la correlación de Pearson para estas dos variables métricas, obtenemos un coeficiente de correlación de 0.31. Si calculamos la correlación punto-biserial para las horas de aprendizaje y el resultado del examen con "aprobado" y "suspendido", también obtenemos una correlación de 0.31.

Point biserial correlation and Pearson correlation

Coeficiente de correlación punto-biserial

Al igual que el coeficiente de correlación r de Pearson, el coeficiente de correlación punto-biserial r_pb también varía entre -1 y 1.

Si tenemos un coeficiente entre -1 y 0, existe una correlación negativa, es decir, una relación negativa entre las variables.

Si tenemos un coeficiente entre 0 y 1, hay una correlación positiva, es decir, una relación positiva entre las dos variables. Si el resultado es 0, no tenemos correlación.

Hipótesis

Sin embargo, a menudo, partiendo de una muestra, queremos comprobar una hipótesis sobre la población. En el caso del análisis de correlación, podemos comprobar si el coeficiente de correlación es significativamente distinto de 0.

Así, las hipótesis para la correlación punto-biserial resultan:

Hipótesis nula: El coeficiente de correlación r = 0 (No hay correlación)
Hipótesis alternativa: El coeficiente de correlación r ≠ 0 (Hay correlación)

Correlación punto-biserial y prueba t para muestras independientes.

Cuando calculamos una correlación punto-biserial, obtenemos el mismo valor p que cuando calculamos una prueba t para muestras independientes para los mismos datos.

Por lo tanto, tanto si comprobamos una hipótesis de correlación con la correlación punto-biserial, como si comprobamos una hipótesis de diferencia con la prueba t, obtendremos el mismo valor p.

Cargar datos de muestra

Si calculamos una prueba t en Datatab con los datos de la pestaña Pruebas de hipótesis, obtenemos la hipótesis nula: "No hay diferencia entre los grupos no aprobados y aprobados con respecto a la variable horas de aprendizaje", con un valor p de 0.179.

Point biserial correlation and the t-test for independent samples

Del mismo modo, si calculamos una correlación punto-biserial en la pestaña Correlación y tenemos la hipótesis nula: "No existe correlación entre las horas de aprendizaje y la nota del examen", ¡también obtenemos un valor p de 0.179!

En nuestro ejemplo, el valor p es superior a 0.05, que es lo que se suele utilizar como nivel de significación, por lo que no se rechaza la hipótesis nula.

Supuestos para una correlación punto-biserial

En cuanto a los supuestos de la correlación punto-biserial, tenemos que distinguir si queremos calcular sólo el coeficiente de correlación, o si queremos comprobar una hipótesis. Para calcular el coeficiente de correlación, sólo necesitamos tener una variable métrica y una variable dicotómica.

Sin embargo, si queremos probar si el coeficiente de correlación es significativamente distinto de cero, ¡la variable métrica también debe tener una distribución normal! Si no es así, ¡el estadístico de prueba t o el valor p no pueden interpretarse de forma fiable!