Coeficiente de correlación de Spearman
La correlación de rangos de Spearman examina la relación entre dos variables, siendo la contrapartida no paramétrica de la correlación de Pearson. Por lo tanto, en este caso no se requiere una distribución normal de los datos.
Existe una diferencia importante entre ambos coeficientes de correlación. La correlación de Spearman utiliza los rangos de los datos en lugar de los datos en sí, de ahí el nombre de correlación de rangos.
Ejemplo de correlación de Spearman
Medimos el tiempo de reacción de 8 jugadores de ordenador y les preguntamos su edad.
Si utilizamos una correlación de Pearson, simplemente tomamos las dos variables tiempo de reacción y edad y calculamos el coeficiente de correlación de Pearson. Sin embargo, ahora queremos calcular la correlación de rangos de Spearman, por lo que primero asignamos un rango a cada persona para el tiempo de reacción y la edad.
El tiempo de reacción ya está ordenado por tamaño. 12 es el valor más pequeño, por lo que obtiene el rango 1, 15 es el segundo más pequeño, por lo que obtiene el rango 2 y así sucesivamente. Ahora hacemos lo mismo con la edad.
Veámoslo en un diagrama de dispersión. A la izquierda vemos los datos iniciales de edad y capacidad de respuesta y a la derecha los rangos.
Hemos estudiado a 8 personas y como no tenemos correlaciones de rangos, tenemos por tanto 8 rangos que asignar. Mediante esta transformación, ahora tenemos los datos más uniformemente distribuidos.
Ahora, para calcular la correlación de Spearman, simplemente calculamos la correlación de Pearson de los rangos. Así pues, la correlación de Spearman es la misma que la correlación de Pearson, salvo que se utilizan los rangos en lugar de los valores iniciales.
Vamos a echar un vistazo rápido en DATAtab. Puedes cargar los datos que utilizamos aquí.
Por un lado, tenemos el tiempo de reacción y la edad, y por el otro, tenemos los rangos recién creados a partir del tiempo de reacción y la edad.
Ahora podemos calcular la correlación de rangos de Spearman a partir del tiempo de reacción y la edad o podemos calcular la correlación de Pearson a partir de los rangos. En ambos casos obtenemos una correlación de 0.9.
Correlación de rangos de Spearman y tau de Kendall
La tau de Kendall es muy similar a la correlación de Spearman. Sin embargo, la tau de Kendall debe preferirse a la correlación de Spearman cuando sólo se dispone de unos pocos datos con muchos empates.
Ecuación de correlación de Spearman
Si no hay empates de rango, esta ecuación también se puede utilizar para calcular la correlación de Spearman.
Donde n es el número de casos y d es la diferencia de clasificación entre las dos variables. Para nuestro ejemplo, el resultado es el siguiente:
La suma de di2 es 8 y n, que es el número de personas, también es 8. Si lo juntamos todo, obtenemos un coeficiente de correlación de 0.9.
Coeficiente de correlación de Spearman
Al igual que el coeficiente de correlación r de Pearson, el coeficiente de correlación rs de Spearman también varía entre -1 y 1.
Con la ayuda del coeficiente podemos determinar ahora dos cosas:
- la fuerza de la correlación y
- en qué dirección va la correlación.
La fuerza de la correlación puede leerse en una tabla.
Valor rs | Fuerza de la correlación |
---|---|
0.0 < 0.1 | no hay correlación |
0.1 < 0.3 | poca correlación |
0.3 < 0.5 | correlación media |
0.5 < 0.7 | correlación alta |
0.7 < 1 | correlación muy alta |
Si tenemos un coeficiente entre -1 y 0, existe una correlación negativa, es decir, una relación negativa entre las variables. Si tenemos un coeficiente entre 0 y 1, hay una correlación positiva, es decir, una relación positiva entre las dos variables. Si el resultado es 0, no tenemos correlación.
Comprobación de la significación de los coeficientes de correlación
A menudo, partiendo de una muestra, queremos probar una hipótesis sobre la población.
Hemos calculado el coeficiente de correlación para los datos de la muestra. Ahora podemos comprobar si el coeficiente de correlación es significativamente diferente de 0.
La hipótesis nula y la hipótesis alternativa resultan así:
- Hipótesis nula: el coeficiente de correlación rs = 0 (No hay correlación).
- Hipótesis alternativa El coeficiente de correlación rs ≠ 0 (Hay correlación).
Si el coeficiente de correlación es significativamente distinto de cero, según la muestra recogida, puede comprobarse mediante una prueba t.
Donde r es el coeficiente de correlación y n es el tamaño de la muestra. A continuación, puede calcularse un valor p a partir del estadístico de prueba t. Si el valor p es inferior al nivel de significación especificado (normalmente el 5%), se rechaza la hipótesis nula; de lo contrario, no.
Si utilizamos DATAtab para el cálculo del ejemplo, obtenemos un valor p de 0.002.
Así pues, el valor p es inferior a 0.05 y, por lo tanto, podemos rechazar la hipótesis nula de que en la población el coeficiente de correlación es cero.