t-Test, Chi-Square, ANOVA, Regression, Correlation...

¿Qué es un análisis de correlación?

El análisis de correlación es una técnica estadística que proporciona información sobre la relación entre variables.

El análisis de correlación puede calcularse para investigar la relación entre las variables. La intensidad de la correlación viene determinada por el coeficiente de correlación, que varía de -1 a +1. Así, los análisis de correlación pueden utilizarse para hacer una declaración sobre la fuerza y la dirección de la correlación.

Ejemplo:

Se quiere averiguar si existe una relación entre la edad a la que un niño dice sus primeras frases y su posterior éxito escolar.

Correlación y causalidad

Si el análisis de correlación muestra que dos características están relacionadas entre sí, se puede comprobar posteriormente si una característica puede utilizarse para predecir la otra. Si se confirma la correlación mencionada en el ejemplo, se puede comprobar, por ejemplo, si el éxito escolar puede predecirse mediante la edad a la que el niño dice sus primeras frases por medio de una regresión lineal.

Pero ¡cuidado! Las correlaciones no tienen por qué ser relaciones causales. Por lo tanto, las correlaciones que se descubran deben investigarse con más detenimiento, aunque nunca deben interpretarse inmediatamente en términos de contenido, a pesar de que éste pueda ser evidente.

Ejemplo de correlación y causalidad

Si tras analizar la correlación entre las cifras de ventas y el precio se identifica una fuerte correlación, sería lógico suponer que las cifras de ventas están influidas por el precio (y no a la inversa), pero esta suposición no puede demostrarse en absoluto a partir de un análisis de correlación.

Además, puede ocurrir que la correlación entre la variable x e y sea generada por la variable z, véase la correlación parcial para más información.

Sin embargo, en función de las variables que se utilicen, se puede hablar de una relación causal desde un primer momento. Por ejemplo, si existe una correlación entre la edad y el salario, está claro que la edad influye en el salario y no al revés, pues de lo contrario todo el mundo querría ganar el menor salario posible :)

Interpretar la correlación

Con la ayuda del análisis de correlación se pueden hacer dos afirmaciones, una sobre

la dirección, y otra sobre
la fuerza

de la relación lineal entre dos variables métricas o de escala ordinaria. La dirección indica si existe una correlación positiva o negativa, mientras que la fuerza indica el grado de la misma.

Correlación positiva

Existe una correlación positiva si los valores mayores de la variable x van acompañados de mayores valores de la variable y. La altura y la talla de los zapatos, por ejemplo, se correlacionan positivamente y se obtiene un coeficiente de correlación entre 0 y 1, es decir, un valor positivo.

Correlación negativa

Existe una correlación negativa si los valores mayores de la variable x van acompañados de menores valores de la variable y. El precio del producto y la cantidad de ventas suelen tener una correlación negativa; cuanto más caro es un producto, menor es la cantidad de ventas. En este caso, el coeficiente de correlación está entre -1 y 0, asumiendo un valor negativo.

Fuerza de la correlación

En cuanto a la fuerza de la correlación, cuyo valor es referido mediante la letra r, se puede tomar como guía la siguiente tabla:

Valor r	Fuerza de la correlación
0.0 < 0.1	no hay correlación
0.1 < 0.3	poca correlación
0.3 < 0.5	correlación media
0.5 < 0.7	correlación alta
0.7 < 1	correlación muy alta

Consejo: En DATAtab puede calcular el coeficiente de correlación directamente online.

Diagrama de dispersión y correlación

Tan importante como la consideración del coeficiente de correlación es la consideración gráfica de la correlación de dos variables en un diagrama de dispersión.

El diagrama de dispersión da una estimación aproximada de si hay una correlación, si ésta es lineal o no, y si hay valores atípicos.

Comprobar la correlación para ver si es significativa

Si existe una correlación en la muestra, todavía es necesario comprobar si hay suficientes pruebas de que la correlación también existe en la población. Así, se plantea la cuestión de cuándo un coeficiente de correlación puede considerarse estadísticamente significativo.

La significación de los coeficientes de correlación puede comprobarse mediante una prueba t. Por regla general, se comprueba si el coeficiente de correlación es significativamente diferente de cero, es decir, se comprueba la independencia lineal. En este caso, la hipótesis nula es que no hay correlación entre las variables consideradas. En cambio, la hipótesis alternativa supone que existe una correlación.

Como en cualquier otra prueba de hipótesis, primero se fija el nivel de significación, normalmente al 5%. Si el valor p calculado es inferior al 5%, se rechaza la hipótesis nula y se aplica la hipótesis alternativa. Por lo tanto, si el valor p es inferior al 5%, se supone que existe una relación entre las variables de la población.

El valor t para comprobar la hipótesis viene dado por

donde n es el tamaño de la muestra y r es la correlación determinada en la muestra. El valor p correspondiente puede calcularse fácilmente en la calculadora de correlación de DATAtab.

Hipótesis dirigidas y no dirigidas

Con el análisis de correlación se pueden comprobar las hipótesis de correlación dirigida y no dirigida.

Hipótesis de correlación no dirigida:

Sólo interesa saber si existe una relación o correlación entre dos variables, por ejemplo, si existe una correlación entre la edad y el salario, pero no interesa la dirección de esta correlación.

Hipótesis de correlación dirigida:

También interesa la dirección de la correlación, es decir, si existe una correlación positiva o negativa entre las variables.

La hipótesis alternativa es, por ejemplo, que la edad tiene una influencia positiva en el salario. Al final del ejemplo veremos lo que hay que tener en cuenta en el caso de una hipótesis dirigida.

Análisis de correlación de Pearson

Con el análisis de correlación de Pearson se obtiene una declaración sobre la correlación lineal entre variables de escala métrica. Para el cálculo se utiliza la covarianza respectiva. La covarianza da un valor positivo si hay una correlación positiva entre las variables y un valor negativo si hay una correlación negativa. La covarianza se calcula mediante:

Sin embargo, la covarianza no está normalizada y puede asumir valores desde infinito a menos infinito. Esto dificulta la comparación de la fuerza de las relaciones entre diferentes variables. Por ello, se calcula el coeficiente de correlación, también llamado coeficiente de correlación producto-momento. El coeficiente de correlación se obtiene normalizando la covarianza. Para esta normalización, se utilizan las varianzas de las dos variables implicadas y el coeficiente de correlación se calcula como:

El coeficiente de correlación de Pearson puede tomar ahora valores entre -1 y +1 y puede interpretarse de las seguientes maneras:

El valor +1 significa que existe una relación lineal totalmente positiva (cuanto más, más).
El valor -1 indica que existe una relación lineal totalmente negativa (cuanto más, menos).
Con el valor 0 no existe ninguna relación lineal, es decir, las variables no están correlacionadas entre sí.

Ahora, finalmente, se puede interpretar la fuerza de la relación. Esto puede ilustrarse con la siguiente tabla:

Valor r	Fuerza de la correlación
0.0 < 0.1	no hay correlación
0.1 < 0.3	poca correlación
0.3 < 0.5	correlación media
0.5 < 0.7	correlación alta
0.7 < 1	correlación muy alta

Para comprobar de antemano si existe una relación lineal, deben considerarse los diagramas de dispersión. De este modo, la relación respectiva entre las variables también puede comprobarse visualmente. La correlación de Pearson sólo es útil y tiene sentido si existen relaciones lineales.

Supuestos de la correlación de Pearson

Para utilizar la correlación de Pearson, las variables deben estar distribuidas normalmente y debe existir una relación lineal entre las mismas. La distribución normal puede comprobarse de forma analítica o gráfica con el diagrama Q-Q. La mejor forma de comprobar si las variables tienen una correlación lineal es con un diagrama de dispersión.

Si no se cumplen estas condiciones, se utiliza la correlación de Spearman.

Correlación de rango de Spearman

El análisis de correlación de Spearman se utiliza para calcular la relación entre dos variables que tienen un nivel de medición ordinal. La correlación de rangos de Spearman es el equivalente no paramétrico del análisis de correlación de Pearson. Por tanto, este procedimiento se utiliza cuando no se cumplen los requisitos para un análisis de correlación (=procedimiento paramétrico), es decir, cuando no hay datos métricos ni distribución normal. En este contexto, también se suele denominar "correlación de Spearman" o "Rho de Spearman" a la correlación de rangos de Spearman.

Las cuestiones que puede tratar la correlación de rangos de Spearman son similares a las del coeficiente de correlación de Pearson, es decir, "¿Existe una correlación entre dos variables o características?". Por ejemplo: "¿Existe una correlación entre la edad y la religiosidad en la población francesa?

El cálculo de la correlación de rango se basa en el sistema de clasificación de las series de datos. Esto significa que los valores medidos no se utilizan para el cálculo, sino que se transforman en rangos. A continuación, la prueba se realiza utilizando estos rangos.

El coeficiente de correlación de rangos ρ puede tomar valores entre -1 y 1. Si hay un valor menor que cero (ρ < 0), existe una correlación lineal negativa. Si hay un valor mayor que cero (ρ > 0), hay una relación lineal positiva. Si el valor es cero (ρ = 0), no hay relación entre las variables. Al igual que con el coeficiente de correlación de Spearman, la fuerza de la correlación puede clasificarse de la siguiente manera:

Valor r	Fuerza de la correlación
0.0 < 0.1	no hay correlación
0.1 < 0.3	poca correlación
0.3 < 0.5	correlación media
0.5 < 0.7	correlación alta
0.7 < 1	correlación muy alta

Correlación biserial puntual

La correlación biserial puntual se utiliza cuando una de las variables es dicotómica, por ejemplo, con estudios y sin estudios, y la otra tiene nivel de escala métrica, por ejemplo, el salario.

El cálculo de una correlación biserial puntual es el mismo que el de la correlación de Pearson. Para calcularlo, una de las dos expresiones de la variable dicotómica se codifica como 0 y la otra como 1.

Calcular el análisis de correlación con DATAtab

Calcular el ejemplo directamente con DATAtab de forma gratuita:

Análisis de correlación Conjunto de datos de carga

Un estudiante quiere saber si existe una correlación entre la altura y el peso de los participantes en el curso de estadística. Para ello, el estudiante extrajo una muestra, que se describe en la siguiente tabla.

Altura	Peso
1.62	53
1.72	71
1.85	85
1.82	86
1.72	76
1.55	62
1.65	68
1.77	77
1.83	97
1.53	65

Para analizar las relaciones lineales mediante un análisis de correlación, se puede calcular una correlación con DATAtab. Primero copia la tabla anterior en la calculadora estadística.

A continuación, haga clic en Correlación y seleccione las dos variables del ejemplo. Finalmente obtendrá los siguientes resultados.

En primer lugar, obtendrá las hipótesis nula y la alternativa. La hipótesis nula es: "No hay correlación entre la altura y el peso". A continuación, obtendrá el coeficiente de correlación y el valor p. Si hace clic en Resumen en palabras, obtendrá la siguiente interpretación:

Se realizó un análisis de correlación de Pearson para comprobar si existe una relación entre la altura y el peso. El resultado del análisis de correlación de Pearson mostró que había una relación significativa entre la altura y el peso, r(8) = 0.86, p = 0.001.

Existe una correlación positiva muy alta entre las variables de altura y peso, r= 0.86. Por lo tanto, existe una correlación positiva muy alta en esta muestra entre la altura y el peso.

Hipótesis de correlación dirigida (unilateral)

Por supuesto, en DATatab también puede optar por calcular una hipótesis dirigida.

En este caso, primero debe comprobar si la correlación está en la dirección de la hipótesis alternativa, es decir, que la altura y el peso están correlacionados positivamente. Si este es el caso, el valor p calculado debe dividirse por dos, ya que sólo se considera un lado de la distribución. Sin embargo, DATAtab se encarga de estos dos pasos por usted. El resumen en palabras tiene entonces el siguiente aspecto:

Se realizó un análisis de correlación de Pearson para comprobar si existe una relación positiva entre la altura y el peso. El resultado del análisis de correlación de Pearson mostró que había una relación positiva significativa entre la altura y el peso, r(8) = 0.86, p = <0.001.

Existe una correlación positiva muy alta entre las variables de altura y peso, r= 0.86. Por lo tanto, existe una correlación positiva muy alta en esta muestra entre la altura y el peso.