Prueba de normalidad
Uno de los supuestos más habituales de los procedimientos de prueba estadística es que los datos utilizados deben estar distribuidos normalmente. Por ejemplo, si se va a calcular una prueba t o un ANOVA, primero hay que comprobar si los datos o las variables se distribuyen normalmente.
Si no se da la distribución normal de los datos, no se pueden utilizar los procedimientos anteriores y hay que recurrir a las pruebas no paramétricas, que no requieren la distribución normal de los datos.
En el caso de un análisis de regresión, también son importantes los supuestos de la distribución normal, pero aquí es importante que el error cometido por el modelo se distribuya normalmente y no los datos en sí.
¿Cómo compruebo la distribución normal?
La distribución normal puede comprobarse analítica o gráficamente. Las pruebas analíticas más habituales para comprobar la distribución normal de los datos son
- Prueba de Kolmogorov-Smirnov
- Prueba de Shapiro-Wilk
- Prueba de Anderson-Darling
Para la prueba gráfica se utiliza un histograma o el diagrama Q-Q. Q-Q son las siglas de Quantile Quantile Plot, que compara la distribución real observada y la distribución teórica esperada.
Comprobar analíticamente la distribución normal de los datos
Para comprobar analíticamente la distribución normal de tus datos, existen varios procedimientos de prueba, siendo los más conocidos la prueba de Kolmogorov-Smirnov, la prueba de Shapiro-Wilk y la prueba de Anderson Darling.
Con todas estas pruebas, estás comprobando la hipótesis nula de que tus datos se distribuyen normalmente. Así pues, la hipótesis nula es que la distribución de frecuencias de tus datos se distribuye normalmente. Para rechazar o no rechazar la hipótesis nula, obtienes un valor p de todas estas pruebas. Ahora la gran pregunta es si este valor p es menor o mayor que 0.05.
Si el valor p es menor que 0.05, se interpreta como una desviación significativa de la distribución normal y puedes suponer que tus datos no están distribuidos normalmente. Si el valor p es superior a 0.05 y quieres estar completamente limpio estadísticamente, no puedes afirmar necesariamente que la distribución de frecuencias se corresponde con la distribución normal, simplemente no puedes refutar la hipótesis nula.
En la práctica, aunque no sea completamente limpia, se sigue manejando de forma que un valor superior a 0.05 se supone que es una distribución normal. No obstante, siempre hay que fijarse en la solución gráfica.
Para tu información, puedes utilizar la prueba de Kolmogorov-Smirnov y la prueba de Anderson-Darling para probar distribuciones distintas de la distribución normal.
Inconvenientes de las pruebas analíticas para la distribución normal
Ahora bien, por desgracia, existe una gran desventaja de los procedimientos analíticos, por lo que cada vez se utilizan más los métodos gráficos.
El problema es que el valor p calculado se ve afectado por el tamaño de la muestra. Por tanto, si tienes una muestra muy pequeña, tu valor p puede ser mucho mayor que 0.05, pero si tienes una muestra muy muy grande de la misma población, tu valor p puede ser menor que 0.05.
Supongamos que la distribución de tu población se desvía muy ligeramente de la distribución normal. Entonces obtendrás un valor p muy grande con una muestra muy pequeña y, por tanto, supondrás que los datos se distribuyen normalmente. Sin embargo, si tomas una muestra más grande, el valor p será cada vez más pequeño, aunque las muestras procedan de la misma población con la misma distribución. Con una muestra muy grande, puedes incluso obtener un valor p inferior a 0.05 y rechazar así la hipótesis nula de que se trata de una distribución normal.
Para resolver este problema, se utilizan cada vez más los métodos gráficos.
Prueba gráfica de la distribución normal
Si la distribución normal se comprueba gráficamente, se observa el histograma o, mejor aún, el diagrama QQ.
Si sigues el camino del histograma, trazas la distribución normal en el histograma de tus datos y compruebas si la curva de la distribución normal coincide aproximadamente con la de la curva de la distribución normal.
Sin embargo, es mejor que utilices el llamado Diagrama de Cuantiles o Diagrama Q-Q para abreviar. Aquí se comparan los cuantiles teóricos que deberían tener los datos si estuvieran perfectamente distribuidos con normalidad y los cuantiles de los valores medidos.
Si los datos estuvieran perfectamente distribuidos, todos los puntos se situarían sobre la línea. Cuanto más se desvíen los datos de la recta, menos distribuidos estarán.
Además, DATAtab traza el intervalo de confianza del 95%. Si todos o casi todos tus datos se encuentran dentro de este intervalo, es una indicación muy clara de que tus datos están distribuidos normalmente. Tus datos no estarían distribuidos normalmente si, por ejemplo, forman un arco y se alejan de la línea en algunas zonas.
Probar la distribución normal en DATAtab
Si compruebas la distribución normal de tus datos con DATAtab, obtendrás la siguiente evaluación: primero obtendrás los procedimientos analíticos de la prueba ordenados claramente en una tabla, y después vendrán los procedimientos gráficos de la prueba.
Si quieres comprobar la distribución normal de tus datos, sólo tienes que copiarlos en la tabla de DATAtab, hacer clic en Estadística descriptiva y seleccionar la variable cuya distribución normal quieres comprobar. A continuación, haz clic en Probar distribución normal y obtendrás los resultados.
Además, si calculas una prueba de hipótesis con DATAtab, entonces puedes probar las condiciones previas para cada prueba de hipótesis, si una condición previa es la distribución normal, entonces obtendrás la prueba para la distribución normal de la misma manera.