Análisis de la varianza (ANOVA)
¿Qué es un análisis de la varianza?
Un análisis de la varianza (ANOVA) comprueba si existen diferencias estadísticamente significativas entre más de dos muestras. Para ello, se comparan entre sí las medias y las varianzas de los respectivos grupos. A diferencia de la prueba t, que comprueba si hay una diferencia entre dos muestras, el ANOVA comprueba si hay una diferencia entre más de dos grupos.
Existen distintos tipos de análisis de la varianza, siendo los más comunes el análisis de la varianza de una vía y el de dos vías, cada uno de los cuales puede calcularse con o sin medidas repetidas.
En este tutorial aprenderás los fundamentos del ANOVA; para cada uno de los cuatro tipos de análisis de la varianza encontrarás un tutorial detallado por separado:
- ANOVA de un factor (o de una vía)
- ANOVA de dos factores (o de dos vías)
- ANOVA de un factor con medidas repetidas
- ANOVA de dos factores con medidas repetidas
Consejo: Puedes calcular fácilmente las cuatro variantes del ANOVA online en DATAtab. Sólo tienes que visitar la calculadora de ANOVA.
¿Por qué no se calculan múltiples pruebas t?
El ANOVA se utiliza cuando hay más de dos grupos. Por supuesto, también sería posible calcular una prueba t para cada combinación de los grupos. El problema aquí, sin embargo, es que toda prueba de hipótesis tiene cierto grado de error. Esta probabilidad de error suele fijarse en el 5%, de modo que, desde un punto de vista puramente estadístico, de cada 20 pruebas, una da un resultado erróneo.
Si, por ejemplo, se comparan 20 grupos en los que en realidad no hay diferencias, una de las pruebas mostrará una diferencia significativa simplemente derivada del muestreo.
Diferencia entre ANOVA de una vía y de dos vías
El análisis de varianza de una vía sólo comprueba si una variable independiente influye en una variable dependiente métrica. Es el caso, por ejemplo, si se quiere examinar si el lugar de residencia (variable independiente) influye en el salario (variable dependiente). Sin embargo, si se consideran dos factores, es decir, dos variables independientes, debe utilizarse un análisis de varianza de dos factores.
ANOVA de un factor | ANOVA de dos factores |
---|---|
¿Influye el lugar de residencia de una persona (variable independiente) en su salario? | ¿Influyen el lugar de residencia de una persona (1ª variable independiente) y el sexo (2ª variable independiente) en su salario? |
El análisis de varianza de dos factores comprueba si existe una diferencia entre más de dos muestras independientes divididas entre dos variables o factores.
Análisis de la varianza con y sin medidas repetidas
Dependiendo de si la muestra es independiente o dependiente, se utiliza el análisis de la varianza con o sin medidas repetidas. Si se entrevistó a la misma persona en varios momentos, la muestra es una muestra dependiente y se utiliza el análisis de la varianza con medidas repetidas.
ANOVA de una vía
El análisis de varianza de una vía o factor es una ampliación de la prueba t para grupos independientes. Con la prueba t sólo se pueden comparar un máximo de dos grupos; ahora se amplía a más. Por tanto, para dos grupos (k = 2), el análisis de la varianza es equivalente a la prueba t. En consecuencia, la variable independiente es una variable de escala nominal con al menos dos valores característicos. La variable dependiente tiene una escala métrica. En el caso del análisis de la varianza, la variable independiente se denomina factor.
Definición
¿Existe una diferencia en la población entre los distintos grupos de la variable independiente con respecto a la variable dependiente?
El objetivo del ANOVA es explicar la mayor varianza posible de la variable dependiente dividiéndola en grupos. Consideremos el siguiente ejemplo.
Ejemplo de ANOVA de una vía
Con la ayuda de la variable dependiente "titulación educativa más alta", dividida en los tres grupos 1, 2 y 3, se debe explicar tanta varianza de la variable dependiente "salario" como sea posible. En el gráfico siguiente, con la división A) se puede explicar mucha varianza con los tres grupos, mientras que con B) se puede explicar muy poca.
En consecuencia, en el caso A) los grupos tienen una influencia muy alta en el salario y en el caso B) no.
En el caso A), los valores de los grupos respectivos sólo se desvían ligeramente de la media del grupo, por lo que la varianza dentro de los grupos es muy pequeña. En cambio, en el caso B), la varianza dentro de los grupos es grande. La varianza entre los grupos es al revés; es grande en el caso de A) y pequeña en el caso de B). En el caso de B), las medias de los grupos están próximas, en el caso de A) no lo están.
Análisis de hipótesis de varianza
La hipótesis nula y la hipótesis alternativa resultan de un análisis de varianza de una vía de la siguiente manera:
- Hipótesis nula H0: El valor medio de todos los grupos es el mismo.
- Hipótesis alternativa H1: Existen diferencias en los valores medios de los grupos.
Los resultados del Anova sólo permiten afirmar si existen diferencias entre al menos dos grupos. Sin embargo, no se puede determinar qué grupos son exactamente diferentes. Se necesita una prueba post-hoc para determinar qué grupos difieren. Hay varios métodos entre los que elegir, siendo Duncan, Dunnet C y Scheffe algunos de los más comunes.
Ejemplo
En una fábrica de tornillos, un tipo de tornillo se produce en tres líneas de producción distintas. Ahora quieres averiguar si todas las líneas de producción producen tornillos con el mismo peso. Para ello, tomas 50 tornillos de cada línea de producción y mides el peso. Ahora utilizas el procedimiento ANOVA para determinar si el peso medio de los tornillos de las tres líneas de producción difiere significativamente entre sí.
Un ejemplo de análisis de varianza de una vía sería investigar si el consumo diario de café de los estudiantes de distintas asignaturas difiere significativamente.
Variable dependiente | Variable independiente | |
---|---|---|
Nivel de medida | Una variable de escala de intervalo |
Una variable de escala nominal con al menos dos niveles |
Ejemplo | Consumo semanal de café | Asignatura (matemáticas, psicología, economía) |
Requisitos para el análisis unidireccional de la varianza
Antes de realizar un análisis de varianza, es importante comprobar los siguientes requisitos previos para saber si los datos son adecuados para esta prueba. Estos requisitos son los siguientes:
- Nivel de escala: El nivel de escala de la variable dependiente debe ser métrico, mientras el de la variable independiente debe ser nominal.
- Independencia: Las mediciones deben ser independientes, es decir, el valor medido de un grupo no debe estar influido por el valor medido de otro grupo.
- Homogeneidad: Las varianzas de cada grupo deben ser aproximadamente iguales. Esto puede comprobarse con la prueba de Levene.
- Distribución normal: Los datos de los grupos deben tener una distribución normal. Esto significa que la mayoría de los valores se encuentran en el intervalo medio, mientras que muy pocos valores están significativamente por debajo o por encima. Si no se cumple esta condición, puede utilizarse la prueba de Kruskal-Wallis.
Si no hay muestras independientes, sino dependientes, se utiliza un análisis de varianza de un factor con medidas repetidas.
ANOVA de Welch
Si no se cumple la condición de homogeneidad de varianzas, se puede calcular el ANOVA de Welch en lugar del ANOVA "normal". Si la prueba de Levene da como resultado una desviación significativa de las varianzas de los grupos, DATAtab calcula entonces automáticamente también el ANOVA de Welch.
Tamaño del efecto Eta al cuadrado (η²)
Las medidas más conocidas del tamaño del efecto para el análisis de la varianza son la Eta al cuadrado y la Eta al cuadrado parcial. Para un ANOVA de un solo factor, la Eta al cuadrado y la Eta al cuadrado parcial son idénticas.
La Eta al cuadrado estima la varianza que explica una variable. Sin embargo, debe tenerse en cuenta que la varianza explicada siempre se sobreestima. Eta al cuadrado se calcula dividiendo la suma de cuadrados por la suma de cuadrados total.
Análisis de varianza de dos factores
Como su nombre indica, el análisis de varianza de dos factores examina la influencia de dos factores en una variable dependiente. Amplía el análisis de una vía de la varianza con un factor más, es decir, con otra variable independiente de escala nominal. La cuestión vuelve a ser si la media de los grupos difiere significativamente.
Variable dependiente | Variable independiente | |
---|---|---|
Nivel de medida | Una variable de escala de intervalo | Dos variables de escala nominal |
Ejemplo | Consumo semanal de café |
Asignatura (matemáticas, psicología, economía) y semestre (invierno, verano) |
Ejemplo
En una fábrica de tornillos, se produce un tipo de tornillo mediante tres sistemas de producción diferentes (factor 1) en dos turnos (factor 2). Ahora quieres averiguar si los medios de producción o los turnos influyen en el peso de los tornillos. Para ello, tomas 50 tornillos de cada línea de producción y de cada turno y mides el peso. Ahora utilizas el ANOVA de dos factores para determinar si el peso medio de los tornillos de las tres líneas de producción y los dos turnos es significativamente diferente entre sí.
Análisis de varianza de dos factores con repetición de medidas
En el análisis de varianza de dos factores con repetición de medidas , hay una variable de repetición de medidas y, además, una variable categórica.
Ejemplo con DATAtab
Análisis de varianza de una vía:
Quieres comprobar si hay diferencias en el consumo de café entre alumnos de distintas asignaturas. Para ello, pregunta a 10 alumnos de cada especialidad.
Consumo de café | Asignatura |
---|---|
21 | Matemáticas |
23 | Matemáticas |
18 | Economía |
22 | Economía |
... | ... |
Una vez copiada la tabla anterior en la calculadora de la prueba de hipótesis, haz clic en Prueba de hipótesis y selecciona las tres variables. El resultado es el siguiente
Análisis de varianza de una vía:
n | Media | Desviación estándar | |
---|---|---|---|
Matemáticas | 10 | 16.6 | 7.291 |
Economía | 10 | 19.8 | 4.131 |
Psicología | 10 | 17.8 | 6.443 |
Total | 30 | 18.067 | 6.04 |
Suma de cuadrados | df | Media de cuadrados | F | p | |
---|---|---|---|---|---|
Entre los grupos | 52.267 | 2 | 26.133 | 0.702 | 0.505 |
Dentro de los grupos | 1005.6 | 27 | 37.244 | ||
Total | 1057.867 | 29 |