Análisis unifactorial de la varianza (ANOVA de una vía)
El análisis unifactorial de la varianza comprueba si existe diferencia entre las medias de más de 2 grupos.
Así pues, el ANOVA de una vía es la extensión de la prueba t independiente a más de dos grupos o muestras.
Ejemplo de ANOVA de una vía (o de un factor)
Un caso de uso clásico del análisis de la varianza es la investigación terapéutica. Por ejemplo, podrías estar interesado en saber si diferentes terapias dan lugar a diferentes niveles de éxito a nivel terapéuticos tras una hernia discal. Para ello podrías probar tres terapias diferentes.
Por un lado, podrías simplemente discutir con el paciente qué movimientos son buenos y cuáles son malos para los discos intervertebrales, luego podrías tratar a un grupo con medicación y con el último grupo podrías hacer estiramientos y entrenamiento de fuerza.
Al final de la terapia, podrías medir el éxito y utilizar un análisis de varianza para calcular si existe una diferencia significativa entre los tres tipos de terapia. Por supuesto, deben cumplirse las hipótesis para calcular un ANOVA; más adelante hablaremos de ello.
Conjunto de datos de un caso médico
Para realizar un análisis de varianza (ANOVA) en un contexto médico, normalmente se tiene un conjunto de datos con múltiples grupos o tratamientos, y se querrá determinar si existen diferencias significativas entre estos grupos. A continuación se muestra un conjunto de datos ficticios que podrían utilizarse para un análisis ANOVA médico.
Supón que estás estudiando la eficacia de tres fármacos diferentes (fármaco A, fármaco B y fármaco C) para reducir la presión arterial. Asignas aleatoriamente 90 pacientes a uno de los tres grupos de fármacos y mides su tensión arterial tras un mes de tratamiento. Las mediciones de la presión arterial (en mmHg) de cada paciente son las siguientes:
Cargar datos de presión arterialEn este conjunto de datos, cada grupo de fármacos representa un tratamiento o condición independiente, y se registran las mediciones de la tensión arterial de cada paciente de ese grupo.
Para analizar este conjunto de datos utilizando ANOVA, compararías las medias de las mediciones de la presión arterial entre los tres grupos de fármacos para determinar si existe una diferencia estadísticamente significativa.
Hipótesis del análisis de varianza de una vía
Queremos saber si los grupos de la variable independiente influyen en la variable dependiente.
La pregunta que puede responderse con un análisis de varianza de un factor es: ¿Existe alguna diferencia en la población entre los distintos grupos de la variable independiente con respecto a la variable dependiente?
En el ejemplo anterior, los grupos de la variable independiente son los distintos tipos de terapia y la variable dependiente es la percepción del dolor tras la terapia respectiva.
¿Por qué queremos comprobar si existe una diferencia en la población? En realidad queremos hacer una afirmación sobre la población, desgraciadamente en la mayoría de los casos no es posible encuestar a toda la población y sólo podemos extraer una muestra aleatoria.
El objetivo es hacer una afirmación sobre la población basándonos en esta muestra con ayuda del análisis de la varianza.
Así pues, no hicimos el experimento sobre el éxito de la terapia con todas las personas que tienen una hernia discal, sino sólo con una muestra aleatoria, pero aun así nos gustaría generalizar la afirmación para la población.
La hipótesis nula y la hipótesis alternativa resultan:
Hipótesis nula H0 | Hipótesis alternativa H1 |
---|---|
No hay diferencias significativas entre las medias de los grupos individuales. | Al menos dos medias de grupo son significativamente diferentes entre sí. |
Por tanto, la hipótesis nula afirma que no hay diferencias, y la hipótesis alternativa afirma que sí las hay.
Hipótesis del análisis de varianza de un factor
Para que se pueda calcular un ANOVA de un factor, deben cumplirse las siguientes condiciones:
1. Nivel de escala
El nivel de escala de la variable dependiente debe ser métrico; el de la variable independiente de escala nominal.
2. Independencia
Las mediciones deben ser independientes, es decir, el valor medido de un grupo no debe estar influido por el valor medido de otro grupo.
3. Homogeneidad
Las varianzas de cada grupo deben ser aproximadamente iguales. Esto puede comprobarse con la prueba de Levene.
4. Distribución normal
Los datos dentro de los grupos deben tener una distribución normal.
¿Qué ocurre si no se cumplen los requisitos previos? Si el nivel de escala de la variable dependiente no es métrico y no se distribuye normalmente, puede utilizarse la prueba de Kruskal-Wallis. Si los datos son una muestra dependiente, entonces debe utilizarse el análisis de la varianza con medidas repetidas.
Cálculo del análisis de varianza de un solo factor
Para calcular un análisis de la varianza, primero hay que calcular las medias de los grupos individuales y la media global. Después se pueden calcular las diferentes sumas de cuadrados QS.
A continuación, se pueden calcular los cuadrados medios a partir de las sumas de cuadrados y, por último, se puede calcular el valor F. El valor p puede calcularse a partir del valor F y los grados de libertad mediante la distribución F.
Sin embargo, normalmente el valor p se calcula simplemente utilizando un software estadístico como DATAtab, véase más abajo.
Tamaño del efecto para el ANOVA de un solo factor
En el análisis de varianza de un solo factor, el tamaño del efecto puede calcularse de distintas formas. Las más comunes son Eta al cuadrado, Eta al cuadrado parcial y el tamaño del efecto de Cohen.
Eta al cuadrado y Eta al cuadrado parcial
Eta al cuadrado η2 indica la proporción de la varianza total de la variable dependiente que puede explicar la variable independiente.
En el caso del análisis de varianza de un solo factor sin medidas repetidas, Eta al cuadrado corresponde a Eta al cuadrado parcial.
Tamaño del efecto f según Cohen
Una vez calculado el Eta cuadrado parcial, el tamaño del efecto f según Cohen viene dada por:
Aquí se puede utilizar la clasificación de Cohen (1988) como orientación:
f | Clasificación según Cohen (1988) |
---|---|
0.1 | efecto débil |
0.25 | efecto moderado |
0.4 | efecto fuerte |
Cálculo del análisis de la varianza de un factor con DATAtab
el ejemplo directamente con DATAtab de forma gratuita:
Cargar conjunto de datos ANOVASi quieres calcular un análisis de la varianza de un factor con DATAtab, sólo tienes que hacer clic en la Calculadora estadística y luego en la pestaña Pruebas de hipótesis.
Si ahora seleccionas una variable métrica y una variable nominal con más de 2 valores, se calculará automáticamente un análisis de varianza.
Primero obtendrás las hipótesis y los estadísticos descriptivos. Luego puedes leer gráficamente la dispersión de los grupos individuales en un diagrama de caja.
Por último, obtienes la prueba de Levene de igualdad de varianzas. La prueba de Levene arroja un valor p de 0.184, que es superior al nivel de significación de 0.05. Por tanto, se confirma la hipótesis nula de que las varianzas de los distintos grupos son iguales y, por lo tanto, existe homogeneidad de varianzas.
En la tabla "ANOVA" puedes leer el valor p calculado del análisis de la varianza. Si es mayor que el nivel de significación, que suele ser 0.05, se mantiene la hipótesis nula y se supone que no hay diferencias significativas entre los grupos. En este ejemplo, el valor p es 0.072, superior al nivel de significación de 0.05, por lo que se mantiene la hipótesis nula y se asume que no hay diferencia en el tiempo de reacción entre los tres grupos.
Si no sabes exactamente cómo interpretar los resultados de tus propios datos, también puedes simplemente hacer clic en Resumen en palabras.
Pruebas post-hoc de Bonferroni
Por último, se te ofrecen pruebas post hoc, como la prueba post hoc de Bonferroni.
Si el valor p del análisis de la varianza es inferior a 0.05, se puede suponer que al menos dos grupos difieren en el valor medio. Con la ayuda de la prueba post-hoc de Bonferroni, ahora se puede comprobar cuál de los grupos difiere.
Por tanto, en este ejemplo, no tiene sentido calcular una prueba post-hoc porque el valor p del análisis de la varianza es superior a 0.05 y, por tanto, no hay diferencia significativa entre los grupos.
Si el valor p del ANOVA fuera menor que 0.05, podrías simplemente mirar en las filas individuales para ver qué valor p es menor que 0.05. Si uno o más valores p son menores que 0.05, puede suponerse que esos grupos difieren significativamente.