Prueba t para muestras independientes
La prueba t para muestras independientes (o prueba t no pareada) es una prueba estadística que determina si existe una diferencia entre dos grupos no relacionados.
La prueba t para muestras independientes se utiliza para hacer una afirmación sobre la población basándose en dos muestras independientes. Para hacer esta afirmación se compara el valor medio de las dos muestras. Si la diferencia de medias es lo suficientemente grande, se supone que los dos grupos difieren.
¿Por qué necesitas la prueba t para muestras independientes?
Supongamos que quieres comprobar si hay una diferencia entre dos grupos de la población, por ejemplo, si hay una diferencia de salario entre hombres y mujeres. Es oviamente imposible preguntar a todos los hombres y mujeres por su salario, así que tomamos una muestra. Creamos una encuesta y la enviamos aleatoriamente a la gente. Para poder hacer una afirmación sobre la población basándonos en esta muestra necesitamos la prueba t independiente.
¿Cómo funciona la prueba t para muestras independientes?
La prueba t para muestras independientes pone la diferencia de medias en relación con el error típico de la media. El error típico de la media indica cuánto se dispersa el valor medio; indica lo lejos que es probable que esté la media muestral de los datos de la verdadera media poblacional. Si la fluctuación del valor medio es grande, indica que es muy probable que exista una gran diferencia entre los valores medios de los dos grupos, incluso por azar.
Por tanto, cuanto mayor sea la diferencia de medias en los dos grupos y menor sea el error típico de la media, menos probable será que la diferencia de medias dada en las dos muestras se deba al azar.
¿Qué son las muestras independientes?
Las muestras independientes existen si ningún caso o persona de un grupo puede asignarse a un caso o persona del otro grupo. Esto ocurre, por ejemplo, cuando se compara el grupo de mujeres y el de hombres, o el grupo de estudiantes de psicología con el de estudiantes de matemáticas.
Prueba t de muestra dependiente frente a prueba t de muestra independiente
La principal diferencia entre la prueba t de muestra dependiente y la de muestra independiente es la muestra.
- Si tienes una misma muestra a la que encuestar en dos momentos, utilizas una prueba t de muestra dependiente .
- Si quieres comparar dos grupos diferentes, ya procedan de una muestra o de dos muestras, utilizas una prueba t de muestra independiente .
Ejemplos de la prueba t de muestra independiente
Hay muchas aplicaciones para la prueba t de mestras independientes, es una prueba importante, por ejemplo, en bioestadística o marketing.
Ejemplo médico:
Una empresa farmacéutica quiere comprobar si el fármaco X ayuda o no a perder peso. Esto se hace dando a 20 personas el medicamento y a otras 20 un placebo.
Ejemplo de ciencias sociales:
Quieres averiguar si hay alguna diferencia entre la salud de las personas con y sin titulación universitaria.
Ejemplo técnico:
En una fábrica de tornillos quieres averiguar si dos líneas de producción producen tornillos del mismo peso. Para comprobarlo, pesas 50 tornillos de una máquina y 50 tornillos de la otra y los comparas.
Pregunta de investigación e hipótesis
Si quieres saber si dos grupos independientes son diferentes, tienes que calcular una prueba t de muestra independiente. Pero antes de calcular la prueba t, tienes que formular una pregunta de investigación y definir las hipótesis.
Pregunta de investigación para la prueba t de muestra independiente
Con la pregunta de investigación limitas tu objeto de investigación. En una prueba t para muestras independientes, la pregunta general es: ¿Existe una diferencia estadísticamente significativa entre los valores medios de dos grupos?
En los ejemplos anteriores se plantean las siguientes preguntas de investigación:
- ¿Ayuda el fármaco X a perder peso?
- ¿Existe alguna diferencia en la salud de las personas con y sin titulación universitaria?
- ¿Producen ambas lineas de producción tornillos del mismo peso?
Hipótesis para la prueba t de muestra independiente
El siguiente paso es deducir de la pregunta las hipótesis que se van a probar. Las hipótesis son suposiciones sobre la realidad cuya validez es posible pero aún no está demostrada. Siempre se formulan dos hipótesis que afirman exactamente lo contrario. Estas dos hipótesis son la hipótesis nula y la hipótesis alternativa.
Hipótesis nula H0 | Hipótesis alternativa H1 |
---|---|
No hay diferencia de medias entre los dos grupos de la población:
Las dos medias de la población son iguales.
Ejemplo: No hay diferencia entre el salario de hombres y mujeres. |
Hay una diferencia de medias entre los dos grupos de la población:
Las dos medias de la población no son
iguales. Ejemplo: Existe una diferencia entre el salario de hombres y mujeres. |
Suposiciones de la prueba t de muestra independiente
Para calcular una prueba t de muestra independiente necesitas una variable independiente (por ejemplo, el sexo) que tenga dos características o grupos (por ejemplo, hombres y mujeres) y una variable dependiente métrica (por ejemplo, los ingresos). Estos dos grupos deben compararse en el análisis. La pregunta es: ¿hay alguna diferencia entre los dos grupos con respecto a la variable dependiente (por ejemplo, los ingresos)? Las suposiciones son ahora los siguientes:
1. Los dos grupos o muestras son independientes
Como sugiere el nombre de esta prueba t, las muestras deben ser independientes. Esto significa que un valor de una muestra no debe influir en un valor de la otra muestra.
- Medir el peso de personas que han estado a dieta y personas que no han estado a dieta.
- Medir el peso de una persona antes y después de una determinada dieta.
2. Las variables tienen escala métrica
Para la prueba t para muestras independientes debe calcularse el valor medio de la muestra, lo que sólo tiene sentido si la variable tiene escala métrica.
- El peso de una persona (en kg)
- El nivel educativo de una persona
3. Las variables se distribuyen normalmente
La prueba t para muestras independientes da los resultados más precisos cuando los datos de cada grupo se distribuyen normalmente. Sin embargo, hay excepciones en casos especiales.
- El peso, la edad o la altura de una persona.
- El número tras lanzar un dado.
4. La varianza dentro de los grupos es similar
Dado que la varianza es necesaria para calcular el valor t, la varianza dentro de cada grupo debe ser similar.
- Peso, edad o altura de una persona
- La crisis bursátil en tiempos "normales" y en recesión
¿No se cumplen las suposiciones?
Si no se cumplen las suposiciones de la prueba t independiente, el valor p calculado puede ser incorrecto. Sin embargo, si las dos muestras tienen el mismo tamaño, la prueba t es bastante robusta ante una ligera asimetría de los datos. La prueba t no es robusta si las varianzas difieren significativamente.
Si las variables no se distribuyen normalmente, puede utilizarse la prueba U de Mann-Whitney. La prueba U de Mann-Whitney es la prueba homóloga no paramétrica de la prueba t de muestra independiente.
Calcular la prueba t para muestras independientes
Dependiendo de si se supone que la varianza entre los dos grupos es igual o desigual, se obtiene una fórmula diferente para el estadístico t de la prueba. La comprobación de si las varianzas son iguales o no se realiza con la Prueba de Levene que prueba la hipótesis nula de que las varianzas son iguales. Si el valor p de la prueba de Levene es inferior al 5%, se supone que existe una diferencia en las varianzas de los dos grupos.
Varianzas iguales (homogéneas)
Si la prueba de Levene arroja un valor p superior al 5%, se supone que ambos grupos tienen igual varianza y los estadísticos de la prueba son:
El valor p puede determinarse entonces a partir de la tabla con la distribución t. El número de grados de libertad viene dado por
donde n1 y n2 son de nuevo el número de casos de las dos muestras.
Varianza desigual (heterogénea)
El estadístico t de una prueba t para muestras independientes con varianza desigual se calcula mediante
El valor p se deduce entonces de la tabla con la distribución t, donde los grados de libertad se obtienen mediante la siguiente ecuación:
Intervalo de confianza para la verdadera diferencia de las medias
La diferencia de medias calculada en la prueba t independiente se ha calculado utilizando la muestra. Ahora interesa saber en qué intervalo se encuentra la verdadera diferencia de medias. Para determinar dentro de qué límites es probable que se encuentre la verdadera diferencia, se calcula el intervalo de confianza.
El intervalo de confianza del 95% para la diferencia de medias verdadera puede calcularse mediante la siguiente fórmula:
donde t* es el valor t obtenido al 97.5% y los grados de libertad df.
Prueba t unilateral y bilateral de muestra independiente
Como se explica en el artículo sobre hipótesis, existen hipótesis unilaterales y bilaterales (también llamadas hipótesis dirigidas y no dirigidas). Para dar cabida a esto, también existe una prueba t unilateral y bilateral para muestras independientes. Por defecto, se calcula la prueba t de muestra dependiente de una cola , que también es un resultado dado en DATAtab.
Para obtener la prueba t unilateral para muestras independientes, el valor p debe dividirse por dos. Ahora depende de si los datos tienden "en la dirección" de la hipótesis o no. Si la hipótesis dice que la media de un grupo es mayor o menor que la media del otro grupo, esto también debe verse en el resultado. Si no es así, hay que calcular 1 menos el valor p dividido por la mitad.
Tamaño del efecto de la prueba t muestra independiente
El tamaño del efecto en una prueba t muestra independiente suele calcularse utilizando la g de Hedges, también llamada d. En la calculadora de la prueba t muestra independiente de DATAtab puedes obtener fácilmente el tamaño del efecto.
¿Para qué necesitas el tamaño del efecto?
El valor p calculado depende mucho del tamaño de la muestra. Por ejemplo, si hay una diferencia en la población, cuanto mayor sea el tamaño de la muestra, más claramente "mostrará" esta diferencia el valor p. Si el tamaño de la muestra se elige muy alto, pueden "detectarse" en la población incluso diferencias muy pequeñas, que tal vez ya no sean relevantes. Para normalizarlo, se utiliza el tamaño del efecto además del valor p.
Calcular la prueba t para muestras independientes con DATAtab
Una profesora quiere saber si los resultados de los exámenes de estadística del semestre de verano difieren de los del semestre de invierno. Para ello, crea un resumen con los puntos obtenidos por examen.
Pregunta de investigación:
¿Existe una diferencia significativa entre los resultados de los exámenes del semestre de verano y los del semestre de invierno?
Hipótesis nula H0:
No hay diferencia entre las dos muestras. No hay diferencia entre los resultados de los exámenes de estadística en el semestre de verano y en el semestre de invierno.
Hipótesis alternativa H1:
Existe una diferencia entre las dos muestras. Existe una diferencia entre los resultados de los exámenes de estadística del semestre de verano y los del semestre de invierno.
Semestre de verano | Semestre de invierno |
---|---|
52 | 53 |
61 | 71 |
40 | 38 |
46 | 34 |
50 | 68 |
56 | 68 |
44 | 46 |
47 | 41 |
70 | 38 |
40 | 23 |
65 | 28 |
38 | |
68 |
Tras copiar los datos de ejemplo anteriores en la Calculadora de Pruebas de Hipótesis de DATAtab, puedes calcular la prueba t para muestras independientes. Los resultados del ejemplo de la prueba t tienen este aspecto:
Estadística de grupo
n | Media | Desviación típica | Error típico de la media | |
Semestre de verano | 13 | 52.077 | 11.026 | 3.058 |
Semestre de invierno | 11 | 46.182 | 16.708 | 5.038 |
Prueba t muestra independiente
t | df | p | ||
Semestre de verano y semestre de invierno | Varianza igual | 1.035 | 22 | 0.312 |
Varianza desigual | 1 | 16.824 | 0.331 |
Intervalo de confianza del 95%
Diferencia de valor medio | Error típico de la diferencia |
Inferior | Superior | ||
Semestre de verano y semestre de invierno | Igual varianza | 5.895 | 5.893 | -6.328 | 18.118 |
Varianza desigual | 5.895 | 5.893 | -6.55 | 18.34 |
¿Cómo interpretar una prueba t para muestras independientes?
Para afirmar si tu hipótesis es significativa o no, se utiliza uno de los dos valores siguientes
- valor p (2 colas)
- intervalo de confianza inferior y superior de la diferencia
En este ejemplo de prueba t, el valor p (2 colas) es 0.312 o 31%. Esto significa que la probabilidad de que se obtenga una muestra en la que ambos grupos difieran más que los grupos del ejemplo es del 31%. Como el nivel de significación se fijó en el 5%, es por tanto inferior al 31%. Por este motivo, se supone que no hay diferencias significativas entre las dos muestras y que, por tanto, proceden de la misma población.
La segunda forma de determinar si existe o no una diferencia significativa es utilizar el intervalo de confianza de la diferencia. Si los límites inferior y superior coinciden, no hay diferencia significativa. Si no es así, hay una diferencia significativa. En este ejemplo de prueba t, el valor inferior es -6.328 y el valor superior es 18.118. Como los valores inferior y superior son cero, no hay diferencia significativa.
Es práctica habitual mostrar primero las dos muestras en un gráfico antes de calcular una prueba t para muestras independientes. Para ello, es adecuado un diagrama de caja que visualiza muy bien la Medida de la Tendencia Central y la Medida de la Variabilidad de las dos muestras independientes.