Prueba de hipótesis

Las pruebas de hipótesis son procedimientos estadísticos de prueba, como la prueba t o el análisis de varianza, con los que puedes probar hipótesis basadas en datos recogidos.

¿Cuándo necesito una prueba de hipótesis?

Una prueba de hipótesis se utiliza siempre que quieras probar una hipótesis sobre la población con la ayuda de una muestra. Por tanto, siempre que quieras demostrar o decir algo sobre la población con una muestra, se utilizan las pruebas de hipótesis.

Población, muestra y prueba de hipótesis

Un ejemplo posible sería que la empresa "My-Muesli" quisiera saber si las barritas de muesli que produce pesan realmente 250 g. Para ello, se toma una muestra aleatoria y luego se utiliza una prueba de hipótesis para sacar conclusiones sobre todas las barritas de muesli producidas.

En estadística, las pruebas de hipótesis pretenden contrastar hipótesis sobre la población a partir de las características de la muestra.

La prueba de hipótesis y la hipótesis nula

Como sabemos por el anterior tutorial sobre hipótesis , siempre hay una hipótesis nula y una hipótesis alternativa. En la estadística inferencial "clásica", la hipótesis nula siempre se comprueba mediante una prueba de hipótesis. La comprobación se hace para ver si no hay diferencia o relación.

Si quieres ser preciso al 100% (incluso nosotros en DATAtab no lo somos de vez en cuando), la hipótesis nula H0 sólo puede rechazarse o no rechazarse mediante una prueba de hipótesis. El no rechazo de H0 no es razón suficiente para concluir que H0 es cierta. Por tanto, siempre debe decirse "H0 no se rechazó" y no "H0 se mantuvo".

Anticipando brevemente el valor p: si el valor p es inferior a 0.05, se rechaza la hipótesis nula; si el valor p es superior a 0.05, no se rechaza.

¿Por qué existe una probabilidad de error en una prueba de hipótesis?

El rechazo o no rechazo de una suposición o hipótesis sobre la población mediante una prueba de hipótesis sólo puede determinarse con una cierta probabilidad de error. Pero, ¿por qué existe la probabilidad de error?

He aquí la respuesta breve: cada vez que tomas una muestra, obtienes, por supuesto, una diferente, lo que significa que los resultados son diferentes cada vez. En el peor de los casos, se toma una muestra que casualmente se desvía mucho de la población y se hace una afirmación errónea. Por tanto, siempre hay una probabilidad de error para cada afirmación o hipótesis.

Nivel de significación

Una prueba de hipótesis nunca puede rechazar la hipótesis nula con absoluta certeza. Siempre hay una cierta probabilidad de error, de que se rechace la hipótesis nula aunque en realidad sea cierta. Esta probabilidad de error se denomina nivel de significación o α.

El nivel de significación se utiliza para decidir si la hipótesis nula debe rechazarse o no. Si el valor p es menor que el nivel de significación, hay que rechazar la hipótesis nula; en caso contrario, no hay que rechazarla.

Normalmente, se establece un nivel de significación del 5% o del 1%. Si se establece un nivel de significación del 5%, significa que hay un 5% de probabilidades de rechazar la hipótesis nula aunque sea realmente cierta.

Ilustrado por la prueba t de dos muestras, esto significa que las medias observadas de dos muestras tienen una cierta distancia entre sí. Cuanto mayor sea la distancia observada entre los valores medios, menos probable es que ambas muestras procedan de la misma población. La cuestión ahora es ¿en qué punto es "suficientemente improbable" como para rechazar la hipótesis nula? Si se establece un nivel de significación del 5%, un 5% es "suficientemente improbable" para rechazar la hipótesis nula.

La probabilidad de que se extraigan dos muestras de una población y de que tengan la distancia media observada, o incluso una distancia aún mayor, viene indicada por el valor p. En consecuencia, si el valor p es menor que el nivel de significación, se rechaza la hipótesis nula; si el valor p es mayor que el nivel de significación, no se rechaza la hipótesis nula.

Si, por ejemplo, resulta un valor p de 0.04 , la probabilidad de que dos grupos con una distancia media observada o una distancia aún mayor procedan de la misma población es del 4%. Así pues, el valor p es inferior al nivel de significación del 5% y, por tanto, se rechaza la hipótesis nula.

Es importante tener en cuenta que el nivel de significación siempre se fija antes de la prueba y no puede modificarse después para obtener, al fin y al cabo, la afirmación "deseada". Para garantizar cierto grado de comparabilidad, el nivel de significación suele ser del 5% o del 1%.

α ≤ 0.01 altamente significativo (h.s.)
α ≤ 0.05 significativo (s.)
α > 0.05 no significativo (n.s.)

Ejemplo: Nivel de significación y valor p

H0: Los hombres y las mujeres de Alemania no difieren en sus ingresos netos mensuales medios.

Para comprobar esta hipótesis, se establece un nivel de significación del 5% y se realiza una encuesta en la que se pregunta a 600 mujeres y 600 hombres por sus ingresos netos mensuales. Una prueba t independiente da un valor p de 0.04.

El valor p de 0.04 es inferior al nivel de significación de 0.05 , por lo que rechazamos la hipótesis nula. Basándonos en los datos recogidos, tenemos pruebas suficientes de que existe una diferencia estadísticamente significativa en los ingresos netos mensuales medios de la población de hombres y mujeres de Alemania.

Tipos de errores

Dado que una hipótesis sólo puede rechazarse con una probabilidad determinada, se producen distintos tipos de errores. Debido a la selección de la muestra, puede ocurrir que la hipótesis nula se rechace por azar, aunque en realidad no haya diferencia. Es decir, que la hipótesis nula sea válida. Por el contrario, el resultado de la prueba de hipótesis también puede ser que no se rechace la hipótesis nula, aunque en realidad haya una diferencia y, por tanto, la hipótesis alternativa sea la realmente cierta.

En consecuencia, existen dos tipos de errores en la prueba de hipótesis:

Error de tipo 1: Si se acepta la hipótesis alternativa aunque la hipótesis nula sea válida.
Error de tipo 2: Si se mantiene la hipótesis nula aunque sea válida la hipótesis alternativa.

En general, se dan los siguientes casos:

Significación frente al tamaño del efecto

Ahora sabemos que solemos aceptar la hipótesis alternativa cuando el valor p es inferior a 0.05. Entonces suponemos que existe un efecto, por ejemplo, una diferencia entre dos grupos.

Sin embargo, es importante tener en cuenta que el mero hecho de que un efecto sea estadísticamente significativo no significa que el efecto sea relevante.

Si se toma una muestra muy grande y la muestra tiene una dispersión muy pequeña, incluso una diferencia muy pequeña entre dos grupos puede ser significativa, pero puede no ser relevante para ti.

Ejemplo

Una empresa vende pizza congelada y quiere comprobar si un envase de mayor calidad conlleva un aumento de las ventas.

Según los datos recogidos, el valor p es inferior a 0.05 y, por tanto, hay un aumento estadísticamente significativo.

Así que la empresa puede suponer que el envasado de mayor calidad aumentará las ventas de forma estadísticamente significativa. Sin embargo, existe una probabilidad menor del 5% de que dicho aumento, o incluso uno mayor, se diese también en el caso de que el envase no influyera.

Pero ahora la cuestión es si el aumento también es económicamente relevante. Puede ocurrir que los ingresos derivados del aumento de las cifras de ventas no compensen los mayores costes del envase.

Por lo tanto, siempre hay que considerar tanto si un efecto es significativo como si el efecto es relevante en absoluto.

¿Cómo encuentro la prueba de hipótesis adecuada?

Existen varios procedimientos de prueba para probar hipótesis. Por un lado, se dividen según los niveles de medida de la muestra

y, por otro, según el número de muestras y la relación entre ellas.

DATAtab te ayuda a encontrar la prueba adecuada, sólo tienes que seleccionar los datos que quieres evaluar. En función del nivel de escala de tus datos, DATAtab te sugerirá la prueba adecuada.

En función de las variables seleccionadas, se calcula

Prueba t de una muestra
Prueba t para muestras independientes
Prueba t para muestras relacionadas
Prueba Chi-cuadrado
Prueba binomial
ANOVA con o sin medidas repetidas
ANOVA de 2 vías con o sin medidas repetidas
Prueba de Wilcoxon
Prueba U de Mann-Whitney
Prueba de Friedman
Prueba de Kruskal-Wallis
...

En la tabla siguiente se enumeran los procedimientos de prueba pertinentes. Si conoces el nivel de escala de las variables de tu hipótesis, ¡podrás ver en la tabla qué prueba podría ajustarse!

	Nivel de medición
	nominal	ordinal	métrica
Prueba binomial	1 x nominal
Prueba t para una muestra			1 x métrica
Prueba Chi-cuadrado	1 x o 2 x nominal
Prueba t para muestras independientes	1 x nominal con dos categorías		1 x métrica
Prueba U de Mann-Whitney	1 x nominal con dos categorías	1 x ordinal
Análisis de varianza de un factor	1 x nominal con más de dos categorías		1 x métrica
Prueba de Kruskal-Wallis	1 x nominal con más de dos categorías	1 x ordinal
Correlación de Pearson			2 x métrica
Correlación de Spearman		2 x ordinal
Correlación punto-biserial	1 x nominal con dos categorías		1 x métrica
Prueba t para muestras relacionadas			2 x métrica
Prueba de Wilcoxon		2 x ordinal
Análisis de varianza para medidas repetidas			más de 2 x métrica
Prueba de Friedman		más de 2 x ordinal

Si se va a comprobar una hipótesis de correlación, se calcula un análisis de correlación. En tal caso se utiliza la correlación de Pearson o la correlación de Spearman.