Prueba Chi-cuadrado

Cargar conjunto de datos de la prueba χ²

La prueba Chi-cuadrado es una prueba de hipótesis utilizada para determinar si existe una relación entre dos variables categóricas.

¿Qué son las variables categóricas? Las variables categóricas son, por ejemplo, el sexo, el periódico preferido, la frecuencia con que se ve la televisión o el nivel educativo de una persona. Por lo tanto, siempre que haya que verificar si existe una relación entre dos variables categóricas, se utiliza una prueba Chi-cuadrado.

Definición:

La prueba Chi-cuadrado es una prueba de hipótesis utilizada para variables categóricas con escala de medida nominal u ordinal. La prueba Chi-cuadrado comprueba si las frecuencias que se dan en la muestra difieren significativamente de las frecuencias que cabría esperar. Así, se comparan las frecuencias observadas con las esperadas y se examinan sus desviaciones.

Supongamos que queremos investigar si existe una relación entre el sexo y el nivel educativo. Para ello, creamos un cuestionario en el que los participantes marcan su sexo y cuál es su nivel educativo. A continuación, el resultado de la encuesta se muestra en una tabla de contingencia.

Se utiliza la prueba Chi-cuadrado para investigar si existe relación entre el sexo y el nivel educativo.

Hipótesis nula e hipótesis alternativa

La hipótesis nula y la hipótesis alternativa resultan entonces

Hipótesis nula: no hay relación entre el sexo y el nivel educativo.

Hipótesis alternativa: Existe una relación entre el sexo y el nivel educativo.

Consejo: En DATAtab puedes calcular la prueba Chi-cuadrado en línea. Sólo tienes que visitar la Calculadora de la Prueba Chi-cuadrado.

Aplicaciones de la prueba Chi-cuadrado

Existen varias aplicaciones de la prueba de Chi-cuadrado. Se puede utilizar para responder a las siguientes preguntas:

1) Prueba de independencia

¿Son dos variables categóricas independientes entre sí? Por ejemplo, ¿influye el sexo en que una persona esté o no suscrita a Netflix?

2) Prueba de distribución

¿Los valores observados de dos variables categóricas son iguales a los valores esperados? Una pregunta podría ser, ¿tiene uno de los tres servicios de streaming de vídeo -Netflix, Amazon o Disney- suscripciones por encima de la media?

3) Prueba de homogeneidad

¿Proceden dos o más muestras de la misma población? Una pregunta podría ser si las frecuencias de suscripción a los tres servicios de streaming de vídeo -Netflix, Amazon y Disney- difieren en los distintos grupos de edad.

Calcular Chi-cuadrado

El valor de Chi-cuadrado se calcula mediante:

Para aclarar el cálculo del valor Chi-cuadrado, nos referimos al caso siguiente: para las variables uno y dos con categoría A y B, se hizo una observación o existe una muestra. Ahora queremos comprobar si las frecuencias de la muestra se corresponden con las frecuencias esperadas de la población.

Frecuencia observada:

	Categoría A	Categoría B
Categoría A	10	13
Categoría B	13	14

Frecuencia esperada:

	Categoría A	Categoría B
Categoría A	9	11
Categoría B	12	13

Con la fórmula superior ya puedes calcular el valor Chi-cuadrado:

Después de calcular Chi-cuadrado se necesita el número de grados de libertad df. Éste viene dado por

con

p: número de líneas
q: número de columnas

En la tabla de la distribución Chi-cuadrado se puede leer ahora el valor crítico de Chi-cuadrado. Para un nivel de significación del 5 %, resulta 3.841. Como el valor de Chi-cuadrado calculado es menor, no hay diferencia significativa.

Como requisito previo para esta prueba, ten en cuenta que todas las frecuencias esperadas deben ser mayores que 5.

Prueba Chi-cuadrado de independencia

La prueba Chi-cuadrado de independencia se utiliza cuando se desea comprobar la independencia de dos variables categóricas. El objetivo es analizar si los valores característicos de la primera variable están influidos por los valores característicos de la segunda variable y viceversa.

Por ejemplo, ¿influye el sexo en que una persona esté o no suscrita a Netflix? Para las dos variables, sexo (hombre, mujer) y tiene suscripción a Netflix (sí, no), se comprueba si son independientes. Si no es así, existe una relación entre las características.

La pregunta de investigación que puede responderse con la prueba Chi-cuadrado es: ¿Son independientes entre sí las características de sexo y posesión de una suscripción a Netflix?

Para calcular el valor Chi-cuadrado, hay que dar una frecuencia observada y una frecuencia esperada. En la prueba de independencia, la frecuencia esperada es la que resulta cuando ambas variables son independientes. Si dos variables son independientes, las frecuencias esperadas de las casillas individuales se obtienen con

donde i y j son las filas y columnas de la tabla, respectivamente.

Para el ejemplo ficticio de Netflix, podrían utilizarse las siguientes tablas. A la izquierda está la tabla con las frecuencias observadas en la muestra, y a la derecha la tabla que resultaría si existiera independencia perfecta.

Frecuencia observada:

	Hombre	Mujer
Netflix Sí	10	13
Netflix No	15	14

Frecuencia esperada si es independiente:

	Hombre	Mujer
Netflix Sí	(23 · 25) / 52 = 11.06	(23 · 27) / 52 = 11.94
Netflix No	(29 · 25) / 52 = 13.94	(29 · 27) / 52 = 15.06

El valor Chi-cuadrado se calcula entonces como

A partir de la tabla Chi-cuadrado puedes volver a leer el valor crítico y compararlo con el resultado.

Las suposiciones de la prueba de independencia Chi-cuadrado son que las observaciones proceden de una muestra aleatoria y que las frecuencias esperadas por celda son superiores a 5.

Prueba de distribución Chi-cuadrado

Si una variable presenta dos o más valores, se pueden examinar las diferencias en la frecuencia de los valores individuales.

La prueba de distribución Chi-cuadrado, o prueba de bondad de ajuste, comprueba si las frecuencias de los valores característicos individuales de la muestra se corresponden con las frecuencias de una distribución definida. En la mayoría de los casos, esta distribución definida es la de la población. En este caso, el sistema comprueba si la muestra procede de la población correspondiente.

Para los investigadores de mercado podría ser interesante saber si hay alguna diferencia en la penetración en el mercado de los tres servicios de streaming de vídeo Netflix, Amazon y Disney entre Berlín y el conjunto de Alemania. La frecuencia esperada es entonces la distribución de los servicios de streaming en toda Alemania y la frecuencia observada resulta de una encuesta en Berlín. En las siguientes tablas se muestran los resultados ficticios.

Frecuencia observada en Berlín:

Servicio de vídeo	Frecuencia
Netflix	25
Amazon	29
Disney	13
Otros o ninguno	20

Frecuencia esperada (toda Alemania):

Servicio de vídeo	Frecuencia
Netflix	23
Amazon	26
Disney	16
Otros o ninguno	22

La Chi-cuadrado da como resultado

Prueba de homogeneidad Chi-cuadrado

La prueba de homogeneidad Chi-cuadrado puede utilizarse para comprobar si dos o más muestras proceden de la misma población. Una pregunta podría ser si la frecuencia de suscripción a tres servicios de streaming de vídeo como Netflix, Amazon y Disney difiere en distintos grupos de edad. Como ejemplo ficticio, se hace una encuesta en tres grupos de edad con el siguiente resultado:

Frecuencia observada:

Edad	15-25	25-35	35-45
Netflix	25	23	20
Amazon	29	30	33
Disney	11	13	12
Otros o ninguno	16	24	26

Al igual que con la prueba de independencia Chi-cuadrado, este resultado se compara con la tabla que resultaría si las distribuciones de los proveedores de streaming fueran independientes de la edad.

Tamaño del efecto en la prueba Chi-cuadrado

Hasta ahora sólo sabemos si podemos rechazar la hipótesis nula o no, pero muy a menudo es de gran interés saber cómo de fuerte es la relación entre las dos variables. Esto puede responderse con la ayuda del tamaño del efecto.

En la prueba Chi-cuadrado, se puede utilizar la V de Cramér para calcular el tamaño del efecto. Aquí, un valor de 0.1 es pequeño, un valor de 0.3 es medio y un valor de 0.5 es grande. Por supuesto, DATAtab calculará el tamaño del efecto muy fácilmente.

Tamaño del efecto	V de Cramér
Pequeño	0.1
Medio	0.3
Grande	0.5

Tamaño del efecto vs. valor p

Hay que tener en cuenta que el valor p no dice nada sobre la fuerza de la correlación o el efecto y depende del tamaño de la muestra. Por lo tanto, deben tenerse en cuenta los siguientes puntos:

Si existe una correlación en la población, cuanto mayor sea la muestra, más claramente se reflejará en el valor p.
Si la muestra es muy grande, también pueden detectarse correlaciones muy pequeñas en la población.
Estas pequeñas correlaciones pueden dejar de ser relevantes bajo ciertas circunstancias.

Por lo tanto, si hay una muestra pequeña y una muestra grande y hay un efecto igual de grande en ambas muestras, los valores p seguirán siendo diferentes. Cuanto mayor sea la muestra, menor será el valor p y, por tanto, incluso correlaciones muy pequeñas pueden confirmarse con una muestra muy grande.

Aquí es donde el tamaño del efecto desempeña un papel importante. Con el tamaño del efecto en la prueba chi-cuadrado, las diferencias pueden hacerse comparables entre varios estudios.

Ejemplo de prueba Chi-cuadrado

Prueba de independencia

Como ejemplo de prueba Chi-cuadrado en la que se comprueba la independencia, consideramos el uso de paraguas. En un día lluvioso contamos cuántas mujeres y cuántos hombres acuden a la universidad con paraguas.

Sexo	Paraguas incluido
mujer	sí
hombre	sí
mujer	sí
mujer	sí
hombre	sí
hombre	no
mujer	no
hombre	no
mujer	no
mujer	no
hombre	no
mujer	sí
hombre	sí
mujer	sí
hombre	sí
hombre	sí
hombre	no
mujer	no
hombre	no
mujer	no
mujer	no
mujer	no

Pregunta:

¿Es la diferencia en el uso del paraguas entre mujeres y hombres estadísticamente significativa o aleatoria?

Así es como funciona en la calculadora estadística online: Después de copiar la tabla anterior en la calculadora de pruebas de hipótesis, puedes calcular la prueba Chi-cuadrado. Para ello, simplemente haz clic en las dos variables sexo y paraguas. Como resultado, obtendrás (1) la tabla de contingencia, (2) la frecuencia esperada para las variables perfectamente independientes y (3) la prueba de Chi-cuadrado.

		Paraguas incluído
		sí	no	Total
Sexo	mujer	5	7	12
	hombre	5	5	10
	Total	10	12	22

Frecuencias esperadas para variables perfectamente independientes:

		Paraguas incluido
		sí	no	Total
Sexo	mujer	5.45	6.55	12
	hombre	4.55	5.45	10
	Total	10	12	22

Prueba Chi-cuadrado
χ²	0.15
df	1
Valor p	0.696

Con un nivel de significación del 5% y un grado de libertad de 1, la tabla de valores de Chi-cuadrado da un valor crítico de 3.841. Como el valor de Chi-cuadrado calculado es menor que el valor crítico, no hay diferencia significativa en este ejemplo y se mantiene la hipótesis nula. Desde el punto de vista del contenido, esto significa que los hombres y las mujeres no difieren en la frecuencia de uso del paraguas.

Prueba de distribución

En un distrito de Viena, se registró la afiliación a un partido de 22 personas. Ahora hay que examinar si los residentes del distrito (muestra aleatoria) tienen el mismo comportamiento electoral que los residentes de toda la ciudad de Viena (población).

Partido
Partido A
Partido C
Partido A
Partido C
Partido A
Partido C
Partido B
Partido B
Partido C
Partido A
Partido C
Partido A
Partido A
Partido B
Partido B
Partido A
Partido A
Partido B
Partido A
Partido A
Partido C
Partido C

Para calcular la prueba de Chi-cuadrado del ejemplo, sólo tienes que copiar la tabla superior en la Calculadora de pruebas de hipótesis.

El partido A tiene un 40% de participación en Viena y el partido C tiene un 35%. Por tanto, obtendrás los siguientes resultados:

	Categoría	n	Probabilidad Observada	Probabilidad Esperada
Partido	Partido A	10	45.455%	40%
	Partido C	7	31.818%	35%
	Partido B	5	22.727%
	Total	22	100%

Prueba Chi-cuadrado
χ²	0.264
df	2
Valor p	0.876

Si el nivel de significación se establece en 0.05, el valor p calculado de 0.876 es mayor que el nivel de significiación. Por lo tanto, se mantiene la hipótesis nula y se puede suponer que los residentes del distrito tienen el mismo comportamiento electoral que los residentes de toda la ciudad de Viena.