Kappa de Fleiss
La Kappa de Fleiss se utiliza siempre que quieres saber si las mediciones de más de dos personas coinciden. Las personas que miden algo se llaman calificadores.
En el caso del Kappa de Fleiss, la variable que deben medir los tres o más calificadores es una variable nominal. Por tanto, si tienes una variable nominal, utiliza el Kappa de Fleiss.
Si tuvieras una variable ordinal y más de dos calificadores utilizarías la W de Kendall y si tuvieras una variable métrica utilizarías la correlación intraclase. Si sólo tuvieras dos calificadores y una variable nominal, utilizarías la Kappa de Cohen.
Pero basta de teoría por ahora, veamos un ejemplo.
Ejemplo de Kappa de Fleiss
Supongamos que has desarrollado un instrumento de medida, por ejemplo un cuestionario, que los médicos pueden utilizar para determinar si una persona está deprimida o no.
Ahora entregas el instrumento de medida a los médicos y les dejas que evalúen a 50 personas con él. La gran pregunta es: ¿hasta qué punto coinciden las mediciones de los médicos?
Si las valoraciones de los evaluadores coinciden muy bien, la fiabilidad entre evaluadores es alta.
Y es esta fiabilidad entre evaluadores la que se mide con el Kappa de Fleiss. El Kappa de Fleiss es una medida de la fiabilidad entre evaluadores.
Definición:
El Kappa de Fleiss es una medida de la fiabilidad con la que tres o más evaluadores miden lo mismo.
Kappa de Fleiss con medición repetida
Hasta ahora hemos considerado el caso en que dos o más personas miden lo mismo. Sin embargo, el Kappa de Fleiss también puede utilizarse cuando el mismo evaluador realiza la medición más de dos veces.
En este caso, el Kappa de Fleiss indica lo bien que coinciden las mediciones de la misma persona.
En este caso, la variable de interés tiene dos expresiones, deprimido y no deprimido; por supuesto, la variable de interés puede constar de más de dos expresiones.
Medida de la concordancia:
La Kappa de Fleiss es una medida de la concordancia entre más de dos muestras categóricas dependientes.
Fiabilidad y validez de la Kappa de Fleiss
Es importante tener en cuenta que la Kappa de Fleiss sólo puede indicarte la fiabilidad con la que los calificadores miden lo mismo. No puede decirte si lo que miden los evaluadores es lo correcto.
Por tanto, si todos los evaluadores midieran lo mismo, tendrías un Kappa de Fleiss muy alto. El Kappa de Fleiss no te dice si ese valor medido se corresponde con la realidad, es decir, ¡si se mide el valor correcto!
En el primer caso hablamos de fiabilidad, en el segundo de validez.
Calcular la Kappa de Fleiss
Con esta ecuación podemos calcular el Kappa de Fleiss:
En esta ecuación, po es el acuerdo observado de los calificadores y pe es el acuerdo esperado de los calificadores. La concordancia esperada se da si los calificadores juzgan de forma completamente aleatoria, es decir, simplemente lanzan una moneda a cada paciente para ver si está deprimido o no.
Entonces, ¿cómo calculamos po y pe? Empecemos por pe Supongamos que tenemos 7 pacientes y tres evaluadores. Cada paciente ha sido evaluado por cada evaluador.
En el primer paso, simplemente contamos cuántas veces se juzgó que un paciente estaba deprimido y cuántas veces se juzgó que no lo estaba.
Para el primer paciente, 0 evaluadores dijeron que esta persona no está deprimida y 3 evaluadores dijeron que esta persona está deprimida. Para la segunda persona, 1 evaluador dijo que la persona no está deprimida y 2 dijeron que la persona está deprimida.
Ahora hacemos lo mismo con todos los demás pacientes y podemos calcular el total de cada uno. En total tenemos 8 valoraciones con no deprimido y 13 valoraciones con deprimido. En total, 21 valoraciones.
Esto nos permite calcular la probabilidad de que una persona sea calificada como no deprimida o como deprimida. Para ello, dividimos el número de valoraciones de deprimido y no deprimido entre el número total de 21.
Así, dividimos 8 entre 21 para obtener el 38% de los pacientes calificados como no deprimidos por los calificadores y luego dividimos 13 entre 21 para obtener el 62% de los pacientes calificados como deprimidos.
Para calcular pe, ahora elevamos al cuadrado y sumamos los dos valores. Así pues, 0,382 más 0,622 es 0.53.
Ahora tenemos que calcular po. po podemos calcular con esta fórmula, no te preocupes, parece más complicado de lo que es.
Empecemos por la primera parte. N mayúscula es el número de pacientes, por tanto 7, y n minúscula es el número de calificadores, por tanto 3. Esto nos da 0.024 para la primera parte.
En la segunda parte de la fórmula, simplemente elevamos al cuadrado cada valor de la tabla y los sumamos. Así,02 más32 para finalmente12 más22. Esto nos da 47.
Y la tercera parte es 7 por 3, que es 21. Si lo insertamos todo, obtenemos 0.024 veces 47 - 21, que es igual a 0.624.
Así que ahora tenemos po y pe. Poniéndolos en la ecuación para kappa, obtenemos un kappa de 0.19.
Interpretación del Kappa de Fleiss
Ahora, por supuesto, hay que interpretar el coeficiente Kappa de Fleiss. Para ello podemos utilizar la tabla de Landis y Kock (1977).
Para un valor de la Kappa de Fleiss de 0.19, obtenemos sólo una ligera coincidencia.
Calcular la Kappa de Fleiss con DATAtab
Con DATAtab puedes calcular fácilmente el Kappa de Fleiss en línea. Sólo tienes que ir a datatab.net y copiar tus propios datos en la tabla de la calculadora de la Kappa de Fleiss. Ahora haz clic en la pestaña Fiabilidad. En Fiabilidad puedes calcular distintos estadísticos de fiabilidad, dependiendo de cuántas variables pulses y qué nivel de escala tengan, obtendrás una sugerencia adecuada.
El Kappa de Fleiss se calcula para variables nominales. Si tus datos se reconocen como métricos, cambia el nivel de escala en Vista de datos a nominal.
Si ahora haces clic en Evaluador 1 y Evaluador 2, se calculará el Kappa de Cohen, si ahora haces clic en Evaluador 3, se calculará el Kappa de Fleiss.
A continuación puedes ver el Kappa de Fleiss calculado.
Si no sabes cómo interpretar el resultado, haz clic en Interpretaciones en palabras.
Se realizó un análisis de fiabilidad entre evaluadores entre las muestras dependientes de Evaluador 1, Evaluador 2 y Evaluador 3. Para ello, se calculó el Kappa de Fleiss, que es una medida del acuerdo entre más de dos muestras categóricas dependientes.
El Kappa de Fleiss mostró que existía una ligera concordancia entre las muestras de Calificador 1, Calificador 2 y Calificador 3 con κ= 0.16.