(Cohens) Kappa

Ein von Jacob Cohen vorgeschlagenes Maß für die Übereinstimmung zwischen Beobachtern oder Urteilern (englisch: Ratern), also ein Maß für Interrater-Reliabilität. Kappa ist geeignet für nominal- und u. U. für ordinalskalierte Merkmale.

Manchmal wird vorgeschlagen, man sollte hier einfach den Anteil übereinstimmender Urteile berechnen. Das ist problematisch. Denn schon per Zufall werden zwei Urteiler gelegentlich übereinstimmen, auch wenn sie z.B. wirklich nur raten (deutsch gesprochen), sprich wenn ihre Urteile nichts mit der Sache zu tun haben. Kappa berechnet dagegen den Anteil an Übereinstimmungen, der über die rein zufällig zu erwartenden Übereinstimmungen hinaus geht.

Es gibt auch Versionen von Kappa für den Fall von mehr als zwei Beobachtern.

Kappa ist in der Literatur umstritten. So hängt die Größe von Kappa von der Randverteilung ab; ist das beobachtete Merkmal sehr schief verteilt, kann Kappa nur sehr schwer hohe Werte erreichen ( Feinstein & Cichetti 1990; Cichetti & Feinstein 1990). Auch das Konzept der zufälligen Übereinstimmung ist nicht ohne Voraussetzung. So wie es oben beschrieben wurde, wird unterstellt, dass beide Rater eine vorab festgesetzte Tendenz haben, jeweils 20 Prozent der Untersuchungspersonen als übergewichtig einzustufen. Ob das der Fall ist, müsste im Einzelfall geprüft werden (siehe zur Kritik an Kappa ausführlicher etwa Guggenmoos-Holzmann 1993, Maclure & Willett 1987 oder Uebersax 1987).

Zitierte Literatur:

Cicchetti, D. V./Feinstein, A. R.: High Agreement but Low Kappa: II. Resolving the Paradoxes, in: Journal of Clinical Epidemiology 43, 1990, S. 551-558
Feinstein, A. R./Cicchetti, D. V.: High Agreement but Low Kappa: I. The Problem of Two Paradoxes, in: Journal of Clinical Epidemiology 43, 1990, S. 543-549
Guggenmoos-Holzmann, I.: How Reliable Are Chance-corrected Measures of Agreement?, in: Statistics in Medicine 12, 1993, S. 2191-2205
Maclure, M./Willett, W. C.: Misinterpretation and Misuse of the Kappa Statistic, in: American Journal of Epidemiology 126, 1987, S. 161-169
Uebersax, J. S.: Diversity of Decision-Making Models and the Measurement of Interrater Agreement, in: Psychological Bulletin 101, 1987, S. 140-146

Weitere Literatur:

Bartko, J.J./Carpenter, W.T.: On the methods and theory of reliability. In: Journal of Nervous and Mental Disease 163, 1976, S. 307-317
Tinsley, H.E.A./Weiss, D.J.: Interrater reliability and agreement of subjective judgments. In: Journal of Counseling Psychology 22, 1975, S. 358-376
Wegner, R.: Ratingmethoden, in: van Koolwijk, J./ Wieken-Mayser, M. (Hrsg.): Techniken der empirischen Sozialforschung (Band 5), München: Oldenbourg, 1976, S. 103-130