Inter-Rater-Reliabilität (engl.: Interrater Reliability, Interrater Agreement)

Unter I. fasse ich hier alle Fragestellungen zusammen, bei denen es um die Zuverlässigkeit zweier oder mehrerer Personen bei der Beurteilung von Objekten geht. Dieses Problem stellt sich vor allem bei Verfahren der Inhaltsanalyse (hier spricht man meist von Inter-Coder-Reliabilität), der Beobachtung und schließlich in der Psychologie und der Medizin bei der Beurteilung von Personen (z.B. Zuverlässigkeit von Diagnosen, der Beurteilung des Schweregrades von Erkrankungen). Von der Übereinstimmung der Personen hinsichtlich der Beurteilung kann man (mit gleich zu diskutierenden Einschränkungen) darauf schließen, dass die Beurteilungen (jedenfalls zum Zeitpunkt der Prüfung der I.) nicht zufällig, sondern gemäß Regeln erfolgen – eben: zuverlässig sind. Rückschlüsse auf die Validität sind hieraus jedoch nicht zulässig.

Zur Prüfung der I. wird, wie gesagt, im allgemeinen die Übereinstimmung von zwei (u.U. auch mehr) Personen geprüft. Allerdings besagt der reine Anteil der Übereinstimmungen noch nicht sehr viel. Dazu betrachten wir folgende fiktive Tabelle:

Beurteilung des Übergewichts durch Untersucher A (Spalte) und B (Zeile)
Übergewicht Kein Übergewicht
Übergewicht 10 10
Kein Übergewicht 10 70

Die beiden Beobachter stimmen in 80 % der Fälle überein (10 % aller Personen werden als übergewichtig bezeichnet und 70 % als nicht übergewichtig). Aber überlegen wir folgendes: Offensichtlich stufen beide Beobachter 80 % der Fälle als nicht übergewichtig ein. Auch wenn die Beurteilungen der beiden Beobachter völig unabhängig voneinander und ganz unzuverlässig wären (wenn also jeder Beobachter ganz willkürlich irgendwelche 20 % der Personen als übergewichtig bezeichnen würde), müßten sich rein per Zufall im Durchschnitt 64 % Übereinstimmungen ergeben! Gemessen daran klingt der Wert von 80% weniger beeindruckend.

Es wurde daher vorgeschlagen, die Zahl der Übereinstimmung zu beziehen auf die Zahl der per Zufall zu erwartenden Übereinstimmungen. Dies soll z. B. von der Cohen entwickelte Koeffizient Kappa leisten, der bei nominal- und ordinalskalierten (siehe Messniveau) Merkmalen eingesetzt werden kann. Allerdings werden Kappa und die ihm zugrunde liegenden Überlegungen in der Literatur inzwischen stark kritisiert (siehe Ausführungen im Stichwort Kappa).

Bei metrischen (siehe Messniveau) Merkmalen empfiehlt es sich meist, die Intra-Klassen-Korrelation (Intra-Class Correlation, ICC) heranzuziehen (die auch für mehr als zwei Rater berechnet werden kann, wobei nicht für jedes Rating-Objekt alle Rater ein Urteil abgeben müssen; nähere Angaben dazu auch in der unten angegebenen Literatur). Die reine Korrelation zwischen Beurteilern kann in die Irre führen, wie folgendes (fiktives) Beispiel verdeutlicht. Es zeigt die Beurteilung der Leistungen von Eistänzerinnen durch drei Kampfrichter (A, B und C).

A B C
Tänzerin 1     4        5        4      
Tänzerin 2 4,2 5,2 4,4
Tänzerin 3 4,4 5,4 4,8
Tänzerin 4 4,6 5,6 5,2
Tänzerin 5 4,8 5,8 5,6
Tänzerin 6 5 6 6

Bei Berechnung der Produkt-Moment-Korrelation (wie von Diekmann 1995 vorgeschlagen) ergäbe sich eine perfekte Übereinstimmung zwischen jeweils zwei Ratern, obwohl Kampfrichter A sämtliche Tänzerinnen um eine glatte Note schlechter bewertet als Kampfrichter B! Mit Kampfrichter C verhält es sich wieder anders: Er sieht größere Abstände zwischen den Eistänzerinnen als die beiden anderen Richter. Die ersten beiden Richter unterscheiden sich nur im Niveau ihrer Bewertungen (A hat grundsätzlich ein niedrigeres Niveau), C unterscheidet sich in der Metrik (d.h. sein »Messsystem« verwendet eine andere Skala).

Unter bestimmten Umständen mögen solche Niveau-Unterschiede zwischen Ratern irrelevant sein; dann kann auch die einfache Korrelation zwischen den Ratern als Maß der Übereinstimmung ausreichen. Gerade in dem oben gewählten Beispiel könnte man so argumentieren, denn es kommt hier nur darauf an, wer von den Kampfrichtern am besten beurteilt wird, und darüber besteht zwischen allen drei Richtern Einigkeit. Aber stellen Sie sich mal vor, Sie sind Schüler oder Schülerin und es hängt von Ihren Noten ab, was Sie nach dem Abitur studieren können!

Abschließend sei angemerkt: Die Darstellungen in den etablierten deutschen soziologischen Lehrbüchern sind leider, sofern sie sich überhaupt der Thematik annehmen, durchwegs sehr knapp und obendrein teilweise irreführend. Daher empfiehlt sich ein Blick in die spezielle Literatur (siehe etwa Wirtz/Caspar 2002). Dort findet man auch Hinweise, wie man vorgeht, wenn mehr als zwei Rater vorhanden sind.

Siehe auch: Intra-Rater-Reliabilität.

Literatur:

  • Diekmann, Andreas: Empirische Sozialforschung: Grundlagen, Methoden, Anwendungen. Reinbek bei Hamburg: rowohlt, 1995
  • Wirtz, Markus/Caspar, Franz: Beurteilerübereinstimmung und Beurteilerreliabilität. Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Göttingen, Bern, Toronto, Seattle: Hogrefe, 2002

© W. Ludwig-Mayerhofer, ILMES | Last update: 23 Apr 2006