Messniveau (engl.: Level of Measurement)

Messen bedeutet (nach einer in den Sozialwissenschaften gängigen, wenn auch nicht unumstrittenen Definition) die Zuordnung von Zahlen zu Beobachtungen (siehe Stevens 1946). Das Messniveau – häufig auch als Skalenniveau oder Skalentyp bezeichnet – gibt an, wie man diese Zahlen interpretieren darf, und damit auch, welche Operationen mit den Zahlen sinnvoll sind. Es werden vier Messniveaus unterschieden: Nominal-, Ordinal-, Intervall- und Ratioskala. Bei Messung auf einem der beiden letzteren Niveaus spricht man auch von metrischen Merkmalen.

Bei einer Nominalskala bedeuten unterschiedliche Zahlen nichts anderes als unterschiedliche Merkmalsausprägungen; sie stehen nicht für ein »Mehr« oder »Weniger«, »Größer« oder »Kleiner«.
Beispiele: Parteipräferenz; Haarfarbe; ausgeübtes Hobby.
Bei solchen Daten können z.B. weder das Arithmetische Mittel noch der Median berechnet werden (bzw. wären die Ergebnisse entsprechender Berechnungen sinnlos).
Bei einer Ordinalskala drücken die Zahlen eine Rangfolge aus, aber sie sagen nichts über die Relationen der der Rangfolge zugrundeliegenden Eigenschaften.
Beispiele: Angaben darüber, welches gesellschaftliche Problem (z.B.: Arbeitslosigkeit, Kriminalität, Umweltverschmutzung – selten wird gefragt: Korruption, Unfähigkeit von Politikern, Gewalt von Männern gegen Frauen) man für am wichtigsten hält, welches am zweitwichtigsten, usf. Oder: Welche Person aus einer vorgegebenen Liste am sympathischsten ist, welche am zweitsympathischsten, usf. Oder: Personen werden nach ihrer Leistungsfähigkeit geordnet (z.B. Absolventinnen/Absolventen eines Studiengangs).
Gleiche Abstände zwischen den Zahlenwerten bedeuten also nicht zwingend gleiche Abstände in der der Messung zugrundeliegenden Eigenschaft. Bei einem Wettrennen wissen wir, dass die oder der Erstplazierte schneller war als die oder der Zweite, und diese(r) wiederum schneller als die oder der Dritte; aber die Zahlen sagen nichts darüber aus, um wieviel schneller oder langsamer die einzelnen Personen im Vergleich zu den anderen waren. Das gleiche gilt auch für die hier genannten sozialwissenschaftlichen Beispiele. – Bei solchen Daten kann z.B. der Median berechnet werden.
Bei einer Intervallskala geben die Zahlen Informationen über die Abstände zwischen den gemessenen Ausprägungen, aber es gibt keinen »echten« Nullpunkt.
Beispiele: Temperatur in Grad Celsius; Haushaltsvermögen, sofern auch negatives Vermögen in Form von Schulden einbezogen wird; Kontostand (dieser kann leider auch negativ sein, außer bei einem Konto ohne Möglichkeit der Überziehung).
Die Abstand zwischen 0 Grad Celsius und 10 Grad Celsius ist (physikalisch gesehen) genauso groß wie der zwischen 10 und 20 Grad; 20 Grad sind aber nicht doppelt so warm wie 10 Grad.
Bei intervallskalierten Daten ist neben dem Median u.a. auch die Berechnung von arithmetischem Mittel und Varianz sinnvoll.
Bei einer Ratioskala ist außerdem ein sinnvoll interpretierbarer Nullpunkt vorhanden.
Beispiele: Körpergröße; Einkommen aus Erwerbstätigkeit; Temperatur in Grad Kelvin.
Daher kann man auch Verhältnisse zwischen verschiedenen Werten berechnen. Man kann legitimerweise sagen, dass eine Person, die 100 m in 10 Sekunden bewältigt, doppelt so schnell läuft wie eine, die dafür 20 Sekunden benötigt, und 20 Grad Kelvin sind tatsächlich doppelt so warm wie 10 Grad Kelvin.

In der Praxis ist manchmal nicht leicht zu bestimmen, welches Skalenniveau tatsächlich vorliegt. Vor allem stellt sich immer wieder die Frage, wie puristisch man sein darf oder soll. Ein wichtiges Beispiel sind die in den Sozialwissenschaften beliebten Likert-skalierten Items (Aussagen, hinsichtlich derer man Zustimmung oder Ablehnung auf einer Skala angeben kann, etwa von »stimme voll und ganz zu« bis »lehne voll und ganz ab«). Den Angaben werden (je nach Zahl der Ausprägungen in der Antwortvorgabe) Zahlen zugeordnet, z.B. von 1 bis 5. Realistischerweise wird man nun nicht behaupten können, dass es sich um eine Intervallskala handelt; wir wissen nicht, ob der Abstand zwischen einer Person, die beispielsweise im Fragebogen ein Kreuz ganz links macht (oder eine 1 einträgt) zu einer Person, die ihr Kreuz in der zweiten Kategorie von links einträgt (oder eine 2 angibt), wirklich der gleiche Abstand ist wie zwischen Personen, die die zweite bzw. die dritte Ausprägung angegeben haben. Auf der anderen Seite sind diese Daten sicherlich etwas anderes als z.B. die Daten, die man erhält, wenn man eine Schulklasse der Größe nach aufstellt und abzählen lässt. In diesem Fall haben wir tatsächlich keine Ahnung, wie groß die größte Person ist oder wie groß der Abstand zwischen dieser und der kleinsten Person ist; es kann sich um eine Klasse handeln, in der alle Personen zwischen 1,75 und 1,78 m groß sind, sie können aber ebenso gut zwischen 1,45 und 2,10 m groß sein. Bei der Einstellungsskala ist zumindest die Idee eine ganz andere; intendiert ist im Grunde so etwas wie eine Ratioskala. Wir erwarten eigentlich, dass Personen, die angeben »lehne voll und ganz ab«, gleichsam den »Nullwert« haben, und Personen mit der Angabe »stimme voll und ganz zu« den denkbaren Maximalwert.

Wie gesagt – das sind die Absichten einer solchen Messung. Damit ist natürlich nichts darüber gesagt, ob diese Absichten tatsächlich realisiert worden sind; das dürfte höchst selten einmal der Fall sein und lässt sich obendrein, sollte es doch geschehen sein, wohl kaum nachweisen. Faktisch hat sich dennoch eingebürgert, mit solchen Items zu verfahren, als ob sie wenigstens Intervallskalenniveau aufweisen würden; daher werden z.B. Faktorenanalysen durchgeführt.

Die Problematik der Messniveaus hat sich insofern in den vergangenen Jahren »entschärft«, als nunmehr Verfahren der multivariaten Analyse für praktisch alle Skalenniveaus verfügbar sind (am wenigsten noch für »echte« Rangdaten im Sinne des Beispiels der Schulklasse).

Zu wenig beachtet werden in der Lehrbuchliteratur andere Eigenschaften von Daten, die für deren Auswertung bedeutsam sein können. So sind etwa Daten über Dauern (z.B.: wie lange ist jemand arbeitslos) – die eigentlich Ratioskalenniveau aufweisen – häufig nicht vollständig erhebbar (weil zum Erhebungszeitpunkt die Arbeitslosigkeit noch nicht beendet ist); man spricht von »zensierten« oder »trunkierten« Daten, die mit speziellen Verfahren der Verweildaueranalyse ausgewertet werden müssen. Auch für sog. Zähldaten (Count Data) sind eigene statistische Verfahren angemessen. Grundsätzlich versucht man in der Statistik immer mehr, nicht so sehr (oder nicht nur) auf das Messniveau zu achten, sondern auf den Prozess, durch den die Daten entstanden sind.

Literatur:

Stevens, Stanley Smith: On the theory of scales and measurement. In: Science, 103, S. 677–80, 1999

(siehe Stevens 1946)