Validität (engl.: Validity)

V. heißt allgemein Gültigkeit. Konkret versteht man darunter im Bereich der empirischen Sozialforschung vor allem zwei Aspekte: (1.) Die V. von Messungen, d.h. die Eigenschaft, das zu messen, was gemessen werden soll; (2.) die V. von Untersuchungen allgemein. Die Diskussion zu Punkt 2. findet vor allem in der Literatur über experimentelle vs. nicht- oder quasi-experimentelle Forschungsdesigns statt.

Validität von Messungen

Die V. von Messungen ist zunächst zu unterscheiden von der Reliabilität oder Zuverlässigkeit. Messinstrumente können sehr exakt immer das Falsche messen; dann sind sie zwar reliabel, aber nicht valide.

Die Bestimmung der V. ist im allgemeinen nicht einfach, und sie kann fast nie als endgültig betrachtet werden. Dies schon deshalb, weil man streng genommen die V. nur mittels eines anderen Messinstruments prüfen kann, dessen V. bereits bekannt sein müsste, so dass man hier im Prinzip in einen infiniten Regress kommt. Die Bestimmung der V. ähnelt also – wie so vieles in der Sozialforschung bzw. allgemein in der Wissenschaft – eher einer Detektivarbeit als einem eindeutigen und klar geregelten Vorgehen mit ebenso eindeutigen und klaren Ergebnissen.

Man unterscheidet heute im wesentlichen drei Arten von V.: Die Inhaltsvalidität, die Kriteriumsvalidität und die Konstruktvalidität.

Inhaltsvalidität

Die Inhaltsvalidität (englisch: content validity) bedeutet, dass die Gültigkeit der Messung mehr oder weniger für jedermann einsichtig aus den einzelnen Teilen des Messinstruments hervorgeht. Letztlich beruht sie auf der Kenntnis von ›Experten‹ über den betreffenden Gegenstand (wobei u.U. sehr viele oder alle Leute Experten sein können). So wird z.B. bei jeder Prüfung Inhaltsvalidität unterstellt: Eine Mathematikprobe sagt etwas über die ›Mathematik-Fähigkeit‹, weil ein Mathematiklehrer oder -professor in der Lage sein sollte zu beurteilen, was gute und was schlechte Mathematik-Fähigkeiten sind. Die Behauptung, ein Messinstrument habe Inhaltsvalidität, bedeutet in der Forschungspraxis aber oft nichts anderes, als dass der Entwickler des Instruments selbst glaubt, das Instrument sei valide. Ehrliche Personen gebrauchen hier den Begriff der »face validity«, d.h. der augenscheinlichen Validität.

Dennoch ist die Idee der Inhaltsvalidität sehr wichtig: Es geht letztlich darum, dass eine Messung das relevante Phänomen möglichst in allen Aspekten erfasst, und dies kann nur durch Forschen, Nachdenken und Kommunikation zwischen Wissenschaftlern herausgefunden werden und nicht durch bestimmte ›Techniken‹.

Kriteriumsvalidität

Bei der Kriteriumsvalidität (englisch: criterion-related validity) geht es um die Übereinstimmung eines Messinstruments mit anderen relevanten Merkmalen (sog. Außenkriterien). Genauer unterscheidet man hier zwischen der Übereinstimmungsvalidität (engl: concurrent validity) (das Außenkriterium wird gleichzeitig erhoben) und der Vorhersagevalidität (engl.: predictive validity), bei der das Außenkriterium erst später gemessen wird. Übereinstimmungsvalidität wird z.B. erhoben, wenn das »Interesse am Fach« von Studierenden, gemessen als Einstellung, mit der Zahl der Fachbücher, die die Studierenden besitzen, in Beziehung gesetzt wird (natürlich hängt diese Zahl auch von anderen Merkmalen ab, z.B. den verfügbaren finanziellen Mitteln, aber ein gewisser Zusammenhang sollte sich schon zeigen). Eine andere Form ist die Methode der ›bekannten Gruppen‹ (known groups). So sollte eine Skala, die Ausländerfeindlichkeit misst, bei Mitgliedern rechtsradikaler Parteien viel höhere Werte ergeben als bei solchen liberaler oder linker Parteien. Vorhersagevalidität ist z.B. eine wichtige (und keineswegs immer gegebene) Eigenschaft von Studieneingangstests, sie wird also gemessen (oder sollte gemessen werden) anhand des späteren Studienerfolgs.

Konstruktvalidität

K. (englisch: construct validity) ist ein komplexes Vorgehen, bei dem man eine Reihe von plausiblen oder sogar bestätigten Hypothesen prüft, die sich u.a. auf das Konstrukt beziehen, dessen V. geprüft werden soll. Wenn sich diese Hypothesen auch jetzt bestätigen, so ist anzunehmen, dass das fragliche Messinstrument auch gültig ist. Eine Nicht-Bestätigung der Hypothesen kann allerdings auch bedeuten, dass die angeblich plausiblen oder bestätigten Hypothesen eben doch falsch waren, oder dass die anderen Variablen mit nicht validen Instrumenten gemessen wurden.

Eine besondere Form der Konstruktvalidität ist die Bestimmung mit Hilfe einer Multi-Trait-Multi-Method-Matrix. Hier werden mehrere Eigenschaften mit jeweils mehreren Instrumenten gemessen; die Messungen der gleichen Eigenschaften mit verschiedenen Instrumenten sollten dabei stärker untereinander zusammenhängen als die verschiedener Eigenschaften mit den gleichen Instrumenten.

Validität von Untersuchungsdesigns

Nach Shadish, Cook & Campbell 2002 kann man hier vier Aspekte der Validität unterscheiden:

Interne Validität
Statistische Validität
Konstruktvalidität
Externe Validität

1. bezieht sich auf die Frage, ob die Schlussfolgerung auf einen Zusammenhang zwischen X und Y, also der unabhängigen Variablen (oder dem Treatment, siehe dazu Experiment) und der abhängigen Variablen, in der vorliegenden Untersuchung berechtigt ist; 4. betrifft das Problem, dass häufig fraglich ist, ob Untersuchungen auf andere Gruppen als die Untersuchungsteilnehmer generalisiert werden können. Näheres zu diesen beiden Formen der Validität unter Experiment.

2. meint das korrekte Vorgehen bei der statistischen Auswertung (wozu z.B. auch Fragen der Teststärke gehören) und 3. bezieht sich hier (im Gegensatz zu dem speziellen Begriff, der im Abschnitt über Validität von Messungen angesprochen wurde) allgemein auf das Problem, ob die Variablen tatsächlich das repräsentieren, wofür sie stehen sollen. Das betrifft nicht nur die gemessenen Variablen (also z.B. die abhängigen Variablen in einem Experiment), sondern auch das experimentelle Treatment selbst (z.B.: gelten die Ergebnisse eines PC-gestützten Sprachkurses nur für diesen speziellen Kurs, oder für alle PC-gestützten Sprachkurse, oder gar für PC-gestütztes Lernen schlechthin?).

Literatur:

Shadish, William R./Cook, Thomas D./Campbell, D. T.: Experimental and Quasi-Experimental Designs for Generalized Causal Inference, Boston, MA: Houghton Mifflin, 2002