Quasi-Experiment, Quasi-experimentelles Design (engl.: Quasi-Experimental Design)

Als Q. werden Forschungsdesigns bezeichnet, denen das für Experimente entscheidende Element fehlt: die randomisierte Zuteilung auf zwei (oder mehr) Gruppen. Dennoch können solche Forschungsdesigns unter bestimmten Umständen wichtige Aufschlüsse geben.

In dem klassischen Text von Campbell & Stanley wurde zwischen prä-experimentellen und quasi-experimentellen Designs unterschieden. Erstere wurden als praktisch wertlos bezeichnet. In dem Nachfolger dieses Textes von Shadish, Cook & Campbell werden auch die früher als prä-experimentell bezeichneten Designis zu den quasi-experimentellen Designs gerechnet, da sie unter bestimmten Umständen Rückschlüsse auf Ursache-Wirkungsbeziehungen zulassen.

Einige der wichtigsten bzw. häufigsten Designs werden im folgenden dargestellt (für weitere Designs und vor allem für eine ausführlichere Diskussion und Kritik ist die unten angeführte Literatur zu konsultieren). Folgende Abkürzungen werden dabei verwendet:
X = Setzen des Stimulus/Treatments
O = Messung
Zahlen-Indizes (z.B. O₁ und O₂) bezeichnen unterschiedliche Messungen (d.h. Messungen zu unterschiedlichen Zeitpunkten bzw. in unterschiedlichen Gruppen), Buchstaben-Indizes (z.B. O_A und O_B) bezeichnen die Messung unterschiedlicher Variablen.
Es werden außerdem Begriffe aus dem bereits erwähnten Artikel über Experimente vorausgesetzt.

Einmalmessung ohne Kontrollgruppe (»One Shot Case Study« oder »One-Group Post-Test Only« Design)

Beispiel: Man lässt eine Gruppe von Jugendlichen Computerspiele durchführen (X) und misst danach ein interessierendes Merkmal, z.B. die Agressivität, die Aufmerksamkeit oder die Müdigkeit (O). Formal schreiben wir:

In den meisten Fällen ist dieses Forschungsdesign wertlos, da es keine Aussagen erlaubt, ob das gemessene Merkmal tatsächlich auf das Treatment X zurückgeht (wenn die Jugendlichen nun müde, aggressiv oder unaufmerksam sind – was besagt das? Nichts, da wir nicht wissen, wie sie ohne Computerspiele drauf wären). Allerdings gibt es Fälle, in denen aufgrund mehr oder weniger sicheren Wissens darüber, was ohne X geschehen wäre, sowie aufgrund der eindeutigen Messergebnisse die Schlussfolgerung auf die Wirkung von X erlaubt ist. Um ein sehr drastisches Beispiel zu nennen: Niemand hat nach den Atombombenabwürfen auf Hiroshima und Nagasaki gefordert, eine echte experimentelle Studie mit randomisierter Vergleichsgruppe durchzuführen, um zu beweisen, dass die verheerenden Verwüstungen tatsächlich auf die Zündung der Atombomben zurückzuführen seien.

Vorher- und Nachhermessung ohne Kontrollgruppe (»One-Group Pretest-Posttest Design«)

Beispiel: Man lässt eine Gruppe von Jugendlichen Computerspiele durchführen (X) und misst sowohl zuvor als auch danach ein interessierendes Merkmal, z.B. die Agressivität, die Aufmerksamkeit, die Müdigkeit (O):

O₁

O₂

Kann eine Änderung von der Vorher- zur Nachher-Messung als Wirkung von X interpretiert werden? Nur wenn man sicher sein kann, dass die Wirkung nicht auf andere Weise zustande gekommen ist. Beispielsweise könnte die Müdigkeit der Versuchspersonen auch ohne Computerspiele zugenommen haben (»Reifung«), oder ihre Agressivität könnte deshalb gestiegen sein, weil der Versuchsleiter sie genervt hat. Auch andere Bedrohungen interner Validität können je nach Umständen vorhanden sein (z.B. Testing, Instrumentation oder History).

Auch viele sog. »natürliche Experimente« sind von dieser Art. Hierbei handelt es sich nicht um echte Experimente, sondern um die Beobachtung der Wirkung bestimmter Ereignisse, die ohne Zutun des Forschers oder der Forscherin zustande gekommen sind (z.B. ein Erdbeben, eine Schulreform, eine bestimmte gesetzliche Regelung). In dem Ausmaß, in dem Vorher- und Nachher-Messwerte vorliegen und andere Ursachen »plausiblerweise« augeschlossen werden können, kann auf die Wirkung der jeweiligen Ereignisse geschlossen werden. Allerdings ist der »plausible Ausschluss« alternativer Ursachen häufig höchst problematisch.

Vorher- und Nachhermessung ohne Kontrollgruppe (»One-Group Pretest-Posttest Design«) mit alternativer abhängiger Variable

Beispiel: Man lässt eine Gruppe von Jugendlichen Computerspiele durchführen (X) und misst sowohl zuvor als auch danach zwei (oder mehrere) interessierende Merkmale (O_A und O_B):

O_1A, O_1B

O_2A, O_2B

Dieses Design kann z.B. helfen, Effekte der »Reifung« auszuschließen. Angenommen, wir wollen testen, ob die Computerspiele die Konzentrationsfähigkeit (O_A) der Jugendlichen senken. Nun könnte es sein, dass die Konzentrationsfähigkeit ohnehin im Lauf der Zeit nachlässt. Wenn beispielsweise parallel dazu die Müdigkeit (O_B) gemessen wird und gezeigt werden kann, dass die Müdigkeit nicht gestiegen ist, so erhöht das die Plausibilität des Schlusses, dass gerade die Konzentrationsfähigkeit beeinträchtigt wird.

Nicht-randomisierte Vergleichsgruppen (»Static-Group Comparison« oder »Posttest-Only Design With Nonequivalent Groups«)

Beispiel: Es werden Daten zum Arbeitsmarktverhalten (z.B. Jobsuche) von SozialhilfeempfängerInnen erhoben und mit dem Arbeitsmarktverhalten anderen Personen verglichen.

X	O₁
	O₂

Ohne weitere Maßnahmen ist dieses Design äußerst problematisch, denn die Untersuchungspersonen unterscheiden sich normalerweise auch hinsichtlich vieler anderer Merkmale, nicht nur hinsichtlich X. Das gleiche gilt auch für alle Arten von »Behandlungen«: Die Teilnehmer eines Kurses zur Erhöhung des Selbstvertrauens haben möglicherweise auch nach dem Kurs noch ein niedrigeres Selbstvertrauen als andere Menschen, wenn sie an diesem Kurs teilgenommen haben, weil ihr Selbstvertrauen besonders gering war. (Trotzdem kann der Kurs geholfen haben – aber man kann hierüber letztlich keine Aussage machen.)

Den Schwierigkeiten der mangelnden Vergleichbarkeit wird in Therapiestudien u.dgl. oft durch Matching abzuhelfen versucht, also dadurch, dass man versucht, jeder Person in der X-Gruppe eine oder mehrere Personen der Kontrollgruppe (also der Non-X-Gruppe) zuzuordnen, die ihr in möglichst vielen Hinsichten ähnlich ist bzw. sind. Allerdings ist damit nicht sicher gestellt, dass die Gruppen in wichtigen Hinsichten vergleichbar sind.

In den Sozialwissenschaften versucht man dem Problem der Nicht-Vergleichbarkeit durch statistische Kontrolle der übrigen Merkmale, also durch multivariate Analyseverfahren abzuhelfen. Allerdings kann auch damit das Problem nicht gelöst werden, dass möglicherweise wichtige Einflüsse nicht in den Daten erfasst sind. Heute versucht man manchmal zusätzlich, den der Gruppen(selbst)zuweisung zugrunde liegenden Selektionsprozess zu modellieren (sog. »selection bias modelling«, nach ihrem Erfinder oft auch »Heckman-Verfahren« oder »Heckman-Korrektur« genannt). Dieses Verfahren ist jedoch keineswegs unumstritten.

Zeitreihen-Experimente (»Interrupted Time-Series Experiment«)

Beispiel: An einer oder mehreren Universität(en) werden Studierende vor und nach der Einführung von B.A.-Studiengängen befragt.

O₁ O₂ O₃ X O₄ O₅ O₆

Die Validität dieses Designs kann u.U. erhöht werden, wenn parallel dazu Studierende an einer oder mehreren Universität(en) befragt werden, an denen keine Studienreform stattfindet (Zeitreihen-Experiment mit Kontrollgruppe):

O₁ O₂ O₃ X O₄ O₅ O₆

O₇ O₈ O₉ O₁₀ O₁₁ O₁₂

Dieses Design kann helfen, Effekte der Reifung auszuschließen. Wenn X tatsächlich wirkt, müsst sich in der Messwertreihe, welchen Verlauf sie auch immer haben mag, ein »Knick« zeigen.

Ansetz-Absetz-Studien (»Equivalent Time-Samples Design«)

Beispiel: Einer Gruppe von Patienten wird ein Medikament gegeben (X₁); nach einiger Zeit wird das Medikament abgesetzt (X₀), dann wieder angesetzt und evtl. noch einmal abgesetzt. Oder: In einem Großraumbüro werden zu zufällig ausgewählten Tageszeiten in der Vorweihnachtszeit Weihnachtslieder gespielt (X₁), dann herrscht wieder Ruhe (X₀), dann gibt es wieder Musik, etc.

X₁ O₁ X₀ O₂ X₁ O₃ X₀ O₄

Dieses Design kann dann eingesetzt werden, wenn angenommen werden kann, dass die Wirkung des Stimulus reversibel ist. Im ersten Fall wird etwa angenommen, dass das Medikament nach Absetzen seine Wirkung verliert, d.h. keine bleibenden Auswirkungen hinterlässt (was sehr häufig, aber vielleicht nicht immer der Fall sein dürfte). In beiden Fällen wird es wichtig sein, die Zeitpunkte des »An-« und »Absetzens« zufällig zu wählen, damit die Personen, die dem Stimulus ausgesetzt sind, sich nicht an eine bestimmte Periodizität gewöhnen (wenn nicht, wie es bei Medikamentenstudien oftmals der Fall ist, eine Doppelblindstudie durchgeführt wird, d.h. weder Patienten noch untersuchende Ärzte wissen, wann die Patienten [potenziell] wirksame Substanz und wann sie Placebo erhalten).

Literatur:

Campbell, D. T./Stanley, J. C.: Experimental and Quasi-Experimental Designs for Research. Skokie, Ill.: Rand McNally, 1966
Cook, Thomas D./Campbell, Donald T.: Quasi-Experimentation. Design & Analysis Issues for Field Settings. Boston, MA: Houghton Mifflin, 1979
Shadish, William R./Cook, Thomas D./Campbell, D. T.: Experimental and Quasi-Experimental Designs for Generalized Causal Inference, Boston, MA: Houghton Mifflin, 2002