Experiment

Unter E. versteht man ein Forschungsdesign mit folgenden drei zentralen Merkmalen:

  1. Zufällige Aufteilung (Randomisierung) der Untersuchungspersonen in (mindestens) zwei Gruppen;
  2. (Kontrolliertes) Setzen eines Stimulus oder Treatments in (mindestens) einer der Gruppen, der sog. Experimentalgruppe, oder setzen unterschiedlicher Stimuli in mindestens zwei Experimentalgruppen;
  3. Messung der Zielgröße (des Merkmals, das durch den Stimulus verändert werden soll) in den Gruppen u.U. vor, auf jeden Fall aber nach (angenommener) Wirkung des Stimulus.

Wesentliches Ziel des E.s ist die möglichst sichere Prüfung kausaler Einflüsse, die zwischen Stimulus und Zielgröße vermutet werden. Die Randomisierung soll bewirken, dass etwaige Unterschiede zwischen den Gruppen in der Zielgröße wirklich auf den Stimulus (bzw. auf die Unterschiede zwischen den Stimuli in den verschiedenen Gruppen) und nicht auf andere denkbare Einflüsse zurückgeführt werden können.

Aus diesem forschungsstrategischen Grund ist das E. vor allem in der Psychologie zu einem der wichtigsten Erkenntnismittel geworden. Da aber nicht alle Merkmale in Form von Stimuli »hergestellt« und auf Gruppen verteilt werden können, ist die Anwendung des E.s vor allem in Soziologie und Politikwissenschaft beschränkt. Dennoch besteht auch in diesen Disziplinen ein beträchtlicher Spielraum für den Einsatz von E.en.

Ein einfaches Beispiel ist die Studie von Barron und Yechiam (2002) zur Verantwortungsdiffusion. Hier wurde an die Mitarbeiter*innen einer Institution eine E-Mail mit einer einfachen Informationsfrage (scheinbar von einer externen Privatperson) verschickt. Die Experimentalgruppen unterschieden sich danach, an wieviele Adressaten die Anfrage gerichtet war. Ein Teil der E-Mails wurde nur an eine Einzelperson verschickt, andere E-Mails an mehrere Personen gleichzeitig. In letzterem Fall wurden noch zwei Varianten unterschieden: Einmal ging die Mail ausschließlich an Angehörige der Institution, einmal sowohl an Institutionsangehörige als auch externe Privatadressen.

Es zeigte sich, dass E-Mails, die an individuelle Empfänger*innen gerichtet waren, häufiger beantwortet wurden, und dass die Antworten auch hilfreicher und umfangreicher waren. Durch das experimentelle Design, also die zufällige Zuteilung der Empfänger*innen zu den drei verschiedenen Gruppen, kann gewährleistet werden, dass die Unterschiede nicht etwa durch unterschiedliche Persönlichkeitsmerkmale (Hilfsbereitschaft) erklärt werden können.

Einige einfache experimentelle Designs

In der seit Campbell & Stanley (1966) »kanonischen« Schreibweise kann man die drei wichtigsten experimentellen Designs wie folgt schematisieren (alle Designs lassen sich auf mehr als zwei Gruppen erweitern):

Design 1: Experimental- und Kontrollgruppen (randomisiert) mit Vorher- und Nachhermessung

R:     O1   X   O2  
R:     O3      O4  

Dabei bezeichnet R zwei randomisierte Gruppen (das Design ist natürlich auch auf mehr Gruppen erweiterbar), O bezeichnet die Messungen, X den experimentellen Stimulus oder das Treatment.

Design 2: Das Solomon-Vier-Gruppen-Design

R:     O1   X   O2  
R:     O3      O4  
R:        X   O5  
R:           O6  

Design 3: Randomisierte Gruppen nur mit Nachher-Messung

R:     X   O1  
R:        O2  

Zu den drei wesentlichen Merkmalen von Experimenten

Zu 1: Randomisierung und Gruppenbildung

Die Randomisierung, also die Aufteilung der Untersuchungspersonen auf die verschiedenen Gruppen nach einem Zufallsprinzip, soll bewirken, dass alle denkbaren Merkmale zwischen den Gruppen nur zufällig schwanken und damit ausgeschlossen werden kann, dass Unterschiede in der Zielgröße auf etwaige Unterschiede zwischen den Gruppen in diesen Merkmalen zurückgehen.
(Hypothetisches) Beispiel: Angenommen, es soll ein computerunterstütztes Lernverfahren mit herkömmlichem Lernen aus Büchern verglichen werden. Würde man den Untersuchungspersonen selbst überlassen, welche Lernmethode sie wählen, könnte es sein, dass vor allem die computererfahrenen Personen diese neue Lernmethode wählen, und sollte sich herausstellen, dass diese Gruppe tatsächlich besser abschneidet, so könnte dies einfach daran liegen, dass diese Gruppe mit Computern sehr gut zurechtkommt und viel Spaß an dieser Lernmethode hat.

Ohne Vergleichsgruppe wäre ein Experiment erst recht kaum aussagekräftig. Selbst wenn man feststellt, dass es zu Veränderungen gekommen ist, könnte es sein, dass diese auf ganz andere Einflüsse zurückgehen. Beispiel: Eine Aussage, dass ein Medikament innerhalb von 14 Tagen eine deutliche Besserung von Krankheitssymptomen bewirkt, ist wenig ergiebig, solange nicht bekannt ist, wie schnell eine Besserung ohne das Medikament eingetreten wäre.

In der Forschungspraxis werden nicht selten mehr als zwei Gruppen gebildet. Beispielsweise könnten in einem medizinischen Experiment zwei verschiedene Medikamente untereinander und mit einer dritten Gruppe ohne Medikament verglichen werden, oder es könnte die Gabe des Medikaments in unterschiedlichen Dosen untersucht werden.

Zu 2: Stimulus

Das Setzen des Stimulus in der Experimentalgruppe (und das Nicht-Setzen in einer anderen Gruppe, der Kontrollgruppe) bedarf der genauen Kontrolle, damit wirklich der gewünschte Stimulus wirksam wird.

Aus diesem Grunde bevorzugen Psychologen Laborexperimente, bei denen der Stimulus exakt gesetzt werden kann und gleichzeitig andere Einflüsse konstant gehalten oder ausgeschlossen werden können. Allerdings stellt sich bei Laborexperimenten eher die Frage nach der externen Validität (siehe unten). Laborexperimenten werden Feldexperimente gegenübergestellt, bei denen das Treatment so weit wie möglich unter »natürlichen« Bedingungen, genauer gesagt: in den alltäglichen Lebenskontexten der Menschen eingesetzt wird. Dabei kann allerdings u.U. die interne Validität (siehe unten) gefährdet sein.

(Hypothetisches) Beispiel: Eine neue Unterrichtsmethode soll mit konventionellen Methoden verglichen werden. Führt man ein Feldexperiment durch, indem man neue und herkömmliche Unterrichtsmethoden in zufällig ausgewählten Schulklassen einsetzt, ergeben sich zahlreiche Fragen, z.B.: 1. Ist die neue Methode tatsächlich so eingesetzt worden, wie sie von ihren Erfindern gedacht war? 2. Kommt ein möglicher Erfolg der neuen Methode dadurch zustande, dass die Personen, die nach dieser Methode unterrichten, motivierter sind? Wirkt also gar nicht die Methode, sondern das große Engagement der Beteiligten? 3. Welche Merkmale der neuen Methode sind es eigentlich, die Veränderungen bewirken? Neue Unterrichtsverfahren (oder andere Stimuli) sind oft komplexe Geschehen, und vielleicht sind es Eigenschaften, die gar nicht beabsichtigt waren, die wichtige Änderungen bewirken.

Aus diesem Grund ist es – aus der Sicht der Forschungslogik – häufig wünschenswert, entweder die Untersuchungspersonen über die genaue Art des Experiments im unklaren zu lassen oder, soweit das nicht möglich ist (was häufig der Fall sein wird), ihnen (mit ihrem Einverständnis) die Kenntnis über die Zuordnung zu Experimental- oder Kontrollgruppe vorzuenthalten. Dies wird insbesondere in medizinischen Untersuchungen praktiziert, um z. B. Placebo-Effekte (also die scheinbare »Wirkung« eines Medikamentes, die »nur« auf den Glauben der Patientinnen und Patienten, eine wirksame Medikation zu erhalten, zurückgeht) auszuschalten (sog. Blindversuch oder Blindstudie). Noch weiter geht man in Doppelblind-Studien, in denen auch die Versuchsleiter bzw. die behandelnden Ärzte die Zuordnung der Patienten zu den Gruppen nicht kennen, um diese nicht durch (sei es vorbewusste) Signale zu beeinflussen (etwa hinsichtlich ihres Glaubens an einen Behandlungserfolg oder -misserfolg).

Man beachte, dass die Kontrollgruppe nicht unbedingt ohne Treatment bleiben muss. In der medizinischen Forschungspraxis kommt es relativ häufig vor, dass ein neues Medikament (Treatment der Experimentalgruppe) mit einem bereits bekannten (und vermutlich erfolgreichen) Medikament (Treatment der Kontrollgruppe) verglichen wird. Der Sinn des E. liegt dann darin zu prüfen, ob das neue Medikament wirksamer ist, oder ob es die gleiche Wirksamkeit mit geringeren negativen Begleiterscheinungen, den sog. unerwünschten Arzneimittelwirkungen (früher: Nebenwirkungen) erreichen kann.

Zu 3: Vorher- und Nachhermessung der Zielgröße

Essentiell ist die Messung der Zielgröße nach dem Experiment. Zu welchem Zeitpunkt sie geschehen soll, ist nicht immer einfach zu entscheiden: Eine Messung unmittelbar nach Setzen des Stimulus erfasst vielleicht nur kurzfristige Änderungen, die bald wieder verschwunden sind. Bei einer späteren Messung ist nicht mehr gesichert, ob in der Zwischenzeit nicht ganz andere Einflüsse wirksam geworden sind. Je nach Art des Experiments kann es daher wünschenswert sein, mehrere Nachher-Messungen durchzuführen, die sich über mehrere Jahre, u.U. sogar Jahrzehnte erstrecken können.

Eine Messung der Zielgröße auch vor Setzen des Stimulus muss reiflich überlegt werden. Sie erlaubt zwar genauere Informationen darüber, ob die Gruppen wirklich vergleichbar sind (trotz Randomisierung könnte es sein, dass sich die Gruppen ausgerechnet in der Zielgröße unterscheiden!) und u.U. auch darüber, wie groß die eingetretenen Veränderungen sind, hat jedoch auch Nachteile (siehe unten).


Fehlerquellen von Untersuchungen und ihre Kontrolle in Experimenten

Viele der oben diskutierten möglichen Probleme wissenschaftlicher Schlussfolgerungen werden seit Campbell & Stanley (1966) als mögliche »Bedrohungen der Validität« von Untersuchungen systematisiert. Allgemein unterscheidet man zwischen Fehlern (oder Störungen), die sich auf die unmittelbaren Schlußfolgerungen aus einer Untersuchung beziehen (also: sind die beobachteten Unterschiede zwischen den Gruppen tatsächlich auf die vermutete Ursache zurückzuführen), und solchen, die sich auf die Generalisierbarkeit der Ergebnisse (also etwa die Übertragbarkeit auf andere Situationen oder andere Personen bzw. Personengruppen) beziehen. Erstere bezeichnet man als Störungen der internen Validität, letztere als Störungen der externen Validität (beide sind, trotz einer gewissen Verwandschaft, nicht mit der Validität von Messinstrumenten zu verwechseln).

Experimente im oben skizzierten Sinn sind relativ gut gegen mögliche Störungen der internen Validität gefeit. Die externe Validität ist problematischer.

Störungen der internen Validität

Als wichtigste Bedrohungen interner Validität werden diskutiert:
  • Zwischenzeitliches Geschehen (History): Ereignisse zwischen zwei Messzeitpunkten können dazu beitragen, dass sich Merkmale (z.B. Fähigkeiten oder Einstellungen von Untersuchungspersonen) ändern. Z.B. könnte ein politischer »Skandal« die Einstellungen zur Politik beeinflussen. Nehmen etwa Personen an einem politischen Bildungsprogramm teil, so muss gesichert sein, dass mögliche Änderungen politischer Einstellungen nicht in Wahrheit durch den betreffenden »Skandal« und die dadurch ausgelösten Diskussionen hervorgebracht wurden. Wichtig wäre bei einer experimentellen Studie hier neben der Randomisierung, dass die »Treatments« in Experimental- und Kontrollgruppe (z.B. traditioneller Unterricht vs. Unterricht in politischer Bildung) zur gleichen (historischen) Zeit stattfinden.
  • Reifung, Entwicklung der Untersuchungspersonen (Maturation): Wenn z.B. in einer Schulstudie festgestellt wird, dass Schüler nach einer Unterrichtseinheit mehr wissen als vorher, so ist dies nicht sicher auf den Unterricht zurückzuführen – möglicherweise haben die Schüler von sich aus etwas gelernt (das soll hin und wieder vorkommen). Bei einem randomisierten E. lässt sich aber zumindest feststellen, in welchem Umfang der Unterricht über das spontane Lernen der Schüler hinaus etwas bewirkt, da der Effekt der »Reifung« in beiden Gruppen mehr oder weniger gleich sein muss
  • Messeffekte (Testing): Gemeint sind hier Effekte der Vorher-Messung auf die Nachher-Messung: Eine Liste von Einstellungsitems kann die Untersuchungspersonen erst für das betreffende Thema sensibilieren; die Durchführung von Intelligenztests führt zu Erfahrungen im Umgang mit solchen Tests und damit zu höheren Werten in der Nachher-Messung. Infolge der Randomisierung kann aber wiederum angenommen werden, dass solche Effekte in beiden Gruppen gleich sind.
  • Instrumenteneffekte (Instrumentation): In Längsschnittuntersuchungen kann es erforderlich sein, bei Vorher- und Nachher-Messung unterschiedliche Messinstrumente einzusetzen (Bsp.: Mathematik-Kenntnisse bei 6- und bei 8-Jährigen). Oder die Testauswertung bei Vorher- und Nachher-Messung wird von unterschiedlichen Personen vorgenommen. Sofern (!) solche Effekte aber in Experimental- und Kontrollgruppe gleich (oder zufällig) verteilt sind, kann das Experiment auch hier als intern valide betrachtet werden.
  • Selektion: Personen, die sich für ein bestimmtes Bildungsprogramm, eine medizinische Behandlung usw. interessieren, unterscheiden sich von Nicht-Interessenten. Daher sagen die Wirkungen auf selbst- (oder fremd-)selektierte Personengruppen wenig über andere Personengruppen. Beispielsweise können die TeilnehmerInnen an einem Kurs schlechtere Ergebnisse aufweisen als Nicht-TeilnehmerInnen – wenn sie etwa den Kurs besucht haben, weil sie von der betreffenden Sache (im Gegensatz zur übrigen Menschheit) überhaupt nichts verstehen. Auch hier hilft nur Randomisierung.
  • Regression zum Mittelwert (Statistical Regression): Oft werden Programme (Treatments) bei Personen/an Orten durchgeführt, wo besonders große Probleme auftreten (z.B. ein Anti-Drogenprogramm nach starkem Anstieg der Todesfälle durch Drogen). Da aber das Auftreten »besonders großer Probleme« auch durch zufällige Messfehler oder andere zufällige Einflüsse bedingt ist, wird in solchen Fällen das betreffenden Phänomen im Durchschnitt von selbst zurückgehen (das gleiche gilt natürlich auch für besonders niedrige Werte als Selektionskriterium). Auch hier kann im Grunde nur Randomisierung Abhilfe schaffen.
  • Ausscheiden aus der Untersuchung (Mortality): Viele Personen brechen die Teilnahme an Behandlungen, Programmen etc. ab. Sofern solche Abbrüche in Experimental- und Kontrollgruppe(n) gleich häufig bzw. zufällig verteilt sind, schützt das experimentelle Design auch hier vor Fehlschlüssen. Voraussetzung hierfür ist freilich im Grunde, dass die Personen nicht wissen, ob sie der Kontroll- oder der Experimentalgruppe angehören. Das lässt sich nicht immer gewährleisten.
  • Wirkung der Zuteilung zu Experimental- oder Kontrollgruppe (man könnte hier von »interner Reaktivität« sprechen): Personen können auch und gerade bei Randomisierung enttäuscht (oder besonders erfreut) darüber sein, dass sie der einen und nicht der (heimlich gewünschten) anderen Gruppe zugeteilt wurden. Besonders einschlägig ist dieses Problem in medizinischen Studien, wo wegen dieses Phänomens das Prinzip der Doppelblindstudie eingesetzt wird (s. oben). Allerdings ist auch das nicht immer möglich (Beispiel: Herzoperation vs. medikamentöse Behandlung). Auch in anderen Settings kann sich dieses Problem stellen (z.B. Teilnahme an einem interessanten Schulversuch).

Störungen der externen Validität

  • Messeffekte (Testing): Während die Wirkung der Vorher- auf die Nachher-Messung die interne Validität von Experimenten im Prinzip nicht bedroht, bleibt offen, ob das Experiment die gleiche Wirkung auch auf Personen hat, die nicht durch die Vorher-Messung für das betreffende Problem sensibilisiert wurden. Beispielsweise könnte die Messung rechtsradikaler Einstellungen die Aufmerksamkeit für entsprechenden politischen Unterricht und damit dessen Wirksamkeit (oder Unwirksamkeit) erhöhen. Es bleibt aber offen, ob diese Wirkung des Unterrichts auch bei Personen eintritt, bei denen keine entsprechende Messung durchgeführt wurde.
  • Interaktion von Selektion und Treatment: Da an vielen Experimenten nur bestimmte ausgewählte Personen teilnehmen, ist unklar, inwieweit das Treatment auch bei ganz anderen Personen wirkt. So werden viele psychologische Experimente mit Studierenden durchgeführt, also relativ jungen Menschen mit hoher Bildung. Ob der Stimulus dann auch bei älteren und/oder weniger gebildeten Personen in gleicher Weise wirkt, bleibt offen.
  • Die Reaktion darauf, überhaupt an einem Experiment teilzunehmen (unabhängig ob in Experimental- oder Kontrollgruppe) (in meiner Terminologie: Externe Reaktivität): Die Tatsache, dass Personen überhaupt an einer wissenschaftlichen Untersuchung teilnehmen, kann ihr Verhalten, ihre Fähigkeiten oder Einstellungen beeinflussen. Sie können z.B. geneigt sein, eine Aufgabe besonders motiviert zu lösen – was außerhalb des experimentellen Settings möglicherweise nicht der Fall ist.

Fragen der Forschungsethik

Sehr häufig sind bei Experimenten Fragen der Forschungsethik berührt. Beispielsweise haben psychologische oder soziologische E.e nicht selten eine Täuschung der Versuchspersonen über den Versuchszweck zur Voraussetzung. Die Legitimität solcher Täuschungen ist in jedem Einzelfall zu prüfen, und im allgemeinen müssen die Versuchspersonen zumindest nachträglich darüber aufgeklärt werden. Ethische Probleme stellen sich häufig auch bei medizinischen Experimenten (rechtfertigt der zu erwartende Nutzen mögliche Nachteile für die Untersuchungspersonen).


Siehe auch: Quasi-Experiment.

Literatur:

  • Barron, Greg/Yechiam, Eldad: Private e-mail requests and the diffusion of responsibility, in: Computers in Human Behavior 18, 2002, S. 507-520.
  • Campbell, D. T./Stanley, J. C.: Experimental and Quasi-Experimental Designs for Research. Skokie, Ill.: Rand McNally, 1966
  • Shadish, William R./Cook, Thomas D./Campbell, D. T.: Experimental and Quasi-Experimental Designs for Generalized Causal Inference, Boston, MA: Houghton Mifflin, 2002

© W. Ludwig-Mayerhofer, ILMES | Last update: 09 Dec 2016