(Statistische) Signifikanz (engl.: Significance), Signifikanztest (Significance Test), Signifikanzniveau (Significance Level)

S. steht in der empirischen Sozialforschung im allgemeinen für statistische Signifikanz und bezieht sich auf das Problem des Schlusses von einer (Zufalls-)Stichprobe auf die Grundgesamtheit. Als signifikant in diesem Sinne gilt das Ergebnis eines Hypothesentests – des Signifikanztests –, wenn die Annahme plausibel ist, dass ein theoretisch angenommener und in den Daten vorgefundener Zusammenhang zwischen Merkmalen oder Unterschied zwischen Gruppen nicht alleine durch die Unschärfe erklärt werden kann, die mit der Stichprobenziehung verbunden ist.

Die Berechtigung dieser Annahme kann nie mit Sicherheit erwiesen werden, und man kann im Rahmen des etablierten Tests auch nicht sagen, dass die Annahme »wahrscheinlich« zutrifft; erst recht lässt sich nicht die Wahrscheinlichkeit angeben, mit der der Stichprobenzusammenhang oder ‑unterschied auch in der Grundgesamtheit gilt. Der statistische Test beruht vielmehr auf folgender Überlegung:

Wir gehen hypothetisch davon aus, dass in Wahrheit kein Zusammenhang/Unterschied besteht, oder jedenfalls ein anderer Zusammenhang/Unterschied als der beobachtete. (Diese hypothetische »Gegenannahme« zu dem eigentlich vermuteten Zusammenhang heißt Nullhypothese.)
In vielen Fällen können wir angeben, mit welcher Wahrscheinlichkeit sich bestimmte Stichprobenergebnisse einstellen würden, wenn Nullhypothese zuträfe.
Wenn nun in der aktuellen Stichprobe ein Ergebnis vorliegt, das unter dieser hypothetischen Annahme recht unwahrscheinlich wäre, dann haben wir eine gewisse Berechtigung anzunehmen, dass die Nullhypothese nicht zutrifft.
Da die Nullhypothese aber das Gegenteil dessen behauptet, was wir vermutet haben, spricht das gleichzeitig dafür, dass unsere Annahme, die Forschungshypothese (oft auch als Alternativhypothese bezeichnet), zutreffen könnte.

Die Eigenschaft »recht unwahrscheinlich« muss quantifiziert wird. In aller Regel wählt man eine Wahrscheinlichkeit von 0,05, (manchmal auch 0,01 und 0,001), also von 5 (oder 1 oder 0,1) Prozent. Diese Größe bezeichnet man als Signifikanzniveau. Manchmal wird hier auch der Begriff Irrtumswahrscheinlichkeit gebraucht, doch bezieht sich die genannte Wahrscheinlichkeit nur auf den Fehler 1. Art, eben den irrtümlichen Schluss, die Nullhypothese sei ungültig.

Allgemein liegt dem S.-test eine Forschungshypothese zugrunde, die sich auf einen Zusammenhang, einen Unterschied oder einen Einfluss (etwa in Form eines Koeffizienten einer Regressionsgleichung) bezieht. Diese wird mit einer Nullhypothese konfrontiert, welche meist besagt, dass kein Zusammenhang/Unterschied/Einfluss besteht; es sind aber auch Nullhypothesen der Art denkbar, dass der Zusammenhang usw. einen bestimmten Betrag nicht überschreitet. (Die Nullhypothese wird oft als H₀ bezeichnet, die Forschungshypothese – auch Alternativhypothese genannt – als H₁).

Anhand der Daten wird dann eine Teststatistik berechnet, deren Art von der Fragestellung und der Art der vorliegenden Daten (vor allem deren Messniveau) abhängt. Diese Teststatistik stellt eine Zufallsvariable dar, die einer bekannten Wahrscheinlichkeitsverteilung entspricht. Anhand ihrer lässt sich die Wahrscheinlichkeit angeben, ein Ergebnis wie das vorliegende Stichprobenergebnis oder ein noch extremeres (von mehr von Nullhypothese abweichendes) Ergebnis zu erhalten, wenn in der Grundgesamtheit die Nullhypothese gilt. Je nach gewähltem Signifikanzniveau ergibt sich ein kritischer Wert für diese Teststatistik, der dem entsprechenden Quantil der Verteilung der betreffenden Zufallsvariablen entspricht (ist z. B. ein Signifikanzniveau von 5 Prozent oder 0,05 gewählt worden, so trennt der kritische Wert die 95 Prozent unter der Nullhypothese wahrscheinlichsten von den 5 Prozent am wenigsten wahrscheinlichen Werten ab).

Ist die aus den Daten errechnete Teststatistik (gegebenenfalls: im Absolutbetrag) größer als dieser kritische Wert (man sagt dann auch: sie liegt im Ablehnungsbereich), so wird die Nullhypothese verworfen, andernfalls wird sie (bis auf weiteres) beibehalten. Genauer ist hier zwischen einseitigen und zweiseitigen Hypothesen zu unterscheiden. Im ersteren Fall trennt der kritische Wert typischerweise (bei einem gewählten Signifikanznviveau von α Prozent) die unteren 100−α von den oberen α Prozent der Verteilung ab bzw. im Falle negativer Unterschiede/Zusammenhänge die unteren α von den oberen 100−α Prozent; im zweiteren Fall gibt es zwei kritische Werte, nämlich einen beim α/2-Quantil und einem beim 100−(α/2)-Quantil.

In der Forschungspraxis geht man in der Regel etwas anders vor: Im allgemeinen berechnet man die Wahrscheinlichkeit, mit der bei Gültigkeit der Nullhypothese das beobachtete oder ein noch weniger mit der Nullhypothese kompatibles Stichprobenergebnis zu erwarten wäre. Diese Wahrscheinlichkeit wird meist als p-Wert bezeichnet. Man kann dann sagen: Ein Ergebnis ist statistisch signifikant, wenn der p-Wert kleiner ist als das vorher festgelegte Signifikanzniveau. Häufig wird auch einfach angegeben, welches der üblichen Signifikanzniveaus von dem p-Wert unterschritten wird (etwa ein Asterisk [*] bei einem p-Wert < 0,05, zwei Asteriske für p < 0,01 und drei für p < 0,001). So kann das Publikum in Grenzen selbst wählen, welches Signifikanzniveau es heranziehen möchte (die direkte Angabe des p-Wertes würde allerdings mehr Wahlmöglichkeiten gewähren.)

Häufig verwendete S.-tests sind z. B. der t-Test, der F-Test der Varianzanalyse oder der Chi-Quadrat-Test für Kreuztabellen.

Ob ein statistischer Test signifikant ausfällt oder nicht, hängt neben dem Signifikanzniveau vor allem von der Größe der Stichprobe ab. Mit zunehmender Größe lassen sich auch kleine und unbedeutende Zusammenhänge oder Unterschiede als signifikant absichern. Ein signifikantes (Test-)Ergebnis kann daher nicht ohne nähere Prüfung mit einem wichtigen (Forschungs-)Ergebnis gleichgesetzt werden.

Man beachte, dass der Begriff »Signifikanztest« in der statistischen Literatur nicht ganz einheitlich gebraucht wird. Die hier verwendete Erläuterung entspricht etwa dem Sprachgebrauch bei Fahrmeir et al. (1997) oder Hartung et al. (1982); Kühnel & Krebs (2001) hingegen reservieren den Begriff nur für Tests, bei denen die Nullhypothese lautet, dass in der Grundgesamtheit kein Zusammenhang (oder Unterschied) besteht, die Alternativhypothese hingegen, dass der Zusammenhang (oder Unterschied) von Null verschieden ist. Dieser Sprachgebrauch dürfte in der Statistik am weitesten verbreitet sein; er entspricht auch demjenigen, der den immer wiederkehrenden Auseinandersetzungen über den Sinn und Zweck von Signifikanztests zu Grunde liegt (siehe Morrison et al. 1970 und Harlow et al. 1997. Daly et al. schließlich sprechen von Signifikanztest, wenn anhand der errechneten Teststatistik das »empirische Signifikanzniveau«, d. h. die Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Testwert der errechneten Größe zu erhalten, bestimmt wird. (Das hier in Übereinstimmung mit der übrigen Literatur skizzierte Vorgehen, eine Nullhypothese zu verwerfen, wenn die vorher festgelegte Irrtumswahrscheinlichkeit bzw. das Signifikanzniveau unterschritten wird, wird dort als »fixed-level testing« bezeichnet).

Siehe auch: Fehler 1. und 2. Art, Inferenzstatistik, Konfidenzintervall.

Literatur:

Daly, F./Hand, D. J. / Jones, M. C. / Lunn, A. D./McConway, K. J.: Elements of Statistics, Harlow: The Open University/Addison-Wesley, 1995
Fahrmeir, Ludwig/Künstler, Rita/Pigeot, Iris/Tutz, Georg: Statistik. Der Weg zur Datenanalyse. Berlin, Heidelberg, New York: Springer, 1997, seither weitere Auflagen
Harlow, Lisa L./Mulaik, Stanley A./Steiger, James H. (Hrsg.): What if There Were no Significance Tests? Mahwah, New Jersey; London: Erlbaum, 1997
Hartung, Joachim/Elpelt, Bärbel/Klösener, Karl-Heinz: Statistik. Lehr- und Handbuch der angewandten Statistik. München, Wien: Oldenbourg, zahlreiche Auflagen seit 1982, im Jahr 2005 ist die 14. Auflage erschienen
Kühnel, Steffen-M./Krebs, Dagmar: Statistik für die Sozialwissenschaften. Grundlagen, Methoden, Anwendungen. Reinbek bei Hamburg: Rowohlt, 2001
Ludwig-Mayerhofer, Wolfgang/Liebeskind, Uta/Geißler, Ferdinand (2014): Statistik. Eine Einführung für Sozialwissenschaftler, Weinheim, Basel: Beltz Juventa, S. 136-180.
Morrison, Denton E./Henkel, Ramon E. (Hrsg.): The Significance Test Controversy. Chicago: Aldine, 1970