(Lineare) Regressionsanalyse (engl.: Linear Regression Analysis)

Bei der R. handelt es sich um ein Verfahren, mit dem ein Merkmal (eine Variable) durch ein oder mehrere andere Merkmale bzw. deren Ausprägungen erklärt oder prognostiziert werden soll. Das zu erklärende Merkmal wird als »abhängige Variable« bezeichnet, das oder die erklärende/n Merkmal/e als »unabhängige Variable« oder »Prädiktor(en)«. Die R. unterstellt, dass die abhängige Variable metrisch, also mindestens intervallskaliert ist. Die unabhängigen Variablen können metrisch oder nicht-metrisch sein, in letzterem Fall sind sie, sofern sie mehr als zwei Ausprägungen aufweisen, in Dummy-Variablen zu zerlegen. Im folgenden wird nur die lineare Regressionsanalyse behandelt, bei der eine lineare Beziehung zwischen abhängigen und unabhängigen Variablen angenommen wird (wobei nicht-lineare Beziehungen u.U. durch geeignete Transformationen in lineare Beziehungen überführt werden können).

Die linearen R. geht davon aus, dass die Einflüsse der unabhängigen Variablen X₁ bis X_k auf die abhängige Variable Y additiv verknüpft sind.Dies lässt sich wie folgt schreiben:

Y = β₀ + β₁X₁ + β₂ X₂+ . . . + β_kX_k + ε

Das bedeutet folgendes: Für jeden Fall in der Datenmatrix soll der Wert der abhängigen Variablen Y vorhergesagt werden aus den jeweiligen Ausprägungen der Variablen X, die mit geeigneten Gewichten, den sog. Regressionskoeffizienten β (sprich: beta), multipliziert werden. (Liegt nur eine unabhängige Variable vor, spricht man auch von linearer Einfachregression, gibt es mehrere unabhängige Variablen, spricht man von multipler linearer Regression.) Zu den Einflüssen der unabhängigen Variablen kommt noch eine Zufallskomponente ε (epsilon), in die Messfehler und nicht beobachtete Einflüsse auf Y eingehen. Es wird angenommen, dass Messfehler und nicht beobachtete Einflüsse (Störgrößen) nicht mit den X-Variablen zusammenhängen. Obwohl diese Annahme nur selten gerechtfertigt ist (vgl. Lieberson 1985), gehört die R. zu den beliebtesten Verfahren der Datenanalyse.

Verdeutlichen wir uns das ganze an einem (fiktiven, aber nicht ganz unrealistischen) Beispiel, das wir als lineare Einfachregression präsentieren. Die Humankapitaltheorie nimmt an, dass Bildung menschliches »Kapital« darstellt, das sich am Arbeitsmarkt amortisiert. Man wird dann annehmen, dass jedes Jahr zusätzlicher (schulischer oder beruflicher) Bildung auch einen Einkommenszuwachs bringt. Stellen wir uns einmal vor, dass jedes Bildungs-Jahr einen Einkommenszuwachs von 200 Euro bringt. Da lässt sich durch folgende Gleichung ausdrücken:

Y = 0 + 200 × Bildungsjahre + ε

Das würde bedeuten, dass jemand mit 8 Jahren Bildung im Durchschnitt ein Einkommen von 0 + 200 × 8 = 1.600 Euro hat, jemand mit 16 Jahren Bildung ein Einkommen von 3.200 Euro. Da im individuellen Fall aber natürlich noch viele andere Einflüsse auf das Einkommen wirken, wird die Komponente ε relativ groß sein, d.h. die individuellen Einkommen werden mehr oder weniger stark von diesem Durchschnittswert abweichen. – In der Forschungspraxis wird man noch weitere Einflüsse auf Y untersuchen und so das Modell zur multiplen Regression erweitern.

Modellschätzung und Modellgüte

Regressionsmodelle müssen im allgemeinen aus Stichprobendaten geschätzt werden. Die so geschätzten Koeffizienten werden oft mit dem Buchstaben b gekennzeichnet, manchmal auch durch $\hat{β}$ . Beide Schreibweisen haben ihre Berechtigung, da die aus der Stichprobe ermittelten Koeffizienten b als Punktschätzer für die unbekannten Regressionsparameter β fungieren. Geschätzt wird folgendes Modell:

Y = b₀ + b₁X₁ + b₂ X₂+ . . . + b_kX_k + e

bzw.

$\hat{Y}$ = b₀ + b₁X₁ + b₂ X₂+ . . . + b_kX_k

$\hat{Y}$ ist hier der aus dem Regressionsmodell vorhergesagte Wert von Y. Die Differenz zwischen den vorhergesagten Werten und den empirischen (tatsächlich in der Stichprobe vorliegenden) Werten von Y in der Stichprobe sind die Residuen e.

Die b-Koeffizienten werden aus den Daten so geschätzt, dass die Regressionsgerade »möglichst nahe« an den Werten der abhängigen Variablen liegt. Im Rahmen des linearen Regressionsmodells wird dies so realisiert, dass die quadrierten Abweichungen der einzelnen aus der Gleichung vorhergesagten Werte von den tatsächlich beobachteten Werten – also: die Summe der quadrierten Residuen – ein Minimum sein soll; dies ist der sog.»Kleinste-Quadrate-Schätzer«, oft auch kurz OLS-Schätzer (nach engl. Ordinary Least Squares) genannt.

Kann man aus den Werten der unabhängigen Variablen in jedem Einzelfall genau den beobachteten Wert von Y vorhersagen, so liegt ein perfektes Modell vor. Die Komponente e hat dann für alle Fälle den Wert 0. Faktisch gibt es solche Modelle nicht. Wie gut Y insgesamt erklärt, d.h. aus den Werten von X vorhergesagt werden kann, wird durch das Bestimmtheitsmaß R² (auch als Determinationskoeffizient bezeichnet) ausgedrückt:

$R^{2} = \frac{Σ {({\hat{y}}_{i} - \bar{y})}^{2}}{Σ {(y_{i} - \bar{y})}^{2}}$

Es wird also die durch das Regressionsmodell erklärte Streuuung (die Abweichung der durch das Modell vorhergesagten Werte in Y vom Mittelwert von Y) in Verhältnis gesetzt zur Streuung von Y. R² hat den Wert 0, wenn durch das Modell nur der Mittelwert von Y vorhergesagt wird (die beste Schätzung, wenn keinerlei Information über X vorliegt), und den Wert 1, wenn die durch das Modell erklärte Streuung identisch ist mit der Gesamtstreuung; in letzterem Fall kann man von einem perfekten Zusammenhang zwischen den X und Y sprechen. Sozialwissenschaftliche Analysen erreichen je nach Gegenstand normalerweise ein R² zwischen 0,05 und 0,6. Man spricht in diesem Zusammenhang auch von »erklärter Varianz«, weil man die unterschiedlichen Werte von Y (also eben die Varianz von Y) durch die unabhängigen Variablen »erklärt« bzw. vorhersagt.

Inferenzstatistische Prüfung

Zur Prüfung, ob eine Teilmenge p aus der Gesamtheit der k unabhängigen Variablen keinen Einfluss auf Y hat – anders gesagt: ob alle der zu diesen Variablen gehörigen Regressionskoeffizienten den Wert 0 aufweisen –, kann folgende F-Statistik (mit p und n-k-1 Freiheitsgraden) berechnet werden:

$F_{0} = \frac{n - k - 1}{p} \times \frac{R^{2} - R_{0}^{2}}{1 - R^{2}}$

Dabei ist $R_{0}^{2}$ das Bestimmtheitsmaß für das Modell, in dem die zu prüfenden Koeffizienten auf Null gesetzt (was gleichbedeutend ist mit: nicht in dem Modell enthalten) sind. Häufig wird auch die Nullhypothese geprüft, dass sämtliche Regressionskoeffizienten den Wert Null aufweisen, d.h. dass das Gesamtmodell (in der Grundgesamtheit) keinerlei Erklärungskraft hat. In diesem Fall wird p zu k und $R_{0}^{2}$ nimmt den Betrag von Null an. Der F-Test vereinfacht sich dann zu der in den meisten Lehrbüchern wiedergegebenen Formel

$F_{0} = \frac{n - k - 1}{k} \times \frac{R^{2}}{1 - R^{2}}$

Für die einzelnen Regressionskoeffizienten werden Standardfehler berechnet. Die Prüfgröße b / S.E. (mit S.E. für Standardfehler) folgt einer t-Verteilung mit n-k-1 Freiheitsgraden; bei ausreichend großen Fallzahlen (n > 30) kann sie durch Normalverteilung angenähert werden. (In diesem Fall zeigt beispielsweise bei zweiseitigem Testen ein Wert der Prüfgröße >|1,96| einen statistisch auf dem 5-Prozent-Niveau signifikanten Zusammenhang an.)

Standardisierte Regressionskoeffizienten

Sind mehrere unabhängige Variablen in der Regressionsgleichung enthalten, sind deren Effekte schwer vergleichbar, wenn die Variablen auf unterschiedlichem Maßstab gemessen werden (z.B. Einkommen von 0 bis zu mehreren 10.000 Euro, Alter von 1 bis etwa 80 Jahren, Bildung von 7 bis 18 Jahren). Daher werden im allgemeinen auch standardisierte Regressionskoeffizienten berechnet und ausgegeben. Diese geben an, um wieviele Standardabweichungen die abhängige Variable sich verändert, wenn die unabhängige Variable sich um eine Standardabweichung ändert. Im Falle kategorialer unabhängiger Variablen ist die Interpretation der standardisierten Regressionskoeffizienten jedoch problematisch, denn man kann beispielsweise schlecht sagen, dass das Geschlecht sich um »eine Standardabweichung« ändert.

Multikollinearität

Die Größe des Standardfehlers der Regressionskoeffizienten hängt ab von der Varianz der Residuen, von der Varianz der jeweiligen unabhängigen Variablen, von der Stichprobengröße sowie – bei multipler Regression – vom Zusammenhang der jeweiligen unabhängigen Variablen mit den übrigen unabhängigen Variablen. Große Varianz der Residuen erhöht, ein großer Stichprobenumfang und große Varianz der unabhängigen Variablen verringern den Standardfehler. Ebenso erhöht sich der Standardfehler für den Koeffizienten einer unabhängigen Variablen, wenn diese mit den anderen unabhängigen Variablen stark zusammenhängt. Man spricht hier von sog. Multikollinearität. Der Varianzinflationsfaktor (VIF) ist ein Maß dafür, um welchen Faktor die Standardfehler durch die Multikollinearität erhöht sind. Liegt sehr hohe Multikollinearität vor, ist zu prüfen, ob die stark untereinander zusammenhängenden Variablen möglicherweise das gleiche messen; dann kann eine von ihnen aus dem Modell entfernt, oder beide können zu einem Index zusammengefasst werden. Multikollinearität ist aber nicht unter allen Umständen ein Problem, sondern nur dann, wenn eine Variable, die nach der Höhe des Regressionskoeffizienten offenbar einen wichtigen Erklärungsbeitrag leistet, wegen des hohen Standardfehlers an der Prüfung auf Signifikanz »scheitert«. – Perfekte Multikollinearität, d.h. vollständige Determination einer unabhängigen Variablen durch die übrigen unabhängigen Variablen, führt allerdings dazu, dass die Modellgleichung nicht aus den Daten bestimmt werden kann. Sie entsteht freilich im Regelfall durch Fehler bei der Datenaufbereitung.

Anwendungsvoraussetzungen und Modelldiagnose

Das lineare Regressionsmodell beruht auf einer Reihe von Annahmen, die teilweise gesetzt werden müssen, teilweise geprüft werden können.

A1: ε ~ N(0, σ²)

Die Fehler des Regressionsmodell sind normalverteilt mit Erwartungswert Null und konstanter Varianz σ². Weicht der Erwartungswert von Null ab, wird die Regressionskonstante falsch bestimmt. Soweit diese, wie es in vielen praktischen Anwendungen der Fall ist, nicht von inhaltlicher Bedeutung ist, ist eine Verletzung dieser Annahme, für die es m.W. kein Testverfahren gibt, unproblematisch. Eine Verletzung der Annahme der Konstanz der Varianz (über alle Werte von Y) führt dagegen ebenso wie eine Verletzung der Normalverteilungsannahme zu einer problematischen Gültigkeit der inferenzstatistischen Tests.

Zur Prüfung der Normalverteilungsannahme werden Plots der Residuen herangezogen. Nicht-konstante Varianz, als Heteroskedastizität bezeichnet, lässt sich am besten aus einem Plot der standardisierten oder (nach anderen Autoren) studentisierten Residuen gegen die (standardisierten) Schätzwerte (also die durch das Modell vorhergesagten Werte in Y) ablesen. Gegen Heteroskedastizität helfen oft Transformationen der abhängigen, gelegentlich auch der unabhängigen Variablen. Lässt sich dadurch die Heteroskedastizität nicht beseitigen, können alternative Schätzverfahren für die Standardfehler herangezogen werden (z.B. Schätzung der sog. heteroskedastizitätskonsistenten Varianz-Kovarianz-Matrix nach White).

A2: Das Modell ist korrekt spezifiziert.

Diese Annahme bezieht sich einmal auf die Linearität des Modells. Sind Zusammenhänge zwischen unabhängigen und abhängigen Variablen nicht-linear, werden diese durch das lineare Regressionsmodell nicht korrekt wiedergegeben. Nicht-Linearität kann man im multiplen Regressionsmodell am besten durch die sog. »Partial-Regression Plots« identifizieren. Sie kann u.U. durch Re-Spezifikation des Modells, etwa durch Aufnahme quadratischer Terme u.dgl. behoben werden. Ferner bedeutet eine korrekte Modellspezifikation, dass alle relevanten Einflüsse auf Y im Modell enthalten sein müssen. Ist dies nicht der Fall, kann die schon in den einleitenden Abschnitten erwähnte Annahme

A3: Cov(ε_i,x_ik) = 0

verletzt sein, d.h. die Störgrößen können mit den unabhängigen Variablen korreliert sein. Ist das der Fall, werden die Regressionsparameter b falsch geschätzt.

A4: Cov(ε_i, ε_i+1) = 0

Die Residuen der einzelnen Messwerte dürfen nicht untereinander korreliert sein. Vor allem bei Zeitreihendaten kann diese Annahme verletzt sein; man spricht hier von Autokorrelation. Diese kann mit der Durbin-Watson-Statistik geprüft werden. Liegt deren Wert bei 2, liegt keine Autokorrelation vor; je weiter der Wert von 2 nach oben oder unten abweicht, desto größer ist die Autokorrelation. (Die Grenzen, innerhalb derer man noch nicht von Autokorrelation sprechen kann, variieren leider mit der Stichprobengröße.). Für Zeitreihendaten sollte man i.a. ohnehin andere statistische Analyseverfahren heranziehen.

Einflussreiche Fälle: Es ist wünschenswert, dass Ergebnisse der R. nicht von einem einzigen oder nur sehr wenigen Fällen abhängen. Um dies zu prüfen, sollten einerseits die partiellen Residuenplots inspiziert, andererseits spezielle Test-Statistiken konsultiert werden, von denen Cooks Distanz am wichtigsten ist. Welche Regressionskoeffizienten von einem einflussreichen Fall beeinflusst werden, kann man den sog. »dfbetas« entnehmen, welche angeben, um welchen Betrag der betreffende Fall die einzelnen Regressionskoeffizienten ändert.

Praktisches Vorgehen bei der Modellschätzung

Üblicherweise will man ein Regressionsmodell erstellen, welches nur die statistisch signifikanten Prädiktoren enthält. Die Statistikprogramme stellen Algorithmen zur Verfügung, welche die nicht-signifikanten Prädiktoren eliminieren. Zu warnen ist hier vor Verfahren, welche von vornherein nur signifikante Prädiktoren in das Modell einschließen, zumeist in einem sukzessiven Vorgehen (»stepwise«). Bei diesem Vorgehen können relevante Einflüsse übersehen werden, etwa weil sie nur wegen Multikollinearität nicht signifikant erscheinen, oder weil sie nur gemeinsam mit einer anderen Variablen bedeutsam sind. Es sollte also immer zuerst ein Modell mit allen als einflussreich angenommenen Variablen geschätzt werden. Erst nach dessen »Check« kann man dann daran gehen, irrelevante Einflüsse aus dem Modell zu entfernen, wobei im Grunde nach jeder entfernten Variablen ein erneuter Modellcheck erforderlich ist.

Zitierte Literatur:

Lieberson, Stanley: Making It Count. The Improvement of Social Research and Theory. Berkeley: University of California Press, 1995

Weitere Literatur:

Cohen, J./Cohen, P.: Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. Hillsdale, NJ: Erlbaum, 1975
Fox, John: Applied Regression Analysis, Linear Models, and Related Methods. Newbury Park: Sage, 1997
Jann, Ben: Diagnostik von Regressionsschätzungen bei kleinen Stichproben, in: Diekmann, Andreas (Hrsg.), Methoden der Sozialforschung. Sonderheft 44/2004 der Kölner Zeitschrift für Soziologie und Sozialpsychologie. Wiesbaden: VS Verlag für Sozialwissenschaften, 2006, S. 421-452.