Cooks Distanz (engl.: Cook's Distance)

Cooks Distanz (oft abgekürzt als Cooks D) ist das wichtigste Maß zur Bestimmung einflussreicher Fälle in einem Regressionsmodell. Im linearen Regressionsmodell lautet eine Formel

D = h ii k · ( 1 - h ii ) · ε ^ i 2 σ ^ 2 · ( 1 - h ii )

Dabei steht hii für die Diagonalelemente der Hat-Matrix, k ist die Zahl der Koeffizienten im Modell (einschließlich Konstante), epsilon-Dachi steht für das Residuum des betreffenden Falles und sigma-Dach zum Quadrat für die (geschätzte) Varianz der Residuen.

Für andere Regressionsmodelle (etwa die logistische Regression) wurden vergleichbare Kennzahlen entwickelt.

Literatur:

  • Chatterjee, S./Hadi, A. S.: Influential observations, high leverage points, and outliers in linear regression, in: Statistical Science 1, 1986, S. 379-416
  • Cook, R. D./Weisberg, S.: Criticism and Influence Analysis in Regression, in: Leinhardt, S. (Hrsg.): Sociological Methodology 1982. San Francisco: Jossey-Bass, 1982, S. 313-361
  • Fox, John: Regression Diagnostics. (Reihe: Quantitative Applications in the Social Sciences). Newbury Park: Sage, 1992
  • Jann, Ben: Diagnostik von Regressionsschätzungen bei kleinen Stichproben, in: Diekmann, Andreas (Hrsg.), Methoden der Sozialforschung. Sonderheft 44/2004 der Kölner Zeitschrift für Soziologie und Sozialpsychologie. Wiesbaden: VS Verlag für Sozialwissenschaften, 2006, S. 421-452

© W. Ludwig-Mayerhofer, ILMES | Last update: 17 May 2007