Cooks Distanz (engl.: Cook's Distance)
Cooks Distanz (oft abgekürzt als Cooks D) ist das wichtigste Maß zur Bestimmung einflussreicher Fälle in einem Regressionsmodell. Im linearen Regressionsmodell lautet eine Formel
D=hiik·(1-hii)·^ε2i^σ2·(1-hii)
Dabei steht hii für die Diagonalelemente der Hat-Matrix, k ist die Zahl der Koeffizienten im Modell (einschließlich Konstante), epsilon-Dachi steht für das Residuum des betreffenden Falles und sigma-Dach zum Quadrat für die (geschätzte) Varianz der Residuen.
Für andere Regressionsmodelle (etwa die logistische Regression) wurden vergleichbare Kennzahlen entwickelt.
Literatur:
- Chatterjee, S./Hadi, A. S.: Influential observations, high leverage points, and outliers in linear regression, in: Statistical Science 1, 1986, S. 379-416
- Cook, R. D./Weisberg, S.: Criticism and Influence Analysis in Regression, in: Leinhardt, S. (Hrsg.): Sociological Methodology 1982. San Francisco: Jossey-Bass, 1982, S. 313-361
- Fox, John: Regression Diagnostics. (Reihe: Quantitative Applications in the Social Sciences). Newbury Park: Sage, 1992
- Jann, Ben: Diagnostik von Regressionsschätzungen bei kleinen Stichproben, in: Diekmann, Andreas (Hrsg.), Methoden der Sozialforschung. Sonderheft 44/2004 der Kölner Zeitschrift für Soziologie und Sozialpsychologie. Wiesbaden: VS Verlag für Sozialwissenschaften, 2006, S. 421-452
© W. Ludwig-Mayerhofer, ILMES | Last update: 17 May 2007