Imputation

I. bedeutet die Ersetzung fehlender Werte einer Datenmatrix durch mehr oder weniger plausible Werte, die dann in die Analyse der Daten eingehen. Es handelt sich also um eine Missing Data-Technik. Grundsätzlich lassen sich zwei Gruppen von I.-Verfahren unterscheiden; die erste Gruppe, die singulären I.-Verfahren, sind in aller Regel hoch problematisch, die zweite Gruppe, Verfahren der multiplen I., die die Grenzen der alten Verfahren überwinden, sind in neuerer Zeit bekannter geworden. Die Zeit wird zeigen, ob sich die Versprechen dieser Verfahren in der Praxis halten lassen. Verfahren der multiplen I. sind die einzigen Verfahren, denen eine statistische Theorie zugrunde liegt; die übrigen Verfahren sind ad hoc-Verfahren.

Singuläre Imputationsverfahren

Singuläre Imputationsverfahren ergänzen ausschließlich den vorhandenen Datensatz, so dass am Ende ein einziger Datensatz vorhanden ist, der aus den ursprünglich vorhandenen plus den imputierten (ehemals fehlenden) Werten besteht. Hier lassen sich mehrere Verfahren unterscheiden.

Ersetzung durch den Mittelwert (engl.: Mean Substitution)

Hierbei werden alle fehlenden Werte durch den Mittelwert des betreffenden Merkmals ersetzt. Dieses Verfahren kann bei statistischer Standardsoftware oft sehr einfach eingesetzt werden. Es hat nur einen kleinen Nachteil: Es ist ein schlechtes Verfahren, denn dadurch wird systematisch die Streuung des betreffenden Merkmals unterschätzt. Das hat auch ungünstige Auswirkungen auf die inferenzstatistische Absicherung der Analysen, da dadurch auch die Standardfehler unterschätzt werden.

Cold Deck- und Hot Deck-Imputation

Hier werden die fehlenden Werte durch einen vorhandenen Wert eines ähnlichen Falles ersetzt. Im Falle von Cold Deck-I. kommt dieser ähnliche Fall aus einem anderen Datensatz, im Falle der Hot Deck-I. aus dem gleichen Datensatz.

Ersetzung durch ein Regressionsmodell

Hier werden die fehlenden Werte aus anderen Werten der Datenmatrix durch ein Regressionsmodell vorhergesagt und der Schätzwert aus dem Modell an Stelle des fehlenden Wertes in die Datenmatrix eingesetzt.

Last Observation Carried Forward (LOCF)

Dieses Verfahren wird gelegentlich in Längsschnittanalysen (Messwiederholungen) angewendet. Hier wird bei fehlenden Werten der entsprechende Datenwert aus der vorangegangenen Messung eingesetzt. Dieses Verfahren basiert auf der heroischen Annahme, dass sich im Zeitverlauf nichts ändert. Ist diese Annahme gerechtfertigt, so ist LOCF ein sinnvolles Verfahren. Fälle, in denen diese Annahme tatsächlich gerechtfertigt ist, sind bislang noch nicht bekannt geworden.

Allen singulären Verfahren ist gemeinsam, dass die nach der Imputation vollständige Datenmatrix behandelt wird, als sei sie von Anfang an vollständig gewesen. Die imputierten Werte werden also behandelt wie nicht imputierte Werte. Damit wird der Tatsache nicht Rechnung getragen, dass es sich bei den imputierten Werten zwar möglicherweise um plausible, aber wahrscheinlich nicht die »wahren« Werte handelt.

Multiple Imputation

Grundidee

Die auf Rubin (1987) zurückgehenden Verfahren der multiplen Imputation (vgl. auch Little & Rubin 1987) vermeiden die vorstehend diskutierten Probleme. Sie lassen sich gut im Vergleich zu singulärer Imputation durch Regressionsverfahren verstehen, erweitern diese jedoch um wichtige Komponenten:

1. Die singuläre I. durch Regressionverfahren geht üblicherweise deterministisch vor, d.h. sie sieht keinen Fehlerterm oder Residuum vor. Damit wird aber der Zusammenhang zwischen den Merkmalen in der Datenmatrix typischerweise überschätzt. Es ist also zunächst erforderlich, zu den aus dem Regressionsmodell geschätzten Werten für die fehlenden Daten eine stochastische Komponente (Zufallskomponente) hinzuzufügen. Diese wird zufällig aus einer für das imputierte Merkmal unterstellten Fehlerverteilung gezogen, im Falle eines normalverteilten metrischen Merkmals etwa aus einer Normalverteilung.

2. Wichtiger ist aber folgende Erweiterung: Imputiert man anhand eines einzigen Regressionsmodells, selbst wenn dieses eine stochastische Komponente enthält, wird nicht berücksichtigt, dass es sich bei diesem Regressionsmodell selbst nur um eine Schätzung aus den Daten, vermutlich also nicht das »wahre« Regressionsmodell handelt. Aus diesem Grund wird die Imputation nicht nur einmal, sondern mehrmals durchgeführt, wobei jedes Mal eine neuer vollständiger Datensatz erzeugt wird. Bei jeder dieser Imputationen werden die Regressionsparameter selbst unter Berücksichtigung ihrer stochastischen Natur geschätzt.

Auf die – komplexen – Details dieser Schätzung kann an dieser Stelle nicht eingegangen werden. Angemerkt sei, dass sich im Prinzip zwei Vorgehensweisen unterscheiden lassen: Im Idealfall werden die fehlenden Werte gemeinsam auf der Grundlage einer gemeinsamen Verteilung modelliert (joint modeling). Kann eine solche gemeinsame Verteilung nicht angenommen werden, können die fehlenden Werte in den einzelnen Merkmalen sukzessive auf der Grundlage einer Reihe von Regressionsmodellen geschätzt werden, die sich von Merkmal zu Merkmal unterscheiden können (fully conditonal specification; siehe etwa van Buuren et al. 2006).

Rubins Regeln (Rubin's Rules)

Die so entstandenen Datensätze werden zunächst jeweils für sich nach den üblichen statistischen Verfahren ausgewertet; entscheidend ist dann die Zusammenfassung der Ergebnisse nach »Rubins Regeln« (im folgenden nach Schafer 1997). Die wichtigsten beziehen sich auf die Schätzer der Parameter und deren Varianzen:

Der Punktschätzer für den interessierenden Parameter wird einfach als Durchschnitt der aus den m imputierten Datensätzen geschätzten Parameter berechnet. Bezeichnen wir den Parameter als Q, so gilt also:

\bar{Q} = \frac{1}{m} \sum_{1}^{m} \overset{⌢}{Q}

Die Berechnung der Varianz der Schätzung für inferenzstatistische Zwecke ist komplexer; in sie gehen sowohl die Varianzen der Schätzwerte aus den Analysen der m imputierten Datensätze ein (sog. Varianz innerhalb) als auch die Varianz als Streuung der einzelnen Schätzwerte um ihren Mittelwert (sog. Varianz zwischen) ein. Letztere erfasst die Variabilität der Schätzungen aufgrund der fehlenden Datenwerte und der damit verknüpften Unsicherheit. Die genannten Größen werden wie folgt berechnet:

Varianz innerhalb:

\bar{U} = \frac{1}{m} \sum_{1}^{m} U

wobei U die Varianz des jeweils in den m imputierten Datensätzen geschätzen Parameters bezeichnet.

Varianz zwischen:

B = \frac{1}{m - 1} {\sum_{1}^{m} (Q - \bar{Q})}^{2}

Hieraus wird die Varianz als Gesamtvarianz T berechnet

T = \bar{U} + (1 + \frac{1}{m}) B

und der Standardfehler von Q-quer ergibt sich dann als Wurzel aus T.

Zitierte Literatur:

Little, Roderick J. A./Rubin, Donald B.: Statistical Analysis with Missing Data. New York: Wiley, 1987
Rubin, Donald B.: Multiple Imputation for Nonresponse in Surveys. New York: Wiley, 1987
Schafer, J. L.: Analysis of Incomplete Multivariate Data. London: Chapman & Hall, 1997
Van Buuren, S./Brand, J. P. L./Groothuis-Oudshoorn, C. G. M./Rubin, D. B.: Fully Conditional Specification in Multivariate Imputation Journal of Statistical Computation and Simulation 76 (2), 2006, S. 1049-1064

Weitere (einführende) Literatur:

Allison, Paul D.: Missing Data. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-136. Thousand Oaks, London: Sage, 2002
Weins, Cornelia: Multiple Imputation, in: Behnke, Joachim/Gschwend, Thomas/Schindler, Delia/Schnapp, Kai-Uwe (Hrsg.), Methoden der Politikwissenschaft. Neuere qualitative und quantitative Analyseverfahren. Baden-Baden: Nomos, 2006, S. 205-216