Zensierte, trunkierte (gestutzte) Daten, Eckdaten (engl: Censored, Truncated Data)

Die hier in Rede stehenden, nicht ganz einheitlich gebrauchten Begriffe beziehen sich auf unvollständige Daten. Genauer geht es darum, dass von einer Variablen nicht alle Messwerte exakt vorliegen, wobei sich mehrere Konstellationen unterscheiden lassen:

Ausgangspunkt ist die Beobachtung, dass exakte Messwerte nicht vorliegen, wenn ein bestimmter Messwert unter- oder überschritten wird. Beispielsweise könnte in einer Umfrage nach dem Vermögen von Personen gefragt werden; wer kein Vermögen hat, erhält den Wert Null. Tatsächlich können Personen – solche mit Schulden – negative Vermögen unterschiedlicher Höhe aufweisen. Alle diese Angaben sind aber an im vorliegenden Fall an dem (unteren) Schwellenwert abgeschnitten.
Üblicherweise spricht man hier von zensierten Daten, es kommt jedoch auch vor, dass in der Literatur hier von trunkierten Daten gesprochen wird. Oft lassen sich solche Daten mit einem Tobit-Modell analysieren.
Eine spezielle Konstellation zensierter Daten liegt im Fall zeitbezogener Daten vor. Hier verfügt man häufig über die Information, dass bis zu einem bestimmten Zeitpunkt entweder ein spezifisches Ereignis (z.B. Heirat, Geburt des ersten Kindes, Ende der Arbeitslosigkeit) eingetreten ist oder nicht. Solche Daten werden mit Verfahren der Verlaufsdatenanalyse ausgewertet.
Eine verwandte Konstellation liegt vor, wenn Daten überhaupt nur erhoben werden, wenn Untersuchungseinheiten einen bestimmten Schwellenwert überschreiten. Ein Beispiel wäre eine Untersuchung, in der Personen gefragt werden, ob sie im vergangenen Jahr an Weiterbildungsmaßnahmen teilgenommen haben; nur diejenigen, die überhaupt an solchen Maßnahmen teilgenommen haben, werden nach dem genauen zeitlichen Umfang der Weiterbildung sowie nach weiteren abhängigen Merkmalen gefragt. Die kompletten Daten liegen also überhaupt nur für diejenige Teilstichprobe vor, die den Schwellenwert von Null (Stunden) überschritten hat.
Hier spricht man von meist von trunkierten Daten oder einer trunkierten Stichprobe; die Daten dürften typischerweise mit einem zweistufigen Schätzverfahren analysiert werden, in welchem zunächst (um in unserem Beispiel zu bleiben) die Teilnahme an Weiterbildung (ja/nein) und in einem zweiten Schritt der Umfang der Weiterbildung modelliert wird. In dem zweiten Schritt muss die Selektivität der so erhaltenen Stichprobe adäquat berücksichtigt werden.
Bei trunkierten Daten bzw. Stichproben lassen sich genauer zwei Konstellationen unterscheiden: Im gerade genannten Fall hängt die Trunkierung von einem Schwellenwert ab, der in abhängigen Variablen selbst gegeben ist. Trunkierungen können aber auch auf andere Merkmale zurückgehen. Beispielsweise könnten in einer Untersuchung nur Eltern danach gefragt werden, wie viel Geld sie für das Spielzeug ihrer Kinder ausgeben. Bei allen Personen, die nicht Eltern sind, liegt dann kein Messwert vor. Hier kann man von sample selection sprechen.

Literatur:

Breen, Richard: Regression Models: Censored, Sample-Selected, or Truncated Data (Sage University Paper series on Quantitative Applications in the Social Sciences 07-111). Thousand Oaks, CA: Sage, 1996.