Dummy-Variable (engl.: Dummy Variable)

Eine D. ist eine binäre Variable mit den Ausprägungen 0 und 1, die als Platzhalter für eine Ausprägung einer mehrstufigen Variablen steht.

D.n werden insbesondere in der Regressionsanalyse eingesetzt. Dort werden im allgemeinen lineare (oder in lineare zu transformierende) Beziehungen zwischen »abhängigen« und »unabhängigen« Variablen untersucht. Das setzt voraus, dass die unabhängigen Variablen metrisch sind (»wenn die unabhängige Variable sich um eine Einheit ändert, ändert sich die abhängige Variable um soundsoviel Einheiten«). Als einzige Ausnahme können 0-1 codierte Variablen zugelassen werden, da man hier den Wechsel von der Ausprägung 0 auf 1 oder umgekehrt ebenfalls als Änderung um eine Einheit interpretieren kann.

Hat nun eine kategoriale oder ordinale Variable mehr als zwei Ausprägungen, so kann wie folgt verfahren werden: Eine Ausprägung wird vorab als Bezugs- oder Referenzkategorie festgelegt. Die anderen Ausprägungen werden nun folgendermaßen in Dummy-Variablen zerlegt: Für jede Ausprägung wird eine Variable erzeugt, die für alle Fälle im Datensatz den Wert 1 hat, die diese Ausprägung aufweisen, und für alle anderen Fälle den Wert 0. Bei k Ausprägungen einer Variablen ergeben sich somit k-1 Dummy-Variablen.

Hier ein Beispiel:

Angenommen, wir haben eine dreistufige Variable, die den Wirtschaftssektor misst, in dem eine Person tätig ist: primärer, sekundärer oder tertiärer Sektor. Aus den drei Ausprägungen werden nun zwei Dummy-Variablen gebildet: Alle Personen im sekundären Sektor erhalten in der ersten Dummy-Variablen den Wert 1, alle anderen (auch die im primären Sektor) den Wert 0. In der zweiten Dummy-Variablen erhalten die Personen im tertiären Sektor den Wert 1, alle anderen Personen den Wert 0. Die folgende Tabelle fasst das übersichtlich zusammen:

	Dummy 1	Dummy 2
Primär	0	0
Sekundär	1	0
Tertiär	0	1

Die Ergebnisse sind nun in Beziehung zu der Referenzgruppe, den Personen im primären Sektor zu lesen. Im Beispiel: Der Koeffizient für die erste Dummy-Variable gibt an, wie sich Personen im sekundären Sektor von denen im primären Sektor unterscheiden, derjenige für die zweite Dummy-Variable, wie sich Personen im tertiären von denen im primären Sektor unterscheiden. Der Unterschied zwischen den Personen im sekundären und denen im tertiären Sektor ergibt sich aus dem Unterschied zwischen den beiden Koeffizienten.

In der Praxis sollte die Wahl der Bezugskategorie nach inhaltlichen Kriterien erfolgen, es sollte jedoch möglichst darauf geachtet werden, dass die Fallzahlen in dieser Gruppe nicht zu klein sind (in diesem Sinne war das hier verwendete Beispiel u.U. nicht optimal).