Stamm-Blatt-Diagramm, auch: Stängel-Blatt-Diagramm, Stem-and-Leaf-Diagramm (engl.: Stem-and-leaf Display)
Auf John W. Tukey zurückgehende einfache Veranschaulichung von Häufigkeitsverteilungen, vor allem für metrische (mindestens aber ordinalskalierte) Variablen und nicht allzu große Datensätze geeignet.
Ein S. ist leicht zu verstehen und schwer in seiner Entstehung zu erklären. Daher hier zunächst ein Beispiel, das sich auf (konstruierte) Daten einer Altersverteilung Erwerbstätiger bezieht:
2 . | 1244 |
2 . | 56777788889 |
3 . | 111122233344 |
3 . | 55555666667777777889999 |
4 . | 0011111222334 |
4 . | 55567777888999 |
5 . | 22233344 |
5 . | 555678 |
6 . | 0014 |
6 . | 55555 |
Stamm: Zehner, Blatt: Einer
Dieses Beispiel-Diagramm ist folgendermaßen zu lesen: Die Zahlen auf der linken Seite (der "Stamm") geben die Werte der Zehnerstellen wieder, die auf der rechten Seite (die "Blätter") die Werte der Einerstellen. Im Datensatz befinden sich insgesamt 100 Personen (entsprechend 100 Blättern auf der rechten Seite), und zwar eine Person im Alter von 21 Jahren, eine mit 22 Jahren, zwei mit 24 Jahren, eine mit 25 Jahren usw. (von oben gelesen).
Der Vorteil dieses Diagramms: Eine quasi-graphische Veranschaulichung der Verteilung wird mit der Wiedergabe der (mehr oder weniger exakten) Datenwerte verbunden. Damit die Blätter auch gut die Anzahl der Datenwerte veranschaulichen, ist es sinnvoll, die Darstellung (wie hier) in einer Monospace-Schrift vorzunehmen, also einer Schrift, in der alle Zeichen (plus der sie umgebende Raum) gleich breit sind (bspw. Courier, im Gegensatz zu einer Proportionalschrift wie etwa der Times Roman)
Allgemein wird ein S. folgendermaßen erzeugt:
1. Zunächst wird der Datenbereich in Intervalle gleicher Breite zerlegt. Die Breite beträgt 1/2 oder 1 mal ein Vielfaches von 10. Die Zahl der Intervalle ist den Daten anzupassen, im allgemeinen sind ca. 10 bis 25 Intervalle sinnvoll, es kommt aber ganz auf die Umstände an. Hat man also Werte zwischen 0 und 100, so wird man entweder 10 Intervalle der Breite 10 oder 20 Intervalle der Breite 5 wählen. Bei Einkommensdaten wird man dagegen etwa Intervalle der Breite 500 wählen.
2. Die erste Ziffer der Daten im jeweiligen Intervall wird links als Stamm abgetragen. Dabei ist zu beachten, dass die erste Ziffer eine (implizite) Null sein kann. Im eben erwähnten Fall der Einkommensdaten treten vermutlich Werte zwischen wenigen hundert und vielen Tausend Euro auf. Der Stamm für die ersten beiden Intervalle (0 bis 499 und 500 bis 999 Euro) beträgt in diesem Fall Null.
3. Die Datenwerte werden auf die nächste Stelle nach dem Stamm gerundet (oder trunkiert). Die sich so ergebenden Werte an dieser Stelle werden einzeln der Größe nach geordnet linksbündig neben dem jeweiligen Stamm abgetragen. (Im Beispiel: Aus 330 EUR wird eine 3, die nach dem ersten Stamm mit dem Wert Null abgetragen wird; aus 1470 EUR bei Rundung eine 5, die nach dem zweiten Stamm mit dem Wert 1 abgetragen wird.) Sind sehr viele Datenwerte vorhanden, können einzelne Blätter auch mehrere Fälle repräsentieren.
© W. Ludwig-Mayerhofer, ILMES | Last update: 18 Oct 2003