Kreuztabelle (engl.: Contingency Table, Crosstabulation)

Auch: Kontingenztabelle, Kontingenztafel.

In K.n werden die gemeinsamen Häufigkeitsverteilungen zweier nominal- oder ordinalskalierter, manchmal zu Überblickszwecken auch gruppierter metrischer Variablen dargestellt und ausgewertet (zu den Begriffen »nominal-« und »ordinalskaliert« sowie »metrisch« siehe Messniveau).

Der genaue Inhalt einer K. hängt vom Zweck der Darstellung ab. Im allgemeinen ist es sinnvoll, bei den Randverteilungen die absoluten Häufigkeiten anzugeben, in den Zellen der Tabelle Prozentwerte. Ob Spalten- (engl.: Column Percent) oder Zeilenprozentwerte (engl.: Row Percent), hängt wieder vom genauen Zweck ab. Wird (wie meistens) zwischen einer unabhängigen (erklärenden) und einer abhängigen (zu erklärenden) Variablen unterschieden, so sollte die unabhängige Variable in den Kopf (als Spaltenvariable) und die abhängige an den Rand (als Zeilenvariable) gestellt werden. Der Zusammenhang läßt sich dann anhand der Spaltenprozent interpretieren.

Hier ein Beispiel, auf welches ich mehrfach zurückkomme: Untersucht werden soll der Zusammenhang zwischen der Häufigkeit von Arbeitslosigkeit in einem Zeitraum von sechs Jahren und der Häufigkeit, mit der die betroffenen Personen mindestens einmal von »strenger Armut« betroffen waren (strenge Armut ist hier definiert als ein Äquivalenzeinkommen, welches nicht mehr als 40 % des durchschnittlichen Einkommens aller Haushalte beträgt). Wir erhalten folgende Ergebnisse:

**Armut in Abhängigkeit von der Häufigkeit von Arbeitslosigkeit (abs. Zahlen und Spaltenprozent)**
	0 Jahre	1 Jahr	2 Jahre	3 Jahre	4+ Jahre	n
Niemals arm	3.469	563	152	55	31	4270
	83%	73%	63%	62%	53%	80%
Mind. 1 Jahr arm	711	208	90	34	28	1071
	17%	27%	37%	38%	47%	20%
n	4180	771	242	89	59	5341

Beachten Sie bitte, dass üblicherweise die absoluten Zahlen innerhalb der Tabelle nicht angegeben werden müssen (die Randverteilungen genügen); ich habe das hier nur zum Zweck der besseren Nachvollziehbarkeit einiger Beispiele gemacht. Auch das Design der Tabelle ist nicht schön, aber leider ist eine sinnvolle Ausrichtung der Daten nur mit großem Aufwand möglich, falls überhaupt.

Wir sehen also, dass von den 4.180 Personen, welche niemals arbeitslos waren, nur 17 %, von den 771 Personen, welche in einem Jahr arbeitslos waren, immerhin 27 % mindestens einmal arm waren, usw. In einem Satz: Mit der Häufigkeit von Arbeitslosigkeit steigt auch die Wahrscheinlichkeit, wenigstens einmal in Armut zu geraten.

Es sollte beachtet werden, dass der Kausalzusammenhang in dieser Tabelle nicht ganz eindeutig ist; es wäre auch denkbar, dass Personen zuerst arm und dann arbeitslos werden. Auch wenn es Zusammenhänge dieser Art wohl gibt, ist aber vermutlich der umgekehrte Einfluss doch weitaus stärker.

Zur Überprüfung des Zusammenhangs auf Überzufälligkeit können bei nominalskalierten Merkmalen der Chi²-Test nach Pearson oder ein log-lineares Modell herangezogen werden. Handelt es sich um zwei ordinalskalierte Merkmale, ist es im allgemeinen sinnvoller, den Signifikanztest für das dazugehörige Zusammenhangsmaß heranzuziehen, oder gegebenenfalls ein log-lineares Modell für ordinalskalierte Merkmale.

Zur Messung der Stärke des Zusammenhanges sollte eine geeignete Maßzahl ausgewählt werden, z. B.:

bei zwei nominalskalierten Merkmalen die Prozentsatzdifferenz, die Odds Ratio, Phi, der Kontingenzkoeffizient C , Cramer's V, Lambda oder (Goodman und Kruskals) Tau,
bei zwei ordinalskalierten Merkmalen Tau-a, Tau-b, Tau-c , Gamma, Somers' D oder u. U. der polychorische Korrelationskoeffizient.