Cox-Regression, Cox-Modell (engl.: Cox Regression, a.k.a. Partial Likelihood Analysis for Censored Data)
Mit Cox-Regression wird ein semi-parametrisches Verfahren der Analyse von Verlaufsdaten (Verweildauern) bezeichnet, welches von dem englischen Statistiker D. Cox vorgeschlagen wurde. In diesem Modell werden Einflüsse auf die Hazardrate folgendermaßen modelliert:
r(t|x) = r0(t) · eb1x1+ b2x2 + ... + bnxn
Hierbei ist- r(t|x) die von den Merkmalen x abhängige Hazardrate (die momentante Neigung zum Zustandswechsel),
- r0(t) der in diesem Modell nicht geschätzte sog. »baseline hazard«, d. h. die Hazardrate unter der Bedingung, dass die Ausprägung aller Merkmale des Kovariaten-Vektors (also der "unabhängigen" Variablen) 0 ist, und
- eb1x1+ b2x2 + ... + bnxn derjenige Modell-Teil, in dem die Einflüsse der Kovariaten formuliert werden.
Weil der "baseline hazard" r0(t) im Rahmen der Modellschätzung außer acht gelassen wird, heißt das Modell auch Partial Likelihood Verfahren bzw. wird als semiparametrisches Modell bezeichnet. Es wurden jedoch alternative Verfahren für eine Schätzung des »baseline hazard« entwickelt.
Das Modell formuliert also z.B., dass sich die Hazardrate um den Betrag eb1 ändert, wenn sich die Variable x1 um den Betrag von 1 ändert. Durch diese Verknüpfung wird sicher gestellt, dass die Regressionkoeffizienten b auch negative Werte annehmen können, ohne dass die geschätzte Hazardrate selbst negativ würde (was sinnlos wäre, da es negative Hazardraten nicht geben kann).
ebi kann dagegen nur positive Werte annehmen. Man bezeichnet ebi oft auch als α-(alpha-)Koeffizienten . Es gilt folgende Beziehung:
bi < 0 | → 0 < αi < 1 |
bi = 0 | → αi = 1 |
bi > 0 | → αi > 1 |
Die α-Effekte lassen sich folgendermaßen interpretieren: Der Wert 100 · (αi-1) gibt die prozentuale Veränderung des durch die Hazardrate geschätzten Risikos eines Zustandswechsels an, wenn sich die Variable xi um den Betrag von 1 ändert. Ein Wert von α = 1 bedeutet also, dass sich die Hazardrate überhaupt nicht in Abhängigkeit von der betreffenden Variable ändert, ist α größer als 1, so besteht ein positiver, ist α kleiner als 1, ein negativer Zusammenhang zwischen der betreffenden Variablen und der Hazardrate. Ist also z.B. α = 0,8, so ändert sich die Hazardrate um 100 · (0,8 - 1) = -20 Prozent (man kann natürlich auch sagen, dass das Risiko das 0,8-fache beträgt).
Zu beachten ist, dass die α-Effekte nicht additiv, sondern multiplikativ wirken. Es gilt nämlich
r(t,x) = r0(t) · (eb1)x1 · (eb2)x2 · ... · (ebn)xn
und damit
r(t,x) = r0(t) · α1x1 · α2x2 · ... · αnxn.
Ist also z. B. α1 = 0,8 und ändert sich der Wert der Variablen x1 um den Betrag von 2, so ändert sich das Risiko der betreffenden Untersuchungseinheit um 0,82 = 0,64.
Inferenzstatistik
Die Signifikanz einzelner Effekte lässt sich mittels der Wald-Statistik prüfen. Besser ist jedoch der Likelihood-Quotienten-Test, der auch für die Prüfung der Signifikanz des Gesamtmodells herangezogen werden kann. Weitere Testverfahren lassen sich der einschlägigen Spezialliteratur entnehmen.
Test auf proportionale Hazards
Das Cox-Modell unterstellt, dass die relativen Einflüsse der Kovariaten im Zeitverlauf gleich sind; man spricht hier von sog. proportionalen Hazards. (Es gibt jedoch noch weitere Modelle, die auf der Annahme proportionaler Hazards beruhen.) Zur Prüfung, ob diese Annahme zutrifft, wird ein geschichtetes Modell geschätzt; die verschiedenen Schichten sind dabei unterschiedliche Ausprägungen einer Variablen (metrische Variablen werden zweckmäßiger Weise gruppiert). Dabei wird für jede Schicht S0(t) berechnet. Wird für jede Schicht ln (-ln(S0(t))) – die sog. log-minus-log-Survivor-Funktion – geplottet, müssen die Kurven für alle Schichten im Zeitverlauf stets den gleichen Abstand haben.
Für einen formalen Test auf Verletzung der Proportional-Hazards-Annahme wurde vorgeschlagen, Interaktionseffekte zwischen der- oder denjenigen Variablen, die im Verdacht steht/stehen, einen nicht-proportionalen Einfluss zu haben, und der Prozesszeit in das Modell aufzunehmen. Es ist also ein Term bzz in die Modellgleichung aufzunehmen, wobei z für xi · ln(t) oder xi · (ln(t) - ln(c)) mit xi als der auf Proportionalität zu prüfenden Variable und c als dem Mittelwert der Verweildauer steht. Die Subtraktion von ln(c) soll die Kollinearität zwischen xi und der Test-Variablen z reduzieren (warum das der Fall sein soll, leuchtet mir jedoch nicht ein, weil nur eine Konstante abgezogen wird).
Zeitveränderliche Kovariaten
Ein besonderer Vorzug des Cox-Modells ist, dass es statistisch gesehen einfach ist, auch die Einflüsse zeitverändlicher Kovariaten in das Modell einzubeziehen. Damit sind erklärende Variablen gemeint, deren Werte sich im Zeitverlauf ändern. Ein Beispiel wäre die Zahl der Kinder, die die einzelnen Untersuchungspersonen haben, als Einfluss auf die Dauer von Beschäftigungsverhältnissen oder von Arbeitslosigkeit. Die Änderung der Werte der Kovariaten sollte jedoch von dem untersuchten Prozess unabhängig sein; diese Annahme dürfte nicht häufig zutreffen (so wäre denkbar, dass die Zahl der Kinder von Arbeitslosen von der Arbeitslosigkeit selbst beeinflusst wird, oder dass Personen mit zunehmener Beschäftigungsdauer mehr [wegen größerer Einkommenssicherheit] oder weniger [wegen größerer beruflicher Belastungen)] Kinder bekommen).
Literatur:
- Collett, Dave: Modelling Survival Data in Medical Research, Boca Raton, London, New York, Washington: Chapman & Hall/CRC, 1999. (Erstausgabe 1994 bei Chapman & Hall)
© W. Ludwig-Mayerhofer, ILMES | Last update: 08 Feb 2003