Binomiale Regressionsanalyse
Die binomiale logistische Regression wird angewendet, wenn geprüft werden soll, ob ein Zusammenhang zwischen einer binären Ziel-Variable und einer oder mehreren Einfluss-Variablen besteht. Die folgenden Beispiele stammen von Bühl (2014) Seite 354. Die Beschreibung der Maßzahlen habe ich aus Backhaus et al. (2008) übernommen.
Tab 1: Häufigkeiten | |||
gruppe | |||
---|---|---|---|
tzell | n | Anteil | |
(48.5,54.5] | 1 | 1/0 | |
(54.5,60.5] | 3 | 3/0 | |
(60.5,66.5] | 18 | 14/4 | |
(66.5,72.5] | 13 | 5/8 | |
(72.5,78.5] | 10 | 1/9 | |
Tab 2: Häufigkeiten | |||
gruppe | |||
---|---|---|---|
LAI | n | Anteil | |
0 | 26 | 21/5 | |
1 | 19 | 3/16 | |
Odds
Odds ratio* OR Exp(b) - Exponent des Regressionskoeffizienten Odds Ratios ist nur bei der logistischen Regression sinnvoll. Logarithmierte Odds (Logits, Effekt-Koeffizienten)
Tab 3: broom::tidy(fit1): Odds Ratios | ||||
Quelle | B | 2.5 % | 97.5 % | p |
---|---|---|---|---|
(Intercept) | -14.65 | -28.69 | -3.39 | .021 |
tzell | 0.20 | 0.03 | 0.41 | .032 |
LAI1 | 2.21 | 0.55 | 4.06 | .012 |
Signifikanz des Regressionsmodells
Gütekriterien auf Basis der LogLikelihood-Funktion Devianz -2LL-Wert
H0: Modell besitzt eine perfekte Anpassung Gute Werte sind -2LL nahe 0 und p-Wert nahe 1 deviance(fit1)
LR-Test (Likeihood Ratio-Test)
H0: Alle Regressionskoeffizienten sind gleich Null. Chi-Quadret möglichst hoch p<0.05
Log-likelihood values cannot be used alone as an index of fit because they are a function of sample size but can be used to compare the fit of different coefficients. Because you want to maximize the log-likelihood, the higher value is better. For example, a log-likelihood value of -3 is better than -7
Der Wald Test sind eigentlich zwei Methoden die erste ist der Test ob irgendein Koeffizient signifikant ist, die zweite Methode welcher Koeffizient signifikant ist. Der erstere Wald Test (Model Coefficients) ist in der Regel wenig informativ. Der zweite Wald-Test ist die ANOVA (Type II) andere Bezeichnung ist Wald Chi-square Test oder Analysis of Deviance Table (Die Anova testet die Hypothese ob der zugehörige Koeffizient Null ist.)
Likelihood ratio test = Wald-Test Analysis of Deviance Table = Wald-Test (Type II), Anova Log Likelihood die Zahl kann für sich nicht interpretiert werden.
Gütemaße der Logistischen Regression
AIC, BIC (Informationskriterium) kleiner Wert steht für eine höhere Informativität der Models. Akaikes Informationskriterium (AIC), Bayesian Information Criterion (BIC) Omnibus Test mit lmtest::waldtest
Tab 4: lmtest::lrtest(fit1): LR-Test | ||||
#Df | LogLik | Df | Chisq | Pr(>Chisq) |
---|---|---|---|---|
3 | -18.26 | |||
1 | -31.09 | -2 | 25.67 | .000 |
Pseudo-R-Quadrat
McFaddens R2: [ 0.2 = akzeptabel, 0.4 = gut ] (see pR2) McFadden: McFadden’s pseudo r-squared
Cox und Snell R2: [ 0.2 = akzeptabel, 0.4 = gut ]
r2ML: Cox & Snell, Maximum likelihood pseudo r-squaredNagelkerke R2: [ 0.2 = akzeptabel, 0.4 = gut, 0.5 = sehr gut] r2CU: Nagelkerke Cragg and Uhler’s pseudo r-squared
Tab 5: Gütekriterien | |||||||
deviance | logLik | AIC | BIC | McFadden | r2ML | r2CU | RMSE |
---|---|---|---|---|---|---|---|
36.5 | -18.3 | 42.5 | 47.9 | 0.41 | 0.43 | 0.58 | 2.64 |
Weitere Betrachtung ist über Klassifikationstabelle und dazu gibt es die Tests Hosmer Lemeschow-Test und Press Q-Test.
Tab 6: Klassifikationstabelle | |||
Predictor | |||
---|---|---|---|
Response | positiv | negativ | |
positiv | 20 | 4 | |
negativ | 5 | 16 | |
Beschreibung der Ergebnisse
Eine logistische Regressionsanalyse zeigt, dass sowohl das Modell als Ganzes ( LogLik=-31.09, X2(3)=25.67, p<.001 ) als auch die einzelnen Koeffizienten der Variablen signifikant sind. Steigen die T-Zelltypisierung um jeweils eine Einheit, so nimmt die relative Wahrscheinlichkeit eines Krank/Gesund um OR = 1.22 zu. Ist die T-Zelltypisierung positiv so nimmt die relative Wahrscheinlichkeit um OR= 1.22 Das R-Quadrat nach Nagelkerke beträgt 0.58 was nach Cohen (1992) einem starken Effekt entspricht.
# Wahrscheinlichkeiten T-Zell
fit1 <- glm(gruppe ~ tzell , hkarz, family = binomial)
t.zell<- c(50,55,60,65,70,75,80) #seq(50,80, by=1)
i<- coef(fit1)["(Intercept)"]
b<-coef(fit1)["tzell"]
z <- i + b*t.zell
p<- 1/(1+exp(z))
cbind(t.zell, p=round(p,2))
## t.zell p
## [1,] 50 0.99
## [2,] 55 0.98
## [3,] 60 0.91
## [4,] 65 0.72
## [5,] 70 0.39
## [6,] 75 0.14
## [7,] 80 0.04
Literatur
Backhaus, Klaus, Bernd Erichson, Wulff Plinke, and Rolf Weiber. 2008. Multivariate Analysemethoden: Eine Anwendungsorientierte Einführung. 12., vollständig überarbeitete Auflage. Springer, Berlin.
Bühl, Achim. 2014. SPSS 22 : Einführung in Die Moderne Datenanalyse -. München: Pearson.