Binomiale Regressionsanalyse

Die binomiale logistische Regression wird angewendet, wenn geprüft werden soll, ob ein Zusammenhang zwischen einer binaeren Ziel-Variable und einer oder mehreren Einfluss-Variablen besteht. Die folgenden Beispiele stammen von Bühl (2014) Seite 354. Die Beschreibung der Maßzahlenzahlen habe ich aus Backhaus et al. (2008) übernommen.

Tab 1: AV: gruppe
  gruppe
tzell   n Anteil
(48.5,54.5]   1 1/0
(54.5,60.5]   3 3/0
(60.5,66.5]   18 14/4
(66.5,72.5]   13 5/8
(72.5,78.5]   10 1/9
Tab 2: AV: gruppe
  gruppe
LAI   n Anteil
0   26 21/5
1   19 3/16

Odds

Odds ratio* OR Exp(b) - Exponent des Regressionskoeffizienten Odds Ratios ist nur bei der logistischen Regression sinnvoll. Logarithmierte Odds (Logits, Effekt-Koeffizienten)

Tab 3: broom::tidy(fit1): Odds Ratios
Quelle B 2.5 % 97.5 % p
(Intercept) -14.65 -28.69 -3.39 .021
tzell 0.20 0.03 0.41 .032
LAI1 2.21 0.55 4.06 .012

Signifikanz des Regressionsmodells

Gütekriterien auf Basis der LogLikelihood-Funktion Devianz -2LL-Wert

H0: Modell besitzt eine perfekte Anpassung Gute Werte sind -2LL nahe 0 und p-Wert nahe 1 deviance(fit1)

LR-Test (Likeihood Ratio-Test)

H0: Alle Regressionskoeffizienten sind gleich Null. Chi-Quadret möglichst hoch p<0.05

Log-likelihood values cannot be used alone as an index of fit because they are a function of sample size but can be used to compare the fit of different coefficients. Because you want to maximize the log-likelihood, the higher value is better. For example, a log-likelihood value of -3 is better than -7

Der Wald Test sind eigentlich zwei Methoden die erste ist der Test ob irgendein Koeffizient signifikant ist, die zweite Methode welcher Koeffizient signifikant ist. Der erstere Wald Test (Model Coefficients) ist in der Regel wenig informativ. Der zweite Wald-Test ist die ANOVA (Type II) andere Bezeichnung ist Wald Chi-square Test oder Analysis of Deviance Table (Die Anova testet die Hypothese ob der zugehörige Koeffizient Null ist.)

Likelihood ratio test = Wald-Test Analysis of Deviance Table = Wald-Test (Type II), Anova Log Likelihood die Zahl kann für sich nicht interpretiert werden.

Gütemaße der Logistischen Regression

AIC, BIC (Informationskriterium) kleiner Wert steht für eine höhere Informativität der Models. Akaikes Informationskriterium (AIC), Bayesian Information Criterion (BIC) Omnibus Test mit lmtest::waldtest

Tab 4: lmtest::lrtest(fit1): LR-Test
#Df LogLik Df Chisq Pr(>Chisq)
3 -18.26
1 -31.09 -2 25.67 .000

Pseudo-R-Quadrat

  • McFaddens R2: [ 0.2 = akzeptabel, 0.4 = gut ] (see pR2) McFadden: McFadden’s pseudo r-squared

  • Cox und Snell R2: [ 0.2 = akzeptabel, 0.4 = gut ]
    r2ML: Cox & Snell, Maximum likelihood pseudo r-squared

  • Nagelkerke R2: [ 0.2 = akzeptabel, 0.4 = gut, 0.5 = sehr gut] r2CU: Nagelkerke Cragg and Uhler’s pseudo r-squared

Tab 5:
deviance logLik AIC BIC McFadden r2ML r2CU RMSE
36.5 -18.3 42.5 47.9 0.41 0.43 0.58 2.64

Weitere Betrachtung ist über Klassifikationstabelle und dazu gibt es die Tests Hosmer Lemeschow-Test und Press Q-Test.

Tab 6: Klassifikationstabelle
  Predictor
Response   positiv negativ
positiv   20 4
negativ   5 16

Beschreibung der Ergebnisse

Eine logistische Regressionsanalyse zeigt, dass sowohl das Modell als Ganzes ( LogLik=-31.09, X2(3)=25.67, p<.001 ) als auch die einzelnen Koeffizienten der Variablen signifikant sind. Steigen die T-Zelltypisierung um jeweils eine Einheit, so nimmt die relative Wahrscheinlichkeit eines Krank/Gesund um OR = 1.22 zu. Ist die T-Zelltypisierung positiv so nimmt die relative Wahrscheinlichkeit um OR= 1.22 Das R-Quadrat nach Nagelkerke beträgt 0.58 was nach Cohen (1992) einem starken Effekt entspricht.

# Wahrscheinlichkeiten T-Zell
fit1 <- glm(gruppe ~ tzell , hkarz, family = binomial)
t.zell<-    c(50,55,60,65,70,75,80) #seq(50,80, by=1)  

i<- coef(fit1)["(Intercept)"]
b<-coef(fit1)["tzell"]

z <- i + b*t.zell
p<- 1/(1+exp(z)) 

cbind(t.zell, p=round(p,2))
##      t.zell    p
## [1,]     50 0.99
## [2,]     55 0.98
## [3,]     60 0.91
## [4,]     65 0.72
## [5,]     70 0.39
## [6,]     75 0.14
## [7,]     80 0.04

Literatur

Backhaus, Klaus, Bernd Erichson, Wulff Plinke, and Rolf Weiber. 2008. Multivariate Analysemethoden: Eine Anwendungsorientierte Einführung. 12., vollständig überarbeitete Auflage. Springer, Berlin.

Bühl, Achim. 2014. SPSS 22 : Einführung in Die Moderne Datenanalyse -. München: Pearson.

Ähnliches