Planung des Stichprobenumfangs

Im Zuge eines Ethikantrags stellt sich immer wieder die Frage - Wie erstelle ich eine Fallzahlberechnung?

Ester Schritt ist die Formulierung der Forschungsfrage und die Klärung des Studientyps. Hier wird zwischen Forschung an Primärdaten und Forschung Sekundärdaten unterschieden. Wenn eine Forschung an Sekundärdaten (systematische Reviews und Metaanalysen) vorliegt brauchen wir keine Fallzahlberechnung. Es genügt die Zahlen aus Bortz (2006) Seite 672 verwenden. Mehr zum Thema finden sich im Artikel von Röhrig, Prel, and Blettner (2009).

Bei einer Forschung an Primärdaten (Experiment, klinischen Prüfungen oder epidemiologischen Forschung) ist er zweite Schritt die Definition der Zielgröße und die Bestimmung der Verteilungseigenschaft. Also ist es eine binäre Variable wie ZB. Krank/Gesund, sind es gezählte Daten wie die Anzahl an Tagen bis zum Eintreten eines Ereignisses oder sind es Messwerte aus einem Fragebogen oder einer Laboranalyse. Aus dieser Information lässt sich das geplante statistische Verfahren ableiten.

Dritter und wichtigster Punkt ist die Abschätzung des erwarteten Effekts also der Änderung durch die Intervention. Die Effektstärke ist dabei von entscheidender Bedeutung und sie wird entweder aus Literatur abgeleitet oder der Wissenschaftler schätzt sie aus seiner Erfahrung. Beim Abschätzen der Effektgröße genügt eine Verbale Beschreibung und zwar entweder mit kleiner Effekt, mittlerer Effekt oder großer Effekt. Die Einteilung in klein - mittel - groß stammt von Cohen (1988), nach seiner Daumenregel lassen sich die Verbalen Beschreibungen in Zahlen (Effektstärken) umwandeln.

Table 1: Effekt Stärken für verschiedene Tests berechnet mit dem R-Packet pwr.
Test Effect.Measure small medium large
tests for proportions p 0.20 0.50 0.80
tests for means t 0.20 0.50 0.80
chi-square tests chisq 0.10 0.30 0.50
correlation test r 0.10 0.30 0.50
anova f, eta 0.10 0.25 0.40
general linear model f2 0.02 0.15 0.35

Zur Berechnung der Fallzahl werden noch zwei Zahlen benötigt, die zwar theoretisch der Wissenschaftler festlegt aber in der Praxis vorgegeben sind den Alpha-Fehler und die Power Der Alpha-Fehler (Signifikanz Level oder Fehler Type I) wird meist mit 5% gewählt und als Power (Fehler Type II) wird 80% gewählt.

Nicht zu vernachlässigen ist auch die erwartete Drop-out Rate festzulegen. Die tatsächliche Stichprobe errechnet sich dann durch die Formel \(N=\frac{n}{1-d}\) (mit d Drop-out Rate).

Beispiel

Das folgende Beispiel ist inspiriert von Bortz (2010) Seite 147.

Forschungsfrage: Dämpft das Neuroleptikum Fluphenazin die psychotonische Systematik von schizophrenen Patienten stärker als das Standardneuroleptikum Haloperidol.

Versuchsplan: In einer Doppelblindstudie erhält die Experimentalgruppe Fluphenazin und die Kontrollgruppe Haloperidol. Nach 4 Wochen wird der Patient mit der CGI-Skala (Clinical Global Impression) beurteilt.

Nullhypothese H0: Die Patienten der Experimentalgruppe unterscheiden sich nicht von den Patenten der Kontrollgruppe.

Hauptzielgröße: 7-Stufige CGI-Skala. Die Skala wird als metrische Skale betrachtet.

Geplante statistische Verfahren: T-Test

Fallzahlberechnung: basiert auf dem R package pwr Champely (2018)

Alpha: 0.05, Power: 0.80, Test: zweiseitig

Erwartete Anzahl von Studienabbrecher/inne/n (Drop-out-Quote): 20%

Erwartete Effektstärke: Mittlerer Effekt mit d=0.50

# Berechnung mit R und dem Packet pwr
# library(pwr)
 
#Conventional effect size from Cohen (1982)
(efct<-cohen.ES(test=c("t"), "medium")$effect.size)
## [1] 0.5
(stchprb<-pwr.t.test(d=efct, 
                 power=0.80, 
                 sig.level=0.05, 
                 type="two.sample" ))
## 
##      Two-sample t test power calculation 
## 
##               n = 63.76561
##               d = 0.5
##       sig.level = 0.05
##           power = 0.8
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

Geschätzte Stichprobengröße um einen mittleren Effekt (d =0.5) und einer Drop-out-Quote von 20% mit dem T-Test zu berechnen ist 77 Probanden je Gruppe.

Programme zur Berechnung

Literatur

Bortz, Gustav A., Jürgen AND Lienert. 2010. Kurzgefaßte Statistik Für Die Klinische Forschung - Ein Praktischer Leitfaden Für Die Analyse Kleiner Stichproben ; Mit 90 Tabellen Sowie Zahlreichen Formeln. Berlin, Heidelberg: Springer.

Bortz, Nicola, Jürgen AND Döring. 2006. Forschungsmethoden Und Evaluation Für Human- Und Sozialwissenschaftler. Berlin Heidelberg New York: Springer-Verlag.

Champely, Stephane. 2018. Pwr: Basic Functions for Power Analysis. https://CRAN.R-project.org/package=pwr.

Cohen, Jacob. 1988. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Hillsdale, N.J: L. Erlbaum Associates.

Röhrig, Bernd, Jean-Baptist du Prel, and Maria Blettner. 2009. “Study Design in Medical Research.” Deutsches Aerzteblatt Online, March. https://doi.org/10.3238/arztebl.2009.0184.