Methodenvergleich in der Medizin

Oft interessiert die Mediziner die Zuverlässigkeit und Reproduzierbarkeit einer Diagnose. Die Beurteilung kann dabei durch einen Bewerter (Messverfahren) in wiederholter Form erfolgen und wird dann als Intra-Rater bezeichnet oder die Beurteilung eines Merkmals erfolgt durch mehrere Bewerter (Messverfahren). Hier spricht man von Inter-Rater. Die Methode der Beurteilung der Übereinstimmung hängt von den jeweiligen Verteilungseigenschaften ab.

Bei nominal verteilten Daten wird abgezählt und die Rate der Übereinstimmung bewertet (Cohen-Kappa-Koeffizient) Bei Ordinalen-Daten werden die gewichteten Übereinstimmungen ausgezählt (gewichteter Cohen-Kappa-Koeffizient). Bei metrischen(stetigen) Daten werden die Differenzen beurteilt (Bland-Altman-Methode oder auch Tukey Mean Difference).

Übereinstimmung von kategorialer Messwertreihen

Beispiel: Es soll an Hand von 100 jugendlichen Patienten überprüft werden ob die Klassifizierung in Verwahrlosung (V) Neurose (N) und Psychose (P) durch zwei Experten (A und B) übereinstimmt. Dieses Beispiel stammt aus Bortz (2010) Seite 312. Im Beispiel wird der ungewichtete Kappa-Koeffizient verwendet. Die Klassifizierung der zwei Jugendpsychiater ist in Tabelle 1 dargestellt. Entlang der Diagonale sind die Häufigkeiten mit den Übereinstimmenden Urteilen (konkordant).

Tab 1: Daten für die Berechnung. Verwahrlosung (V) Neurose (N) Psychose (P)
  B
A   V N P
V   53 5 2
N   11 14 5
P   1 6 3
Tab 2: Ungewichtetes Kappa Maß mit 95% Konfidenzintervall (CI) und Approximate Standard Error (ASE) sowie dem z-Test. Berechnet mit vcd::Kappa.
Quelle Kappa CI ASE z.Test p
Unweighted 0.43 [0.28, 0.58] 0.08 5.64 .000

Abbildung 1 visualisiert des Ergebnis durch den Bangdiwala’s Observer Agreement Chart die schattierten Flächen repräsentieren das Maß an Übereinstimmung je dunkler der Bereich je größer ist die Übereinstimmung der zwei Beurteiler.

Besteht eine positive Konkordanz zwischen den Beurteilern A und B. Verwahrlosung (V) Neurose (N) Psychose (P)

Figure 1: Besteht eine positive Konkordanz zwischen den Beurteilern A und B. Verwahrlosung (V) Neurose (N) Psychose (P)

Interpretation mit einem Kappa von 0.43 zeigt sich eine mäßige Übereinstimmung der beiden Psychiater. Wie aus der Abbildung ableitbar ist die Übereinstimmung bei der Diagnose Verwahrlosung am größten bei der Diagnose Psychose hingegen sind deutliche abweichungen vorhanden.

Übereinstimmung von stetigen Messwertreihen

Analyse der Differenzen zwischen den Messwertreihen in Abhängigkeit vom Mittelwert. Sachs (2006) Seite 439 Der Tolleranzbereich LOA (Limits of agreement) errechnet sich über die Formel \(LOA=\overline{d}\pm 2 \cdot s_d\) d ist der systematische Abweichung Messfehler, ist die Standardabweichung der Differenz (es wird eine Normalverteilung unterstellt)

Hier in diesem fiktiven Beispiel aus der Zahnmedizin wird die Sondiertiefe mit zwei unterschiedlichen Methoden (A und C) bestimmt. A ist dabei die klassische Methode und C die Bestimmung mittels einer neu entwickelten Sonde. In der Grafik unten werden drei Visualisierungen dargestellt: Links sehen Sie ein Streudiagramm mit der Regressionsgeraden, in der Mitte ein BA-Plot über die Differenzen, und rechts der BA-Plot über die Prozentualen Differenz. Wir erwarten dass beide Verfahren die gleichen Ergebnisse liefern.

Die Idee hinter der Bland-Altman-Methode ist dass der wahre Messwert des Patienten unbekannt ist, aber durch beide Methoden mit einer unbekannte Präzession gemessen wird – also quasi der Mittelwert aus den beiden Messungen. Wenn ich jetzt diesen Mittelwert gegen die Differenz der Messwerte auftrage, kann ich ablesen, wie groß die die Variabilität der Messungen ist und ob diese Variabilität über den gesamten Messbereich konstant ist. Weiterführende Literatur Giavarina (2015) und Lange (2007)

Tab 3: Differenzen der Sondiertiefe mit den 95% Konfidenzintervallen
Parameter Unit CI SE Percent
df (n-1) 99
difference mean (d) 4.79 [0.66, 8.92] 2.08 12.6%
standard deviation (s) 20.80 99.1%
critical.diff (1.96s) 40.77 194.2%
d-1.96s -35.99 [-43.14, -28.84] 3.60 <0.1%
d+1.96s 45.56 [38.41, 52.71] 3.60 293.2%

Aus der Abbildung des Streudiagramms ist erkenntlich, dass die beiden Messungen linear verlaufen, es gibt also keine Sprünge oder abrupten Veränderungen. Der BA-Plot über die Differenz zeigt dass im Bereich von 0.5mm bis 1.5mm die Streuung gleichmäßig verteilt ist und im Bereich von 2.0mm ist auffallend die Differenzen schief verteilt ist, dadurch erkennen wir das die Methode C höhere Sondiertiefe misst. Die durchschnittliche Differenz beträgt 4.79mm CI=[0.66, 8.92], d.H. die Sondiertiefe ist bei Methode C kleiner. Im BA-Plot mit den Prozentuale Differenzen ist gut ersichtlich, dass bei kleinen Sondiertiefen bis 0.5mmm große Abweichungen bestehen, die durchschnittliche Abweichung liegt bei 12.6%.

Bland-Altman-Methode Bias

Figure 2: Bland-Altman-Methode Bias

Notation: d … Bland-Altman-Methode Bias s … systematische Abweichung Messfehle LOA … Standardabweichung der Differenz (Limits of agreement) d+-1.96 … Intervall von 95% (es wird eine Normalverteilung unterstellt)

Anhang

Interpretation von Cohen’s Kappa (McHugh 2012)

Value of Kappa Level of Agreement % of Data that are Reliable
0 - .20 None 0 - 4%
.21 - .39 Minimal 4 - 15%
.40 - .59 Weak 15 - 35%
.60 - .79 Moderate 35 - 63%
.80 - .90 Strong 64 - 81%
Above.90 Almost Perfect 82 - 100%

Literatur

McHugh M. L. (2012). Interrater reliability: the kappa statistic. Biochemia medica, 22(3), 276-82. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3900052/

Bangdiwala, S. I. (1988). The Agreement Chart. Department of Biostatistics, University of North Carolina at Chapel Hill, Institute of Statistics Mimeo Series No. 1859, http://www.stat.ncsu.edu/information/library/mimeo.archive/ISMS_1988_1859.pdf

R Core Team (2020). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. URL: https://www.R-project.org/.

Meyer D, Zeileis A, Hornik K (2020). vcd: Visualizing Categorical Data. R package version 1.4-6.

Meyer D, Zeileis A, Hornik K (2006). “The Strucplot Framework: Visualizing Multi-Way Contingency Tables with vcd.” Journal of Statistical Software, 17(3), 1-48. URL: http://www.jstatsoft.org/v17/i03/.

Zeileis A, Meyer D, Hornik K (2007). “Residual-based Shadings for Visualizing (Conditional) Independence.” Journal of Computational and Graphical Statistics, 16(3), 507-525.

Bortz, Gustav A., Jürgen AND Lienert. 2010. Kurzgefaßte Statistik Für Die Klinische Forschung - Ein Praktischer Leitfaden Für Die Analyse Kleiner Stichproben ; Mit 90 Tabellen Sowie Zahlreichen Formeln. Berlin, Heidelberg: Springer.

Giavarina, Davide. 2015. “Understanding Bland Altman Analysis.” Biochemia Medica 25 (2): 141–51. https://doi.org/10.11613/bm.2015.015.

Lange, Grouven Bender Ziegler. 2007. “Vergleich von Messmethoden.” DMW. https://doi.org/10.1055/s-00000011.

Sachs, Lothar. 2006. Angewandte Statistik - Anwendung Statistischer Methode. Berlin Heidelberg New York: Springer-Verlag.