Die Reliabilität lateinisch reliabilitas ‚Zuverlässigkeit‘; übernommen als Fachbegriff[1] aus dem Englischen, reliability „Zuverlässigkeit“, besser: „Beständigkeit“) als ein Gütekriterium psychologisch-diagnostischer Verfahren (Tests) bezieht sich auf die formale Genauigkeit, d. h. auf die Exaktheit der Messung (daher auch besser als „Messgenauigkeit“ bezeichnet). Innerhalb der sog. Klassischen Testtheorie berechnet sie sich ihr Ausmaß als derjenige Anteil an der Varianz („Variabilität“/„Unterschiedlichkeit“) der Mess-/Testwerte, der durch die tatsächlichen Unterschiede im zu messenden Merkmal erklärt werden kann und nicht durch Messfehler verursacht wird. Z. B. sollten bei der Wiederholung der Messung unter gleichen Rahmenbedingungen das gleiche Messergebnis erzielt werden (Reproduzierbarkeit).
(Genauer bezieht sich die Reliabilität eines psychologisch-diagnostischen Verfahrens auf zwei Aspekte:
- Stabilität (Gleichheit der Messergebnisse bei Anwendung zu unterschiedlichen Zeitpunkten)
- Konsistenz (Ausmaß, nach dem alle Items, die in einem Test zu einem Merkmal zusammengefasst werden, dasselbe Merkmal messen).
Innerhalb der sog. Item-Response-Theorie wird die Messgenauigkeit eines psychologisch-diagnostischen Verfahrens über den (Standard-)Schätzfehler des gesuchte Personenparameters bestimmt; sie bezieht sich also auf die „innere“ Konsistenz.
Bestimmungsmöglichkeiten eines sog. Reliabilitätskoeffizienten
[Bearbeiten | Quelltext bearbeiten]Das Ausmaß an Reliabilität eines Verfahrens innerhalb der Klassischen Testtheorie kann mit verschiedenen Methoden berechnet werden:
- Retest-Reliabilität
- Gemäß der Frage nach der „Beständigkeit“ (reliability) des Messergebnisses eines psychologisch-diagnostischen Verfahrens drängt sich grundsätzlich in Anlehnung an die Physik auf, das Verfahren denselben Personen zweimal vorzugeben (sog. Wiederholungsreliabilität oder Re-Test-Relibiliät), bestimmt nach dem Korrelationskoeffizienten der Mess- bzw. „Test“-werte zu zwei verschiedenen Zeitpunkten, gelegentlich sogar unmittelbar nacheinander. Allerdings eignet sich dieses Konzept in der Psychologie deshalb wenig, weil sich die untersuchten Personen infolge z. B. von Lerneffekten zwischen zwei Zeitpunkten intraindividuell unterschiedlich im Erleben und Verhalten verändern – anders als die untersuchten Objekte grundsätzlich in der Physik. Ein niedriger Korrelationskoeffizient spricht daher nicht zwingend gegen die Messgenauigkeit eines Verfahrens. Umgekehrt interessiert zur Beurteilung eines psychologisch-diagnostischen Verfahrens durchaus auch seine sog. Stabilität, also die Höhe eines entsprechenden Korrelationskoeffizienten, insbesondere mit einem größeren Zeitraum zwischen den beiden Erhebungszeitpunkten (oft nach vier Wochen, besser nach einem Jahr): Damit kann die „Situationsüberdauerung“ des mit dem Verfahren zu messen versuchten Merkmals beurteilt werden.
- Paralleltest-Reliabilitätskoeffizient
- Sofern für das fragliche Verfahren eine Parallelform existiert (jedem Item des Verfahrens entspricht ein konstruktmäßig gleiches anderes Item in der Parallelform des Verfahrens), ergibt sich der Korrelationskoeffizient der Testwerte in den beiden Formen (beobachtet an jeweils derselben Person) als sog. Reliabilitätskoeffizient. Im Idealfall korrelieren die beiden Formen zu 1. Streng genommen, gibt jedoch die Höhe des Korrelationskoeffizienten bloß an, ob die Konstruktion der Items der Parallelform mehr oder weniger gut gelungen ist.
- Split-Half-Reliabilität/Testhalbierungsmethode
- Nach der lediglich für eine Berechnung erfolgte Teilung der Items eines Verfahrens in zwei gleiche Teile (Gruppen; daher: split-half) – am besten jedes zweite Item in die zweite Gruppe: „odd-even-Methode“, Items mit gerader vs. Items mit ungerader Nummer/Position im Verfahren – können diese Teile wie ein Verfahren samt einer Parallelform interpretiert werden. Der entsprechend berechnete Reliabilitätskoeffizient muss allerdings noch korrigiert werden (nach der sog. Verlängerungsformel nach Spearman & Brown), weil dabei davon ausgegangen wird, dass das fragliche Verfahren nur halb soviele Items, wie tatsächlich vorhanden, beinhaltet. Diese Methode zielt also auf die innere Konsistenz ab: Wenn die Mess-/Testwerte in beiden Teilen zu 1 korrelieren, dann ist die Messung des Verfahrens insofern exakt, als verschiedene Teile des Verfahrens (in Relation) zum selben Ergebnis führen. Analog wird mit Hilfe der Kuder-Richardson-Formel der Grad der inhaltlichen Übereinstimmung der Items eines Verfahrens in Bezug auf ein bestimmtes Merkmal bestimmt, wobei jedes einzelne (zweikategoriell zu verrechnende) Item eigens mit allen anderen Items in Vergleich gezogen wird.
Nicht als Gütekriterium im hier gemeinten Zusammenhang trotz gleicher Bezeichnung steht die sog. Interrater-Reliabilität; dabei geht es um die Objektivität von Beurteilungen (Einschätzungen, Ratings) bestimmter Sachverhalte durch verschiedene Beurteiler. Zur Quantifizierung des entsprechenden Ausmaßes an Übereinstimmung wird oft Cohens Kappa verwendet.
Verbesserungsmöglichkeiten
[Bearbeiten | Quelltext bearbeiten]- Der Reliabilitätskoeffizient eines psychologisch-diagnostischen Verfahrens kann gemäß Klassischer Testtheorie durch die Hinzunahme weiterer das Gleiche messender Items erhöht werden.
Siehe auch
[Bearbeiten | Quelltext bearbeiten]Literatur
[Bearbeiten | Quelltext bearbeiten]- Markus Bühner: Einführung in die Test- und Fragebogenkonstruktion. 4., korrigierte und erweiterte Auflage, Pearson, München 2021, ISBN 978-3-86894-326-9.
- Klaus D. Kubinger: Psychologische Diagnostik – Theorie und Praxis psychologischen Diagnostizierens. 3., völlig überarbeitete und aktualisierte Auflage, Hogrefe, Göttingen 2019, ISBN 978-3-8017-2779-6.
- G. Lienert, U. Raatz: Testaufbau und Testanalyse. 6. Auflage, PVU, Weinheim 1998, ISBN 3-621-27424-3.
- Helfried Moosbrugger, A. Kelava (Hrsg.): Testtheorie und Fragebogenkonstruktion. 3. Auflage, Springer, Heidelberg 2020, ISBN 978-3-662-61531-7.
- Lothar Schmidt-Atzert, Manfred Amelang: Psychologische Diagnostik. 5. Auflage, Springer, Berlin 2012, ISBN 978-3-642-17000-3.
Weblinks
[Bearbeiten | Quelltext bearbeiten]Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ H. Gulliksen: Theory of mental tests. Wiley, New York 1950.