Fragestellung

Wie homogen / intern konsistent ist die eine einzige (ob es sich tatsächlich um nur eine Dimension eines latenten Konstruktes handelt, sollte vorher anhand einer Faktorenanalyse oder Hauptkomponentenanalyse explorativ oder konfirmatorisch überprüft werden) psychometrische Skala meines Fragebogens?

Definition

Die Interne Konsistenz ist (zusammen mit der Reliabilitätsanalyse und Testhalbierungs-Reliabilität) neben der Retest-Reliabilität und der Paralelltest-Korrelation ein Aspekt des wissenschaftlichen Hauptgütekriteriums Reliabilität / Zuverlässigkeit einer Messung (Döring & Bortz, 2016). Traditionell wird die Interne Konsistenz mit dem gängigen Koeffizienten Cronbachs Alpha (α) gemessen. Dabei soll die Frage nach der Homogenität innerhalb einer psychometrischen Skala beantwortet werden. Eine hohe durchschnittliche Korrelation zwischen den Items geht typischerweise mit einem hohen α-Wert einher – ein Hinweis darauf, dass die Merkmalsausprägungen der gezogenen Stichprobe (in Hinblick auf genau diese Items welche sich innerhalb jener psychometrischen Skala befinden) wohl relativ konstant und zwischen den Subjekten stets ähnlich hoch oder niedrig zu sein scheint (im Klartext: wer bei Item 1 nen hohen Wert angegeben hat, hat mit einer hohen Wahrscheinlichkeit auch bei Item 2 nen hohen Wert) – die Items stehen scheinbar in einem Zusammenhang, die Skala ist intern (mehr oder weniger) konsistent.

Testvoraussetzungen

Vor der Berechnung sollten die Items welche in die Analyse einfließen alle in eine Richtung gepolt werden (also ggf. re-invertiert: Bsp. im Fragebogen wurde absichtlich ein Item negativ formuliert, um potenziellen Konsistenzeffekten präventiv entgegenzuwirken, dieses Item sollte für die Berechnung von α umgepolt werden, Klickfunktion in SPSS: –> Transformieren –> Umcodieren), das Skalenniveau (das Antwortformat; mehr zu dem Thema hier: Ordinal oder Intervall? Die Metrik von Ratingskalen.) sollte metrisch sein und die Daten sollten im Idealfall normalverteilt sein (im Prinzip die selben Testvoraussetzungen wie für die Berechnung der Produkt-Moment-Korrelation / des Korrelationskoeffizienten nach Pearson).

Berechnungen

Formel

Der standardisierter α-Wert wird wie folgt berechnet:

Anmerkung. k = die Anzahl der Items. r-Strich = die durchschnittliche Korrelation zwischen den Items

In SPSS

Klickfunktion: Analysieren –> Skala –> Reliabilitätsanalyse –> es öffnet sich folgendes Feld:

Screenshot-1.jpg

Abbildung 1. Bsp. Reliabilitätsanalyse, SPSS Klickfunktion 1.

  • Alle Items (welche in die Analyse einfließen sollen) werden nun aus dem linken Feld mit der Pfeiltaste in das rechte Feld hinüber gezogen:

Screenshot 2

Abbildung 2. Bsp. Reliabilitätsanalyse, SPSS Klickfunktion 2.

  • Unter „Skalenbeschriftung“ kann ein entsprechender oder beliebiger Skalennamen (im Bsp. Skala 1) eintragen werden.
  • Hinweis: Unter „Statistiken“ braucht man für die einfache Reliabilitätsanalyse nichts extra anklicken, möchte man zusätzlich die „Itemtrennschärfen“ sowie „α wenn Item gelöscht“ berechnet haben, so kann man diese hier finden.
  • „Ok“ oder „Einfügen“ klicken (ich empfehle immer die Arbeit in der Syntax und würde daher auf „Einfügen“ klicken).
  • In der Syntax sieht das Ganze dann so aus:

Screenshot 3

Abbildung 3. Bsp. Reliabilitätsanalyse, SPSS Syntax.

  • Auf den grünen „Play-Button“ drücken und los geht die Rechnung!
  • In der Ausgabe findet man nun (für das vorliegende Beispiel) folgende Informationen:

 

Abbildung 4. Bsp. Reliabilitätsanalyse, SPSS Ausgabe.

  1. Den Syntaxbefehl
  2. Eine Info, was berechnet wurde („Reliabilität“) und wie die Skala heisst, für die jene Analyse berechnet wurde (hier Skala 1)
  3. Eine Zusammenfassung der Fallbearbeitung: Wie viele Fälle konnten in die Analyse einfließen, wie viele wurden aufgrund fehlender Werte (standardmäßig in SPSS voreingestellt) per listenweiser Löschung ausgeschlossen.
  4. Endlich nun das eigentliche Ergebnis: die Reliabiltätsstatistiken mit dem Cronbachs Alpha und der Anzahl der ItemsIn dem vorliegenden Beispiel bestand die psychometrische Skala aus insgesamt vier Items. Für die Beispiel-Stichprobe wurde ein α-Wert von .80 ermittelt. Was sagt uns das nun?

Interpretationsvorschläge

Nach Nunnally (1978), Lienert & Raatz (1994) sowie George & Mallery (2003) und Kubinger (2009a; als auch zahlreichen weiteren Autoren) lassen sich die Interpretationsvorschläge für Cronbachs Alpha wie folgt zusammenfassen:

Tabelle 1

Interpretationvorschläge für Cronbachs Alpha

Cronbachs Alpha (α; bis zum nächst höheren Wert) Interpretation
> 0.9 exzellent
> 0.8 gut
> 0.7 akzeptabel
> 0.6 fragwürdig
> 0.5 schlecht
< 0.5 inakzeptabel

Kritik an Cronbachs Alpha

Nunnally (1978) diskutiert ausführlich die Problematik strenger Schwellenwerte für Cronbachs Alpha, da diese von zahlreichen Faktoren abhängig ist (z.B. der proportionalen Varianz zwischen den Testpersonen, der Dimensionalität [prüfbar mit einer Faktorenanalyse], der Item-Anzahl). McNeish (2017) plädiert sogar für die Verwendung anderer Maße zur Messung der Skalen-Homogenität und Rey (2012) veranschaulicht die Problematik des Zusammenhangs zwischen der Item-Anzahl und des Cronbachs Alpha Wertes wie folgt:

Tabelle 2

Der Zusammenhang zwischen der Itemanzahl und Cronbachs α bei einer durchschnittlichen Korrelation von r = 1 zwischen den Items (nach Rey, 2012)

Itemanzahl 5 10 15 20 25 30 35 40 45 50
Cronbachs α .36 .53 .63 .69 .74 .77 .80 .82 .83 .85

Aus Tabelle 2 ist ersichtlich, dass der CA-Wert (bei einer durchschnittlichen Korrelation von r = 1 zwischen den Items) mit stiegender Itemanzahl ebenfalls stetig anzeigt. So liegt α bei einer Itemanzahl von 5 Items bei dem äußerst inakzeptablen Wer von  .36 wohingegen (bei gleich bleibender durchschnittlicher Korrelation) der α-Wert bei 10 Items „nur noch“ schlecht ist, bei 15 Items fragwürdig, und bei 20-25 Items bereits akzeptabel zu sein scheint.

Trotz jener – wie ich finde durchaus berechtigten und nachvollziehbaren – Kritik, wird in der gängigen wissenschaftliche Praxis zum aktuellen Zeitpunkt immer noch standardmäßig der Cronbachs Alpha-Wert in Zusammenhang mit der Internen Konsistenz einer psychometrischen Skala berichtet. Daher empfehle ich zumindest die Itemanzahl im Rahmen der Dateninterpretation zu berücksichtigen.

Hinweis: zwar können komplexe latente Konstrukte mit mehreren Items reliabler erfasst werden, als mit nur einer einzigen oder sehr wenigen Frage(n), dennoch sollte im Rahmen der Fragebogenkonstruktion auch das Nebengütekriterium Zumutbarkeit nicht außer acht gelassen werden –> so viele Fragen wie nötig stellen (um das latente Konstrukt möglichst umfangreich abzubilden) aber so wenige wie möglich (um die Ressourcen der Anwender nicht überzustrapazieren)!

Interpretation für das vorliegende Beispiel

Für die psychometrische Skala 1 konnte auf Basis der Interpretationsvorschläge obiger Autoren ein guter α-Wert von .80 ermittelt werden. Da jene Skala lediglich aus vier Items besteht, ist vermutlich nicht davon auszugehen, dass dieser Wert durch eine sehr hohe Itemanzahl verzerrt sein könnte.

Abschließender Hinweis: Was tun bei einem geringen α -Wert?

Ein (eher) geringer Wert für Cronbachs Alpha ist kein „Weltuntergang“, dennoch sollten die Items auf ihre Rohwerte, Anzahl, Polung und Inhaltsvalidität geprüft und ggf. umformuliert oder aus der Skala bzw. aus dem Fragebogen entfernt werden.

Literatur(empfehlungen)

Glen, S. (2014). Cronbach’s Alpha: Simple Definition, Use and InterpretationStatistics How To. Verfügbar unter: https://www.statisticshowto.datasciencecentral.com/cronbachs-alpha-spss/, zitiert nach:
Tavakol, M. & Dennrick, R. (2011). Making sense of Cronbach’s alpha. International journal of Medical Education, 2, 53-55. doi: 10.5116/ijme.4dfb.8dfd

Döring, N. & Bortz, J. (2016). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (5. Aufl.). Heidelberg: Springer-Verlag.

George, D. & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and reference. 11.0 update (4th ed.). Boston, MA: Allyn & Bacon.

Kubinger, K. D. (2009a). Psychologische Diagnostik: Theorie und Praxis psychologischen Diagnostizierens (2., überarb. u. erw. Aufl.). Göttingen: Hogrefe.

Lienert, G. A. & Raatz, U. (1994). Testaufbau und Testanalyse (5., völl. neubearb. u. erw. Aufl.). Weinheim: Psychologie Verlags Union.

McNeish, D. (2017). Thanks Coefficient Alpha, We’ll Take it From Here. Psychological Methods, 23 (3). doi: 10.1037/met0000144

Nunnally, J.C. (1978). Psychometric theory (2nd ed.). New York: McGraw-Hill.

Rey, G. D. (2017). Methoden der Entwicklungspsychologie. Datenerhebung und Datenauswertung (2., überarb. Aufl.). Norderstedt: BoD.


Author

sssadmin

Comments ( 2 )

  1. Analyse fehlender Werte und Expectation-Maximization-Algorithmus (AM-Algorithmus) mit SPSS IBM Statistics 24 – eine einfache Schritt für Schritt Anleitung – Statistik Support Söhnen
    […] in SPSS darstellt (Hinweis: das ist leider tatsächlich für einige Standardanalysen der Fall, z.B. Reliabilitätsanalysen oder explorative Fakorenanalysen oder Varianzanalysen mit Messwiederholung, usw.), DANN könnten […]
  2. Julian Hoffmann
    Hallo und Danke für den informativen Beitrag! Sehr schön Tipp.