Oh nein, nicht schon wieder: Die Daten wurden fein säuberlich und sehr aufwendig erhoben und dann das: Fehlende Werte! Aaaarrrgggg! In vielen empirischen (auch in psychologischen oder sozialwissenschaftlichen Fragebogenstudien; Feld-)Untersuchungen treten sie auf. Deswegen möchten Gutachter*innen von Abschlussarbeiten und papers natürlich auch wissen, wie mit diesen umgegangen wurde – also bitte immer (zumindest kurz) z.B. am Ende des Methoden- oder am Anfang des Ergebnisteils etwas dazu schreiben. Natürlich kann vorab versucht werden, fehlende Werte zu reduzieren, z.B. indem im Intro des Fragebogens darauf hingewiesen wird, bitte alle Fragen gewissenhaft auszufüllen, auch wenn sich diese ähneln; indem man Fragen so generiert, dass diese möglichst einfach verständlich, eindimensional, klar und deutlich formuliert sind; mit Pretests usw. usw., Methoden zur Prävention gibt es viele im Rahmen der Fragebogenkostruktion (z.B. nachlesbar in Moosbrugger & Kelava, 2012 oder bei Rost, 2004), aber dieser Eintrag soll davon handeln, was man tun kann, wenn die Daten bereits vorliegen und nun mal fehlende Werte enthalten. Also legen wir los… Nachteile populärer Verfahren Gängige und einfach anzuwenden Verfahren im Umgang mit fehlenden Werten, wie beispielsweise der listenweise oder der paarweise Fallausschluss sowie die häufig angewendete Mittelwertersetzung, bergen zahlreiche Nachteile[1]. Beispielweise ist eine Ersetzung durch den Mittelwert nur für die Berechnung von Summen und Mittelwerte legitim, und auch nur dann, wenn den fehlenden Werte keinerlei Systematik unterliegt (Missing complete at random; MCAR), was in der Forschungspraxis jedoch eher selten der Fall ist. Anderenfalls kann es zu einer deutlichen Unterschätzung der wahren Varianz / der wahren Zusammenhänge sowie zu einer Verzerrung der wahren Verteilung kommen. Auch der listenweise und paarweise Fallausschluss sollte nur unter der MCAR-Bedingung eingesetzt werden. Der listenweise Fallausschluss führt jedoch bei vielen fehlenden Werten zu einer enormen Reduktion der Stichprobe und der paarweise Fallausschluss führt dazu, dass sich unterschiedliche Stichproben (pro Rechnung) ergeben und eine mathematische Inkonsistenz entsteht. Dann gibt es da noch die Einfache Imputation, die jedoch leider – führt man diese mehrfach an demselben Datensatz durch – immer zum gleichen Ergebnis führt, da diese keine Variation des Standardfehlers berücksichtigen –> Unterschätzung der Standardfehler und Überschätzung der Exaktheit der Imputation (z.B. Schafer, 1997 und Acock, 2005). Zu erwähnen bleibt jetzt noch die mittels Expectation-Maximization Algorithmus (EM-Algorithmus; Dempster, Laird & Rubin, 1977) zur Gewinnung von Maximum-Likelihood Schätzungen in mehreren Schritten ersetzte Imputation der fehlenden Werte. An sich keine schlechte Sache, wenn nur wenige fehlende Werte vorliegen und darüber hinaus für die Berechnung von Explorativen Faktorenanalysen und Reliabilitätsanalyen (also für statistische Modelle, die auf dem Prinzip der Korrelationen beruhen) scheinbar durchaus anwendbar (Weaver & Maxwell, 2014; Graham, 2009; Enders, 2003; Graham, Cumsille & Elek-Fisk, 2003) – jedoch bereitet auch hier die Sache mit der fehlenden Standardfehlervariation bei anderen Analysen (z.B. Varianzanalysen) Probleme.

Also was tun? 

Der Gold Standard:

Im Idealfall werden Datensätze mit fehlenden Werten, welche entweder a)  einer Missing at random (MAR)- oder b) einer MCAR-Systematik unterliegen (wie man das rausfindet, kann bald hier in einer Schritt für Schritt Anleitung nachgelesen werden) durch die relativ anspruchsvolle (jedoch bspw. mit der Statistiksoftware SPSS recht einfach durchzuführende) Multiple Imputation (Rubin, 1987), eine durch multiple Schätzer (bei wenigen fehlenden Werten reichen 5, bei vielen fehlenden Werten scheint eine 10-fache Imputation sinnvoller zu sein; Empfehlungen von Leonhart, 2013 und Sauer, 2010) integrierte Endstatistik generiert werden. Hierbei bleibt die Datenstruktur und Fallzahl erhalten. Dies ist effizienter als die Verwendung herkömmlicher (weiter oben im Text beschriebener) Verfahren und führt gleichzeitig zu geringeren Verzerrungen (Igl, 2002 nach Müller, 2002; Schafer & Graham, 2002; Wirtz, 2004; Leonhart 2013; Toutenburg, Heumann, Nittner, 2004). Auch zur Durchführung der Multiplen Imputation schreibe ich gerade an einer SPSS-Anleitung, die bald hier zu finden ist. Wir merken: letztlich führt kaum ein Weg an der Multiplen Imputation (Rubin, 1987) oder in Ausnahmefällen dem Expectation-Maximization Algorithmus (EM-Algorithmus; Dempster, Laird & Rubin, 1977) vorbei, außer die fehlenden Werte sind komplett zufällig verteilt oder liegen bei unter 5% (Leonhart, 2009). Abschließend wichtig: der Umgang mit fehlenden Werten für den jeweils vorliegenden Datensatz sollte stets resümiert (und verschriftlicht) werden (sonst gibt`s ggf. einen auf den Deckel von den Gutachter*innen) – insbesondere dann, wenn von gängigen Handlungsempfehlungen abgewichen wird. Okay, so weit so gut, aber wie geht das nun alles? Wie ersetze ich meine fehlenden Werte in meinem Datensatz? Schritt für Schritt Anleitungen für die Statistiksoftware SPSS (Version 24) sind hier zu finden:
  1. Analyse fehlender Werte (das macht man immer als Erstes – unabhängig davon für welches Ersetzungsverfahren man sich danach entscheidet)
  2. Ersetzung mittels EM-Algorithmus
  3. Ersetzung mittels Multipler Imputation.
Sodele, das war es wieder von meiner Seite zu dem Thema. Ich schreibe nach bestem Wissen und Gewissen, aber auch ich bin „nur“ ein Mensch, daher auch hier –> Anmerkungen, Korrekturvorschläge und konstruktive Kritik gerne in die Kommentare! 🙂 Literatur Acock, A. C. (2005). Working with Missing Values. Journal of Marriage and Family, 67(4), 1012-1028. Dempster, A.P., Laird, N.M. & Rubin, D.B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, 39 (1), 1-38. doi: 10.2307/2984875 Enders, C.K. (2003). Using the Expectation Maximization Algorithm to Estimate Coefficient Alpha for Scales With Item-Level Missing Data. Psychological Methods 8, (3), 322337. doi: 10.1037/1082-989X.8.3.322 Graham, J.W., Cumsille P.E. & Elek-Fisk E. (2003). Methods for handling missing data. In J. A. Schinka & W.F. Velicer (Eds.), Handbook of Psychology, (pp. 87–114). New York: Wiley. doi: https://doi.org/10.1002/0471264385.wei0204 Graham, J. (2009). Missing Data Analysis: Making It Work in the Real World. Annual review of psychology. 60 (1). 549-76. doi: 10.1146/annurev.psych.58.110405.085530. Igl, W. (2004). Behandlung fehlender Werte. Rehabilitationswissenschaftlicher Forschungsverbund Bayern. Halle/Saale. Verfügbar unter: http://www.rehawissenschaft.uni-wuerzburg.de/methodenberatung/Igl_040604_Halle_Fehlende_Werte.pdf Leonhart, R. (2013, 2009). Lehrbuch Statistik: Einstieg und Vertiefung. Bern: Huber.
Moosbrugger, H. & A. Kelava, A (2012). Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer
Müller, J. M. (2002). Umgang mit fehlenden Werten. In: A. Reusch, Ch. Zwingmann & H. Faller (Hrsg.). Empfehlungen zum Umgang mit Daten in der Rehabilitationsforschung. Regensburg: Roderer. Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: Wiley. Sauer, S. (2010). Behandlung fehlender Daten in der Faktorenanalyse. Diplomarbeit zur Erlangung des Grades eines Diplomstatistiker. Institut für Statistik, Fakultät für Mathematik, Informatik und Statistik, Ludwig-Maximilians-Universität München. Verfügbar unter: https://epub.ub.uni-muenchen.de/11714/2/DA_Sauer.pdf Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data. London: Chapman & Hall. Schafer, J.L. & Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, 7 (2),147-177. Toutenburg, H. Heumann, C. & Nittner, T. (2004). Statistische Methoden bei unvollständigen Daten. Sonderforschungsbereich 386, Discussion Paper 380. doi: https://doi.org/10.5282/ubm/epub.1750 Weaver, B. & Maxwell, H. (2014). Exploratory Factor Analysis and Reliability Analysis with Missing Data: A Simple Method for SPSS Users. The Quantitative Methods for Psychology, 10, 143-152. doi: 10.20982/tqmp.10.2.p143 Wirtz, M. (2004). Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Rehabilitation, 43, 109-115. Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion (2., vollst. überarb. u. erw. Aufl.). Bern: Huber.  
[1] Ausführliche Beschreibungen der Nachteile können beispielsweise in Wirtz (2004) nachgelesen werden.

Author

sssadmin

Comments ( 3 )

  1. Analyse fehlender Werte und Expectation-Maximization-Algorithmus (AM-Algorithmus) mit SPSS IBM Statistics 24 – eine einfache Schritt für Schritt Anleitung – Statistik Support Söhnen
    […] Systematik unterliegen (eine detaillierte Erläuterung, welche Systematiken es gibt, könnt Ihr hier nachlesen). Ganz kurz: Falls wir fehlende Werte im Datensatz haben, könnten diese […]
  2. Analyse fehlender Werte und Expectation-Maximization-Algorithmus (EM-Algorithmus) mit SPSS IBM Statistics 24 – eine einfache Schritt für Schritt Anleitung – Statistik Support Söhnen
    […] Systematik unterliegen (eine detaillierte Erläuterung, welche Systematiken es gibt, könnt Ihr hier nachlesen). Ganz kurz: Falls wir fehlende Werte im Datensatz haben, könnten diese […]
  3. Analyse fehlender Werte und Expectation-Maximization-Algorithmus (EM-Algorithmus) mit SPSS IBM Statistics 24 – eine einfache Schritt für Schritt Anleitung (Teil 2) – Statistik Support Söhnen
    […] Systematik unterliegen (eine detaillierte Erläuterung, welche Systematiken es gibt, könnt Ihr hier nachlesen). Ganz kurz: Falls wir fehlende Werte im Datensatz haben, könnten diese […]