Wo befinden wir uns im Prozess der Datenaufbereitung, wenn wir uns dafür entschieden haben, eine Multiple Imputation (MI) vorzunehmen?
Wir hatten einen Datensatz vorliegen, haben festgestellt, dass dieser hier und dort mehr als 5% (echte) fehlende Werte enthält – darüber hinaus haben wir mittels MCAR-Test nach Little herausgefunden, dass diese komplett zufällig fehlen (MCAR) – ODER wir wissen, dass diese zufällig fehlen (MAR; warum auch immer – mir hat sich dies bis heute nicht vollends erschlossen, weil man wohl ein „Gefühl“ dafür entwickeln soll…ein was? Ein „Gefühl“ – also genau das, was sonst in der Statistik und Methodik völlig fehl am Platz ist, da subjektiv, individuell, wahrnehmungsfehlerbehaftet und sonst noch was, aber gut…wer mir helfen kann, bitte eine Nachricht schicken oder in die Kommentare schreiben :). Naja egal…weiter im Text:
In beiden Fällen ist die Ersetzung mittels MI möglich.
Wie funktioniert nun die MI in SPSS?
Vorgehen in SPSS: Klickfunktion
- Analysieren –> Multiple Imputation –> Fehlende Datenwerte imputieren
Es öffnet sich folgendes Fenster:
- Die Variablen welche man imputieren möchte + die Hilfsvariablen (z.B. Soziodemografische Angaben; welche hoffentlich mit den Variablen die fehlende Werte enthalten korrelieren – sonst wird`s schwierig) von (Variablen) nach rechts in das Feld Variablen im Modell ziehen (markieren und auf den Pfeil kicken).
- Die Anzahl der Imutationen wählen. Voreingestellt ist die Anzahl 5, das kann man so lassen oder erhöhen. Insbesondere bei vielen fehlenden Werten wird eine Erhöhung auf 10, 20 oder noch mehr Imputationen empfohlen. White, Royston & Wood (2010) fordern beispielsweise, dass die Anzahl der Imputationen mindestens dem Prozentsatz der fehlenden Werte der Items entsprechen. Im Klartext: hat ein Item 20% fehlende Werte, fordern die Autoren 20 Imputationen (jene und weitere Aspekte der MI werden ausführlich in diesem Beitrag des Institute for Digital Research and Education der UCLA diskutiert, der u.A. auch eine – wie ich finde – sehr ausführliche Literaturliste enthält).
- Ort der imputierten Daten wählen: Neues Datenset erstellen, Datasetname eintragen: zum Beispiel Bsp_Datensatz_MI2 (Achtung: „-„ im Namen wird wieder nicht genehmigt, „_“ ist okay.
- Zuletzt wie immer: auf „OK“ oder „Einfügen“ klicken
- Wenn man auf „Einfügen“ geklickt hat, sieht das Ganze in der Syntax wie folgt aus:
- Zeile 2 bis 10 in der Syntax (siehe Beispiel) markieren und wie sonst auch auf das grüne Playzeichen drücken.
- In der Ausgabe befinden sich nun Informationen zur Imputation. Im Hintergrund hat sich derweil ein neues Fenster, bzw. der neue, imputierte SPSS-Datensatz geöffnet. Dieser enthält neben den Originaldaten 5 bzw. 10 (je nachdem wie viele Imputationen man vorgenommen hat) „Datenblöcke“. Diese Datenblöcke sind quasi eine Kopie der Originaldaten + die entsprechende Imputation und wurden UNTER die Originaldaten in die SPSS-Datei geschrieben (quasi als neue „Fälle“). In unserem Beispiel haben wir fünf Imputationen vorgenommen, der Datensatz hat sich somit von 25 Fällen auf 150 vergrößert. Die gelben Felder in dem folgenden Screenshot sind die imputierten Daten der fünften Imputation:
- Um nun mit diesem Datensatz rechnen zu können, ist es wichtig, dass man SPSS nach jedem neuen Öffnen der Datei darüber informiert, dass es sich um einen Datensatz handelt, welcher multipel imputiert wurde. Das geht wie folgt –> SPSS Klickfunktion: Daten –> Datei aufteilen –> Gruppen vergleichen –> die Variable welche die Imputationsnummer enthält nach rechts in das Feld ziehen:
In der Syntax sieht das dann ganz einfach aus:
- So, nun kann man ganz normal rechnen. Welche Analyseverfahren mit den MI-Daten unterstützt werden, erkennt man an folgendem Symbol, dass aussieht wie ein Kreisel:
Leider werden nicht alle Analyseverfahren unterstützt. Beispielsweise auch nicht die Explorative Faktorenanalyse oder die Reliabilitätsanalyse (welche ich persönlich relativ häufig anwende). Bisher versuche ich mir hier mit dem EM-Algorithmus zu behelfen…wer eine „sauberere“ Lösung weiß, kann mich gerne informieren. 🙂
Zum Schluss noch ein Rechenbeispiel:
Wir lassen uns nun einmal einfache deskriptive Statistiken ausgeben (Analysieren –> Deskriptive Statistiken –> Deskriptive Statistiken; Wichtig: hier über „Optionen“ den „Standardfehler des Mittelwertes“ anklicken!). Diese sehen nun in der SPSS Ausgabe ein wenig anders aus als sonst:
Wir finden die Ergebnisse für die Originaldaten mit N=21, die fünf imputierten Ergebnisse und die Kombination aus den fünf Imputationen (welche alle logischerweise mit N=25 vollständig sind). Uns interessiert die Kombination (ganz unten; und vielleicht noch die Originaldaten zum Vergleich).
Berichten würde ich nun den Mittelwert der Kombination (M=2.61) und den Standardfehler (SE=0.96), sowie ggf. zum Vergleich die entsprechenden Werte der Originaldatei (hier inkl. Standardabweichung).
Das war`s schon, einfacher als gedacht oder?
Abschließend möchte ich auf zwei Experten zu dem Thema hinweisen, von denen ich viel lernen durfte/darf: Dr. R. Leonhart und Prof. Dr. M. Wirtz. Wer mehr zu dem Thema fehlende Werte wissen möchte, wird auf den Publikationslisten der beiden Wissenschaftler sicher fündig.
Literatur(empfehlungen)
Graham, J. W. (2012). Missing data: Analysis and design. New York: Springer.
Leonhart, R. (2013). Lehrbuch Statistik: Einstieg und Vertiefung. Bern: Huber.
Lüdtke, O., Robitzsch, A., Trautwein, U. & Köller, O. (2007). Umgang mit fehlenden Werten in der psychologischen Forschung: Probleme und Lösungen. Psychologische Rundschau, 58 (2), 103–117.
White, I. R., Royston, P., Wood, A. M. (2011). Multiple imputation using chained equations: Issues and guidance for practice. Statistics in Medicine, 30 (4), 377–399. doi: 10.1002/sim.4067
Wirtz, M. (2004). Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Die Rehabilitation, 43, 109-115.
Comments ( 4 )