Wo befinden wir uns im Prozess der Datenaufbereitung, wenn wir uns dafür entschieden haben, eine Multiple Imputation (MI) vorzunehmen?

Wir hatten einen Datensatz vorliegen, haben festgestellt, dass dieser hier und dort mehr als 5% (echte) fehlende Werte enthält – darüber hinaus haben wir mittels MCAR-Test nach Little herausgefunden, dass diese komplett zufällig fehlen (MCAR)  – ODER wir wissen, dass diese zufällig fehlen (MAR; warum auch immer – mir hat sich dies bis heute nicht vollends erschlossen, weil man wohl ein „Gefühl“ dafür entwickeln soll…ein was? Ein „Gefühl“ – also genau das, was sonst in der Statistik und Methodik völlig fehl am Platz ist, da subjektiv, individuell, wahrnehmungsfehlerbehaftet und sonst noch was, aber gut…wer mir helfen kann, bitte eine Nachricht schicken oder in die Kommentare schreiben :). Naja egal…weiter im Text:

In beiden Fällen ist die Ersetzung mittels MI möglich.

Wie funktioniert nun die MI in SPSS?

Vorgehen in SPSS: Klickfunktion

  • Analysieren –> Multiple Imputation –> Fehlende Datenwerte imputieren

Es öffnet sich folgendes Fenster:

  • Die Variablen welche man imputieren möchte + die Hilfsvariablen (z.B. Soziodemografische Angaben; welche hoffentlich mit den Variablen die fehlende Werte enthalten korrelieren – sonst wird`s schwierig) von (Variablen) nach rechts in das Feld Variablen im Modell ziehen (markieren und auf den Pfeil kicken).

  • Die Anzahl der Imutationen wählen. Voreingestellt ist die Anzahl 5, das kann man so lassen oder erhöhen. Insbesondere bei vielen fehlenden Werten wird eine Erhöhung auf 10, 20 oder noch mehr Imputationen empfohlen. White, Royston & Wood (2010) fordern beispielsweise, dass die Anzahl der Imputationen mindestens dem Prozentsatz der fehlenden Werte der Items entsprechen. Im Klartext: hat ein Item 20% fehlende Werte, fordern die Autoren 20 Imputationen (jene und weitere Aspekte der MI werden ausführlich in diesem Beitrag des Institute for Digital Research and Education der UCLA diskutiert, der u.A. auch eine – wie ich finde – sehr ausführliche Literaturliste enthält).
  • Ort der imputierten Daten wählen: Neues Datenset erstellen, Datasetname eintragen: zum Beispiel Bsp_Datensatz_MI2 (Achtung: „-„ im Namen wird wieder nicht genehmigt, „_“ ist okay.

  • Zuletzt wie immer: auf „OK“ oder „Einfügen“ klicken
  • Wenn man auf „Einfügen“ geklickt hat, sieht das Ganze in der Syntax wie folgt aus:

  • Zeile 2 bis 10 in der Syntax (siehe Beispiel) markieren und wie sonst auch auf das grüne Playzeichen drücken.
  • In der Ausgabe befinden sich nun Informationen zur Imputation. Im Hintergrund hat sich derweil ein neues Fenster, bzw. der neue, imputierte SPSS-Datensatz geöffnet. Dieser enthält neben den Originaldaten 5 bzw. 10 (je nachdem wie viele Imputationen man vorgenommen hat) „Datenblöcke“. Diese Datenblöcke sind quasi eine Kopie der Originaldaten + die entsprechende Imputation und wurden UNTER die Originaldaten in die SPSS-Datei geschrieben (quasi als neue „Fälle“). In unserem Beispiel haben wir fünf Imputationen vorgenommen, der Datensatz hat sich somit von 25 Fällen auf 150 vergrößert. Die gelben Felder in dem folgenden Screenshot sind die imputierten Daten der fünften Imputation:

  • Um nun mit diesem Datensatz rechnen zu können, ist es wichtig, dass man SPSS nach jedem neuen Öffnen der Datei darüber informiert, dass es sich um einen Datensatz handelt, welcher multipel imputiert wurde. Das geht wie folgt –> SPSS Klickfunktion: Daten –> Datei aufteilen –> Gruppen vergleichen –> die Variable welche die Imputationsnummer enthält nach rechts in das Feld ziehen:

In der Syntax sieht das dann ganz einfach aus:

  • So, nun kann man ganz normal rechnen. Welche Analyseverfahren mit den MI-Daten unterstützt werden, erkennt man an folgendem Symbol, dass aussieht wie ein Kreisel:

Leider werden nicht alle Analyseverfahren unterstützt. Beispielsweise auch nicht die Explorative Faktorenanalyse oder die Reliabilitätsanalyse (welche ich persönlich relativ häufig anwende). Bisher versuche ich mir hier mit dem EM-Algorithmus zu behelfen…wer eine „sauberere“ Lösung weiß, kann mich gerne informieren. 🙂

Zum Schluss noch ein Rechenbeispiel:

Wir lassen uns nun einmal einfache deskriptive Statistiken ausgeben (Analysieren –> Deskriptive Statistiken –> Deskriptive Statistiken; Wichtig: hier über „Optionen“ den „Standardfehler des Mittelwertes“ anklicken!). Diese sehen nun in der SPSS Ausgabe ein wenig anders aus als sonst:

Wir finden die Ergebnisse für die Originaldaten mit N=21, die fünf imputierten Ergebnisse und die Kombination aus den fünf Imputationen (welche alle logischerweise mit N=25 vollständig sind). Uns interessiert die Kombination (ganz unten; und vielleicht noch die Originaldaten zum Vergleich).

Berichten würde ich nun den Mittelwert der Kombination (M=2.61) und den Standardfehler (SE=0.96), sowie ggf. zum Vergleich die entsprechenden Werte der Originaldatei (hier inkl. Standardabweichung).

Das war`s schon, einfacher als gedacht oder? 

Abschließend möchte ich auf zwei Experten zu dem Thema hinweisen, von denen ich viel lernen durfte/darf: Dr. R. Leonhart und Prof. Dr. M. Wirtz. Wer mehr zu dem Thema fehlende Werte wissen möchte, wird auf den Publikationslisten der beiden Wissenschaftler sicher fündig.

Literatur(empfehlungen)

Graham, J. W. (2012). Missing data: Analysis and design. New York: Springer.

Leonhart, R. (2013). Lehrbuch Statistik: Einstieg und Vertiefung. Bern: Huber.

Lüdtke, O., Robitzsch, A., Trautwein, U. & Köller, O. (2007). Umgang mit fehlenden Werten in der psychologischen Forschung: Probleme und Lösungen. Psychologische Rundschau58 (2), 103–117.

White, I. R., Royston, P., Wood, A. M. (2011). Multiple imputation using chained equations: Issues and guidance for practice. Statistics in Medicine30 (4)377–399. doi: 10.1002/sim.4067

Wirtz, M. (2004). Über das Problem fehlender Werte: Wie der Einfluss fehlender Informationen auf Analyseergebnisse entdeckt und reduziert werden kann. Die Rehabilitation, 43, 109-115.

 


Author

sssadmin

Comments ( 4 )

  1. Johanns
    Hallo und vielen Dank für deine ausführlichen Beschreibungen! Ich habe noch eine Frage, und zwar wird in Leonhart (2013) empfohlen, Multiple Imputation und den EM-Algorithmus für die Ersetzung fehlender Werte zu kombinieren. Ich habe jedoch keine genaueren Angaben gefunden, wie das für SPSS funktionieren kann, weder im Lehrbuch noch bei Google-Suchen. Hast du eine Idee dazu? Ich möchte später eine multivariate Varianzanalyse rechnen und hätte hierfür gerne einen vollständigen Datensatz. In meinem Fall habe ich einen sehr großen Datensatz (ca. 7000 VP) und bei den 120 Variablen jeweils meist fehlende Werte von 2-4%. Ich wäre dir sehr dankbar für eine Antwort!
    • sssadmin
      Liebe Johanna,vielen Dank für Deinen Kommentar. Bei dem großen Datensatz und der geringen Anzahl an fehlenden Werten brauchst Du Dir um diese keine Gedanken machen, Du kannst einfach die Varianzanalyse rechnen,ohne die Daten vorher zu imputieren. Abgesehen davon: warum er die Kombination vorschlägt, kann ich mir ad hoc nicht erklären, dafür bräuchte ich mehr Kontext...die MI, wenn man mag 10-fach, sollte ausreichen. Vielleicht meinte er auch, dass man mit SPSS in Folge der MI nicht alle Analysen rechnen kann (z.B. Berechnung der Internen Konsistenz), alternativ könnte man dann (mit Vorsicht) Kombinieren und für diese Analysen separat mit dem EM Alg. importieren...dann hätte man jedoch wieder einen neuen Datensatz. Viele Grüße, Sarah
  2. Pebbles
    Auch von mir erstmal vielen Dank für die tolle Erklärung! :) Eine Frage habe ich aber: Ich möchte mit den ersetzten Daten nach der multiplen Imputation (u.a.) eine MANOVA berechnen, weil ich 1 abhängige Variable und 2 unabhängige Variablen (eine davon hat die ersetzten Werte) habe. Im Handbuch von SPSS steht allerdings, dass bei der MI nur eine ANOVA möglich ist. Muss ich dann eine andere Imputationsmethode wählen oder gibt es einen Weg, die MANOVA mit der MI durchzuführen? Liebe Grüße