Stellen wir uns vor, wir haben einen SPSS Datensatz vor uns.
Wir sehen bereits jetzt augenscheinlich, dass dieser nicht vollständig ist. Nun wollen wir herausfinden, wie viele fehlende Werte der Datensatz enthält UND ob die fehlenden Werte irgendeiner Systematik unterliegen (eine detaillierte Erläuterung, welche Systematiken es gibt, könnt Ihr hier nachlesen). Ganz kurz: Falls wir fehlende Werte im Datensatz haben, könnten diese entweder:
- MCAR (sowas von komplett zufällig)
- MAR (zufällig)
- oder NMAR (nicht zufällig)
sein. Wir wollen nun herausfinden, ob unsere Daten komplett zufällig sind.
Aber warum wollen wir das wissen?
Weil ab ca. 5 % fehlender Werte (aufwärts) die „Gefahr“ besteht, dass diese die Ergebnisse unserer Studie verzerren, wenn wir keinen angemessenen Umgang mit den fehlenden Werten wählen, sondern sie einfach ignorieren und somit automatisch davon ausgehen, dass sie komplett zufällig zustande gekommen sind. Also, um zu vermeiden, dass die Ergebnisse unserer Studie verzerrt sein könnten (weil wir z.B. am Ende nur noch Werte von Leuten vorliegen haben die hoch motiviert waren – alle anderen hatten irgendwann keine Lust mehr und haben die Beantwortung der Fragen ausgelassen –> d.h. wir hätten keine repräsentative Stichprobe mehr), müssen wir VOR der Berechnung unserer eigentlich geplanten Analysen (z. B. Unterscheidet sich das Ausmaß der Freude auf das Weihnachtsfest in Abhängigkeit mit der Verantwortlichkeit für den Geschenkeeinkauf…Ihr merkt, ich bin gerade total im Weihnachtsfieber…aber irgendwie war das entspannter, als ich selbst noch ein Kind war..naja, zurück zum Thema) eine Prüfung vornehmen.
Und das geht so:
- SPSS Klickfunktion:
Analyse –> Analyse fehlender Werte –> jetzt öffnet sich folgendes Fenster:
Nun können wir alle Variablen die wir untersuchen möchten (im Idealfall wird diese Analyse für jede psychometrische Skala einzeln durchgeführt, falls man nicht nur ein Untersuchungsinstrument sondern eine ganze Fragebatterie eingesetzt hat) von links nach rechts rüber ziehen. Nehmen wir also an, die Variablen 1-5 aus dem vorliegen Beispiel sollen später alle zu einer einzigen psychometrischen Skala zusammengefasst werden, dann würden wir all dieser 5 Variablen jetzt zusammen auf fehlende Werte analysieren. Wir markieren die fünf Variablen und klicken auf den oberen blauen Pfeil. Die Variablen sind nun nach rechts in das Feld „Quantitative Variablen“ gewandert: (in dem vorliegenden Fall unterliegen die Antworten einer nahezu intervallskalierten Metrik, daher schieben wir sie auch in das obere Feld „Quantitative Variablen“)
- Nun klicken wir auf den Button „Muster…“, es öffnet sich folgendes Fenster:
Hier klicken wir die oberen vier Kästchen an UND klicken dann auf „Weiter“. Wir gelangen zurück zum ursprünglichen Fenster.
Jetzt haben wir noch die Möglichkeit „Deskriptive Statistiken“ anzuklicken. Das machen wir doch gleich mal und klicken uns auch hier durch die ersten vier Häckchensetzungsoptionen (was für ein schönes Wort), genau so, wie gerade eben bei den Mustern durch:
Wir übergehen alle Variablen die weniger als 5% fehlende Werte haben, da diese vernachlässigt werden können. Dann klicken wir auf „Weiter“ und gelangen erneut zurück zum ursprünglichen Fenster.
Dort müssen wir nun noch ein „Häkchen“ bei „EM“ setzen, um einen Chi-Quadrat Test zu erhalten (der uns letztlich die Info liefert, ob die fehlenden Werte komplett zufällig auftauchen). Das sieht dann so aus:
Das war`s ! 🙂
Naja…also eigentlich wären wir nun fertig, würden wir nun auf „Einfügen“ klicken (dann hätten wir alles in der Syntax, würden die Rechnung markieren, auf Play klicken und das Ausgabe-Fenster mit den Ergebnissen würde sich öffnen) oder wir würden stattdessen auf „OK“ klicken und würden direkt in die „SPSS Ausgabe“ gelangen…
ABER da die Ersetzung mittels Expectation-Maximisation-Algorithmus (EM Algorithmus) in eben dem Fenster in dem wir uns jetzt ganz aktuell gerade befinden total leicht und schnell noch hinzuzufügen ist, würde ich dies gerne direkt in einem Zuge noch machen…sonst müssen wir nachher wieder zurück in dieses Fenster und vergeuden nur unnötig Zeit.
Kurz zur Erklärung, wo befinden wir uns gerade: Wir haben nun grundsätzlich alles erledigt, was war zur Analyse fehlender Werte braucht, WENN wir gleich herausfinden, dass wir fehlende Werte haben, diese sogar über 5% liegen (wir also imputieren / ersetzen sollten) und für unsere geplanten Analysen eine sogenannte Multiple Imputation (= der Gold Standard der Ersetzungsverfahren, mehr zur Theorie hier) keine voreingestellte Lösungsoption in SPSS darstellt (Hinweis: das ist leider tatsächlich für einige Standardanalysen der Fall, z.B. Reliabilitätsanalysen oder explorative Fakorenanalysen oder Varianzanalysen mit Messwiederholung, usw.), DANN könnten wir als ALTERNATIVE LÖSUNG für die ein oder andere geplante Analyse (z. B. für Reliabilitätsanalysen oder explorative Faktorenanalysen; und wenn wir nur wenige fehlende Werte haben) eine Ersetzung mittels EM-Algorithmus in Erwägung ziehen UM mit dem mittels EM-Algorithmus vervollständigen Datensatz dann weiter zu rechnen. Okay, soviel zum Hintergrund.
Deswegen möchte ich hier die Imputation mittels EM Algorithmus direkt in einem Zug mit durchführen. Für die Ersetzung mittels EM-Algorithmus klicken wir daher nun auf den blauen Butten mit der Aufschrift „EM…“ –-> es öffnet sich ein neues Fenster:
In dem neuen Fenster klicken wir auf „Vervollständigte Daten speichern“ (logisch, wir wollen ja nicht, dass der der Datensatz den wir gerade so mühevoll ersetzten, verloren geht) und überlegen uns einen passenden Namen (hier: Missing_Testdatei). Ich persönlich gebe der Datei den exakt selben Namen wie der Originaldatei nur mit dem Zusatz EM. So weiss in einer Woche oder einem Monat immer noch um welche Datei es sich handelt.
Kleiner Hinweis: Der Name der Datei sollt keinen „.“ oder „-„ enthalten, sonst motzt SPSS. Der Dateiname folgt also den selben Regeln wie die SPSS Variablennamen, „_„ sind daher beispielsweise kein Problem.
Wir klicken auf „Weiter“ und gelangen ein letztes Mal zurück zum Ursprungsfenster.
Das war’s nun aber wirklich ! Wir sind fertig 🙂
Jetzt nur noch auf „Ok“ (für die ganz Schnellen, die es sich leisten können, nicht zu protokollieren) oder auf „Einfügen“.
Dann schwebt das Ganze in die Syntax und sieht so aus:
Ihr erhaltet nur die untere Rechnung (2), wenn Ihr alles so gemacht habt wie bisher. Ich habe hier nur zusätzlich noch eine Analyse fehlender Werte OHNE Imputation hinzugefügt (1), damit wir uns die Unterschiede beider Syntaxbefehle anschauen können.
Die obere Rechnung 1) wäre eine einfache Analyse fehlender Werte, die untere Rechnung 2) ist genau gleich, nur mit dem Zusatz der Erstellung eines neuen vervollständigten Datensatzes der in dem vorliegenden Beispiel den Dateinamen Missing_Testdatei trägt und per EM-Algorithmus imputiert wurde. Sodele, wir markieren die untere Rechnung 2) von „DATASET DECLARE Missung_Testdatei. bis hin zu OUTFILE=Missing_Testdatei“. und auf den grünen Playbutton drücken!
Es öffnet sich die Ausgabe.
Die Ausgabe enthält nun zahlreiche Statistiken, die alle mehr oder weniger relevante Informationen liefern. Interessant finde ich insbesondere:
- Univariaten Statistiken: mit Informationen zur Anzahl und Prozentzahl fehlender Werte pro Variable. Oder auch zur Anzahl von Extremwerten (die sollte man sich auch anschauen, das ist aber ein anderes Thema…die kann man sich auch gut in einem Box-Plot zu Gemühte führen). Die Ergebnisse dieser Rechnung würde ich in jedem Fall berichten.
- Es folgen Schätzwerte sowie Datenmuster und Muster fehlender Werte auf Fallebene, diese Fälle (Individuen) würde ich mir mal in Ruhe genau anschauen (soziodemografische Angaben – was sind das für Leute? Sind genau diese Individuen vielleicht besonders jung oder besonders reich?)…damit kann man ewig Zeit verbringen…versuchen wir, nicht zu weit abzuschweifen.
- Dann erscheint hier noch diese Tabelle:
–> Das ist cool, es handelt sich hierbei um T-Tests bei unterschiedlicher Varianz, dabei werden für jede quantitative Variable Gruppenpaare gebildet, sogenannte Indikatorvariablen (Gruppe 1 = Leute mit fehlenden Werten; Gruppe 2= Leute ohne fehlende Werte) und berechnet, wie sehr sich diese in ihren Mittelwerten der anderen Variablen (in denen für beide dieser Gruppen Werte vorliegen – sonst kann man logischerweise ja nichts berechnen) voneinander unterscheiden. Dieser Test liefert uns also bereits erste Hinweise auf eine mögliche Systematik der fehlenden Werte.
- Natürlich liefern auch die Muster fehlender Werte und Muster in Tabellen interessante Informationen (z.B. welche und wie viele Fälle haben bei welche Variable wie viele fehlende Werte?) , aber was uns besonders interessiert, ist Folgendes:
- EM-geschätzte Statistiken: unter der Tabelle „Geschätzte Randmittel“ (und unter den anderen zwei folgenden Tabellen) findet Ihr einen Chi-Quadrat Test, der ist es, der ist das A und O!
Der MCAR-Test nach Little: wegen dem Test haben wir die ganze Mühe auf uns genommen…
Wir wünschen uns nichts sehnlicher als – anders als bei den meisten üblichen Hypothesen – dass dieser Test NICHT signifikant wird. Denn wenn er NICHT signifikant ist, dann unterliegen die fehlenden Werte KEINER Systematik, was wiederum bedeutet, dass sie komplett zufällig zustande gekommen sind und wir alle Freiheiten bei der Ersetzung oder sogar dem simplen Fallausschluss haben (mehr dazu, wie man im Falle von MCAR mit fehlenden Werten vorgehen kann, findet Ihr hier).
In dem vorliegenden Beispiel ist der Test nicht signifikant, der p-Wert ist größer als .05, die fehlenden Werte sind wohl komplett zufällig verteilt.
Hinweis UND Frage an Euch: Wenn der Test signifikant wird, dann wissen wir zwar, dass unsere fehlenden Werte NICHT komplett zufällig (MCAR) verteilt sind ABER wir wissen deswegen noch lange nicht ob sie zufällig (MAR) oder nicht zufällig (NMAR) sind. Das ist doch unbefriedigend oder? Ich weiss auch noch nicht wie ich damit umgehen soll. Es gibt wohl keinen Test um das herauszufinden…wäre aber wichtig, weil man bei dem vorliegen von NMAR quasi gar nicht agieren darf, alle Imputationsverfahren sind hier untersagt, wohingegen man bei dem vorliegen einer MAR-Systematik schon noch einen gewissen Handlungspielraum hat. Daher meine Frage an Euch: Wie geht Ihr mit einem signifikanten Ergebnis des MCAR-Tests nach Little bei mehr als 5% fehlender Werte um?
——————————————————–
Berichterstellung:
Wie würde ich nun die Ergebnisse der Analyse fehlender Werte berichten? Für das vorliegende Beispiel würde ich wie folgt berichten:
„Im Rahmen der Analyse fehlender Werte konnten mehr als 5% fehlende Werte sowohl auf Fall als auch auf Variablenebene identifiziert werden. Die T-Tests bei unterschiedlicher Varianz wiesen mit einem p-Wert von > .05 für alle entsprechenden Items auf keine signifikanten Unterschiede der gebildeten Indikatorvariablen hin. Der MCAR-Test nach Little deutete mit einem nicht signifikanten Ergebnis ([29]=26.77, p=.58) auf ein komplett zufälliges Fehlen hin. Die fehlenden Werte wurden für die folgenden Analysen mittels … (hier eintragen für welche Rechnung man welches Ersetzungsverfahren gewählt hat) ersetzt.“
——————————————————–
Vollständiger Datensatz:
Was ist nun mit dem EM-algorithmierten, vervollständigten Datensatz (hatten wir doch vorhin ne Extra-Schleife gedreht). Der hat sich klammheimlich im Hintergrund geöffnet:
Cool oder? Da haben wir ihn nun, einen wunderschönen, vollständigen Datensatz. Mit diesem können wir jetzt unsere geplanten Analysen rechnen, genau so, wie wir es gewohnt sind.
Zuletzt ist es mir ein besonderes Anliegen, darauf hinzuweisen, dass ich eigentlich eine – meiner subjektiven Ansicht nach – sehr schöne Schrift habe (siehe Titelbild des Blogbeitrags), es aber mit Paint äußerst schwierig ist, dieses Können zu zeigen. 😉
Ich wünsche Allen frohe Weihnachten und viel Spass beim Analysieren (und ggf. Ersetzen) fehlender Werte!
Literatur(empfehlung)
Leonhart, R. (2013). Lehrbuch Statistik: Einstieg und Vertiefung. Bern: Huber.
Comments ( 7 )