Analyse fehlender Werte und Expectation-Maximization-Algorithmus (EM-Algorithmus) mit SPSS IBM Statistics 24 – eine einfache Schritt für Schritt Anleitung (Teil 2 der Reihe „Fehlende Werte“)

Stellen wir uns vor, wir haben einen SPSS Datensatz vor uns.

Wir sehen bereits jetzt augenscheinlich, dass dieser nicht vollständig ist. Nun wollen wir herausfinden, wie viele fehlende Werte der Datensatz enthält UND ob die fehlenden Werte irgendeiner Systematik unterliegen (eine detaillierte Erläuterung, welche Systematiken es gibt, könnt Ihr hier nachlesen). Ganz kurz: Falls wir fehlende Werte im Datensatz haben, könnten diese entweder:

MCAR (sowas von komplett zufällig)
MAR (zufällig)
oder NMAR (nicht zufällig)

sein. Wir wollen nun herausfinden, ob unsere Daten komplett zufällig sind.

Aber warum wollen wir das wissen?

Weil ab ca. 5 % fehlender Werte (aufwärts) die „Gefahr“ besteht, dass diese die Ergebnisse unserer Studie verzerren, wenn wir keinen angemessenen Umgang mit den fehlenden Werten wählen, sondern sie einfach ignorieren und somit automatisch davon ausgehen, dass sie komplett zufällig zustande gekommen sind. Also, um zu vermeiden, dass die Ergebnisse unserer Studie verzerrt sein könnten (weil wir z.B. am Ende nur noch Werte von Leuten vorliegen haben die hoch motiviert waren – alle anderen hatten irgendwann keine Lust mehr und haben die Beantwortung der Fragen ausgelassen –> d.h. wir hätten keine repräsentative Stichprobe mehr), müssen wir VOR der Berechnung unserer eigentlich geplanten Analysen (z. B. Unterscheidet sich das Ausmaß der Freude auf das Weihnachtsfest in Abhängigkeit mit der Verantwortlichkeit für den Geschenkeeinkauf…Ihr merkt, ich bin gerade total im Weihnachtsfieber…aber irgendwie war das entspannter, als ich selbst noch ein Kind war..naja, zurück zum Thema) eine Prüfung vornehmen.

Und das geht so:

SPSS Klickfunktion:

Analyse –> Analyse fehlender Werte –> jetzt öffnet sich folgendes Fenster:

Nun können wir alle Variablen die wir untersuchen möchten (im Idealfall wird diese Analyse für jede psychometrische Skala einzeln durchgeführt, falls man nicht nur ein Untersuchungsinstrument sondern eine ganze Fragebatterie eingesetzt hat) von links nach rechts rüber ziehen. Nehmen wir also an, die Variablen 1-5 aus dem vorliegen Beispiel sollen später alle zu einer einzigen psychometrischen Skala zusammengefasst werden, dann würden wir all dieser 5 Variablen jetzt zusammen auf fehlende Werte analysieren. Wir markieren die fünf Variablen und klicken auf den oberen blauen Pfeil. Die Variablen sind nun nach rechts in das Feld „Quantitative Variablen“ gewandert: (in dem vorliegenden Fall unterliegen die Antworten einer nahezu intervallskalierten Metrik, daher schieben wir sie auch in das obere Feld „Quantitative Variablen“)

Nun klicken wir auf den Button „Muster…“, es öffnet sich folgendes Fenster:

Hier klicken wir die oberen vier Kästchen an UND klicken dann auf „Weiter“. Wir gelangen zurück zum ursprünglichen Fenster.

Jetzt haben wir noch die Möglichkeit „Deskriptive Statistiken“ anzuklicken. Das machen wir doch gleich mal und klicken uns auch hier durch die ersten vier Häckchensetzungsoptionen (was für ein schönes Wort), genau so, wie gerade eben bei den Mustern durch:

Wir übergehen alle Variablen die weniger als 5% fehlende Werte haben, da diese vernachlässigt werden können. Dann klicken wir auf „Weiter“ und gelangen erneut zurück zum ursprünglichen Fenster.

Dort müssen wir nun noch ein „Häkchen“ bei „EM“ setzen, um einen Chi-Quadrat Test zu erhalten (der uns letztlich die Info liefert, ob die fehlenden Werte komplett zufällig auftauchen). Das sieht dann so aus:

Das war`s ! 🙂

Naja…also eigentlich wären wir nun fertig, würden wir nun auf „Einfügen“ klicken (dann hätten wir alles in der Syntax, würden die Rechnung markieren, auf Play klicken und das Ausgabe-Fenster mit den Ergebnissen würde sich öffnen) oder wir würden stattdessen auf „OK“ klicken und würden direkt in die „SPSS Ausgabe“ gelangen…

ABER da die Ersetzung mittels Expectation-Maximisation-Algorithmus (EM Algorithmus) in eben dem Fenster in dem wir uns jetzt ganz aktuell gerade befinden total leicht und schnell noch hinzuzufügen ist, würde ich dies gerne direkt in einem Zuge noch machen…sonst müssen wir nachher wieder zurück in dieses Fenster und vergeuden nur unnötig Zeit.

Kurz zur Erklärung, wo befinden wir uns gerade: Wir haben nun grundsätzlich alles erledigt, was war zur Analyse fehlender Werte braucht, WENN wir gleich herausfinden, dass wir fehlende Werte haben, diese sogar über 5% liegen (wir also imputieren / ersetzen sollten) und für unsere geplanten Analysen eine sogenannte Multiple Imputation (= der Gold Standard der Ersetzungsverfahren, mehr zur Theorie hier) keine voreingestellte Lösungsoption in SPSS darstellt (Hinweis: das ist leider tatsächlich für einige Standardanalysen der Fall, z.B. Reliabilitätsanalysen oder explorative Fakorenanalysen oder Varianzanalysen mit Messwiederholung, usw.), DANN könnten wir als ALTERNATIVE LÖSUNG für die ein oder andere geplante Analyse (z. B. für Reliabilitätsanalysen oder explorative Faktorenanalysen; und wenn wir nur wenige fehlende Werte haben) eine Ersetzung mittels EM-Algorithmus in Erwägung ziehen UM mit dem mittels EM-Algorithmus vervollständigen Datensatz dann weiter zu rechnen. Okay, soviel zum Hintergrund.

Deswegen möchte ich hier die Imputation mittels EM Algorithmus direkt in einem Zug mit durchführen. Für die Ersetzung mittels EM-Algorithmus klicken wir daher nun auf den blauen Butten mit der Aufschrift „EM…“ –-> es öffnet sich ein neues Fenster:

In dem neuen Fenster klicken wir auf „Vervollständigte Daten speichern“ (logisch, wir wollen ja nicht, dass der der Datensatz den wir gerade so mühevoll ersetzten, verloren geht) und überlegen uns einen passenden Namen (hier: Missing_Testdatei). Ich persönlich gebe der Datei den exakt selben Namen wie der Originaldatei nur mit dem Zusatz EM. So weiss in einer Woche oder einem Monat immer noch um welche Datei es sich handelt.

Kleiner Hinweis: Der Name der Datei sollt keinen „.“ oder „-„ enthalten, sonst motzt SPSS. Der Dateiname folgt also den selben Regeln wie die SPSS Variablennamen, „_„ sind daher beispielsweise kein Problem.

Wir klicken auf „Weiter“ und gelangen ein letztes Mal zurück zum Ursprungsfenster.

Das war’s nun aber wirklich ! Wir sind fertig 🙂

Jetzt nur noch auf „Ok“ (für die ganz Schnellen, die es sich leisten können, nicht zu protokollieren) oder auf „Einfügen“.

Dann schwebt das Ganze in die Syntax und sieht so aus:

Ihr erhaltet nur die untere Rechnung (2), wenn Ihr alles so gemacht habt wie bisher. Ich habe hier nur zusätzlich noch eine Analyse fehlender Werte OHNE Imputation hinzugefügt (1), damit wir uns die Unterschiede beider Syntaxbefehle anschauen können.

Die obere Rechnung 1) wäre eine einfache Analyse fehlender Werte, die untere Rechnung 2) ist genau gleich, nur mit dem Zusatz der Erstellung eines neuen vervollständigten Datensatzes der in dem vorliegenden Beispiel den Dateinamen Missing_Testdatei trägt und per EM-Algorithmus imputiert wurde. Sodele, wir markieren die untere Rechnung 2) von „DATASET DECLARE Missung_Testdatei. bis hin zu OUTFILE=Missing_Testdatei“. und auf den grünen Playbutton drücken!

Es öffnet sich die Ausgabe.

Die Ausgabe enthält nun zahlreiche Statistiken, die alle mehr oder weniger relevante Informationen liefern. Interessant finde ich insbesondere:

Univariaten Statistiken: mit Informationen zur Anzahl und Prozentzahl fehlender Werte pro Variable. Oder auch zur Anzahl von Extremwerten (die sollte man sich auch anschauen, das ist aber ein anderes Thema…die kann man sich auch gut in einem Box-Plot zu Gemühte führen). Die Ergebnisse dieser Rechnung würde ich in jedem Fall berichten.

Es folgen Schätzwerte sowie Datenmuster und Muster fehlender Werte auf Fallebene, diese Fälle (Individuen) würde ich mir mal in Ruhe genau anschauen (soziodemografische Angaben – was sind das für Leute? Sind genau diese Individuen vielleicht besonders jung oder besonders reich?)…damit kann man ewig Zeit verbringen…versuchen wir, nicht zu weit abzuschweifen.
Dann erscheint hier noch diese Tabelle:

–> Das ist cool, es handelt sich hierbei um T-Tests bei unterschiedlicher Varianz, dabei werden für jede quantitative Variable Gruppenpaare gebildet, sogenannte Indikatorvariablen (Gruppe 1 = Leute mit fehlenden Werten; Gruppe 2= Leute ohne fehlende Werte) und berechnet, wie sehr sich diese in ihren Mittelwerten der anderen Variablen (in denen für beide dieser Gruppen Werte vorliegen – sonst kann man logischerweise ja nichts berechnen) voneinander unterscheiden. Dieser Test liefert uns also bereits erste Hinweise auf eine mögliche Systematik der fehlenden Werte.

Natürlich liefern auch die Muster fehlender Werte und Muster in Tabellen interessante Informationen (z.B. welche und wie viele Fälle haben bei welche Variable wie viele fehlende Werte?) , aber was uns besonders interessiert, ist Folgendes:
EM-geschätzte Statistiken: unter der Tabelle „Geschätzte Randmittel“ (und unter den anderen zwei folgenden Tabellen) findet Ihr einen Chi-Quadrat Test, der ist es, der ist das A und O!

Der MCAR-Test nach Little: wegen dem Test haben wir die ganze Mühe auf uns genommen…

Wir wünschen uns nichts sehnlicher als – anders als bei den meisten üblichen Hypothesen – dass dieser Test NICHT signifikant wird. Denn wenn er NICHT signifikant ist, dann unterliegen die fehlenden Werte KEINER Systematik, was wiederum bedeutet, dass sie komplett zufällig zustande gekommen sind und wir alle Freiheiten bei der Ersetzung oder sogar dem simplen Fallausschluss haben (mehr dazu, wie man im Falle von MCAR mit fehlenden Werten vorgehen kann, findet Ihr hier).

In dem vorliegenden Beispiel ist der Test nicht signifikant, der p-Wert ist größer als .05, die fehlenden Werte sind wohl komplett zufällig verteilt.

Hinweis UND Frage an Euch: Wenn der Test signifikant wird, dann wissen wir zwar, dass unsere fehlenden Werte NICHT komplett zufällig (MCAR) verteilt sind ABER wir wissen deswegen noch lange nicht ob sie zufällig (MAR) oder nicht zufällig (NMAR) sind. Das ist doch unbefriedigend oder? Ich weiss auch noch nicht wie ich damit umgehen soll. Es gibt wohl keinen Test um das herauszufinden…wäre aber wichtig, weil man bei dem vorliegen von NMAR quasi gar nicht agieren darf, alle Imputationsverfahren sind hier untersagt, wohingegen man bei dem vorliegen einer MAR-Systematik schon noch einen gewissen Handlungspielraum hat. Daher meine Frage an Euch: Wie geht Ihr mit einem signifikanten Ergebnis des MCAR-Tests nach Little bei mehr als 5% fehlender Werte um?

——————————————————–

Berichterstellung:

Wie würde ich nun die Ergebnisse der Analyse fehlender Werte berichten? Für das vorliegende Beispiel würde ich wie folgt berichten:

„Im Rahmen der Analyse fehlender Werte konnten mehr als 5% fehlende Werte sowohl auf Fall als auch auf Variablenebene identifiziert werden. Die T-Tests bei unterschiedlicher Varianz wiesen mit einem p-Wert von > .05 für alle entsprechenden Items auf keine signifikanten Unterschiede der gebildeten Indikatorvariablen hin. Der MCAR-Test nach Little deutete mit einem nicht signifikanten Ergebnis ([29]=26.77, p=.58) auf ein komplett zufälliges Fehlen hin. Die fehlenden Werte wurden für die folgenden Analysen mittels … (hier eintragen für welche Rechnung man welches Ersetzungsverfahren gewählt hat) ersetzt.“

——————————————————–

Vollständiger Datensatz:

Was ist nun mit dem EM-algorithmierten, vervollständigten Datensatz (hatten wir doch vorhin ne Extra-Schleife gedreht). Der hat sich klammheimlich im Hintergrund geöffnet:

Cool oder? Da haben wir ihn nun, einen wunderschönen, vollständigen Datensatz. Mit diesem können wir jetzt unsere geplanten Analysen rechnen, genau so, wie wir es gewohnt sind.

Zuletzt ist es mir ein besonderes Anliegen, darauf hinzuweisen, dass ich eigentlich eine – meiner subjektiven Ansicht nach – sehr schöne Schrift habe (siehe Titelbild des Blogbeitrags), es aber mit Paint äußerst schwierig ist, dieses Können zu zeigen. 😉

Ich wünsche Allen frohe Weihnachten und viel Spass beim Analysieren (und ggf. Ersetzen) fehlender Werte!

Literatur(empfehlung)

Leonhart, R. (2013). Lehrbuch Statistik: Einstieg und Vertiefung. Bern: Huber.

Comments ( 7 )

Best Practice: Anwendungsempfehlungen im Umgang mit fehlenden Werten (Teil 1) – Statistik Support SöhnenPosted on 22:53 3. Januar 2019
[…] Analyse fehlender Werte (das macht man immer als Erstes – unabhängig davon für welches Ersetzungsverfahren man sich danach entscheidet) […]
Sarah FakiliPosted on 11:43 13. Juni 2019
Hallo, eine kurze Frage zum EM-Algorithmus: Darf ich den auf jeden Datensatz anwenden? Ich habe eine Studie mit einem Fragebogen (SSKJ für Kinder und Jugendliche) und habe einige fehlende Werte. Wäre die Schätzung mit dem EM-Algorithmus hier richtig für die fehlenden Werte?
- sssadminPosted on 19:18 1. Juli 2019
  Hallo, danke für die Frage! Die Daten sollten MAR (per Zufall) fehlen. Da es sich bei dem FB ja um ein standardisiertes Instrument handelt, würde ich vielleicht auch mal schauen, wie die Autor_innen selbst mit fehlenden Werten umgegangen sind (bezüglich der Vergleichbarkeit mit den Normen etc.). Viel Erfolg!
MelaniePosted on 16:30 21. August 2019
Hallo! Danke, für die anschauliche und verständliche Beschreibung - die sucht man im WWW nämlich manchmal vergeblich. ...vor allem, wenn man noch nicht das größte SPSS-Verständnis entwickelt hat. Ich arbeite mit einem größeren Datensatz und muss am Ende für meine Hypothesen einige Variablen, nach Bildung des Mittelwerts, in Zusammenhang setzen. Wie bekomme ich denn aber die fehlenden Werte innerhalb meines Datensatzes ersetzt? Und: Der Little-Test ist glücklicherweise n.s., kann ich dann trotzdem die Werte ersetzen oder macht es mehr Sinn, die Fälle einfach auszuschließen? Ich danke für eine kleine Rückmeldung :) Liebe Grüße!
- sssadminPosted on 9:12 4. Oktober 2019
  Hallo Melanie, vielen Dank für Deinen Kommentar! Zunächst möchte ich mich für die späte Antwort entschuldigen - ich hoffe es ist nicht zu spät. Es freut mich, dass die Beschreibung für Dich verständlich ist. :-) Bezüglich Deiner Frage: Wenn der MCAR-Test nach Little n.s. ist, dann fehlen die Werte ja scheinbar "vollkommen zufällig", unterliegen also keiner Systematik, die sich fehlerhaft in Dein Ergebnis "einschleichen" könnte (wenn Du die fehlenden Werte einfach ignorierst), d.h. im Klartext: Du kannst alles so lassen wie es ist, brauchst nicht imputieren und kannst gemütlich weiterrechnen (außer Du möchtest Deinen Stichprobenumfang behalten und einen automatisierten Fallausschluss vermeiden - wie es SPSS ja für Fälle mit fehlenden Werten bei Zusammenhangsanlaysen macht - dann kannst Du die fehlenden Werte natürlich auch im Rahmen der Datenaufbereitung imputieren). Liebe Grüße und viel Spass! Sarah
LobertPosted on 13:21 31. März 2020
Hallo in die Runde, auch von mir vielen Dank für die sehr strukturierte und gut nachvollziehbare Einführung in das Vorgehen. In Bezug auf die Möglichkeiten der Nutzung von EM frage ich mich, ob man das nur auf Einzelitemebene durchführen kann/sollte oder auch in Bezug auf (bereits aufsummierte) Skalenwerte? Gibt es da irgendwelche Informationen, Richtlinien oder Empfehlungen? Vielen Dank und weiter so! Lobert
- sssadminPosted on 11:11 2. April 2020
  Hallo Lobert, vielen Dank für Deine Nachricht! :-) Wegen zeitlicher Engpässe, nur eine kurze Antwort: Ich persönlich würde Dir empfehlen, die Imputation um Rahmen der Datenaufbereitung vor der Bildung eines Skalenwertes durchzuführen, da die beantworteten Items innerhalb der Skala ja "helfen" sollen, die nicht beantworteten Items innerhalb der Skala zu schätzen. Vielleicht auch interessant für Dich: Wirtz hat 2004 geschrieben, dass der Informationsverlust bei mehr als 30 % fehlender Werte wesentlich sei. Das könnte man ggf. auch bei der Skalenbildung (falls diese z.B. über das Arithmetische Mittel erfolgen soll) wie folgt berücksichtigen, sofern Du SPSS verwendest: Skalenname = mean.4 (Item1, Item2, Item3, Item4, Item5, Item6). --> Das Beispiel im Klartext: bei einer Skala mit 6 Items müssten 4 beantwortet sein um einen Skalenwert zu erhalten (sofern die Items alle ungefähr gleich trennschärf sind). Wenn Du das nicht machst und auch vorher nicht die fehlenden Werte imputiert hast, bildet SPSS bereits bei nur einer fehlenden Antwort keinen Skalenwert mehr. Ich bezweifle, Deine Frage damit gut beantwortet zu haben, leider habe ich gerade ad hoc jedoch keine Quelle zur Hand, in der explizit auf die Reihenfolge der Datenaufbereitungs-Schritte eingegangen wird. ;-) Hoffentlich konnte ich Dir trotzdem ein wenig weiterhelfen, in jedem Fall wünsche ich Dir alles Gute! Viele Grüße Sarah

Antworten abbrechen

View Comments (7) ...

Analyse fehlender Werte und Expectation-Maximization-Algorithmus (EM-Algorithmus) mit SPSS IBM Statistics 24 – eine einfache Schritt für Schritt Anleitung (Teil 2 der Reihe „Fehlende Werte“)

Teilen mit:

Ähnliche Beiträge

sssadmin

Comments ( 7 )

Antworten abbrechen