Generalisierungen
:Konstrukte/Folgerungen
:Involvierte Definitionen
:Veranstaltung
: DMReferenz
: @valdes2024 (p. 68 f.)
⠀
Proposition: Imputation fehlender Werte
Oft können bei Datensätzen fehlende Attribut-Werte beobachtet werden.
Ansätze zur Imputation fehlender Werte umfassen:
- Datenpunkt ignorieren:
- Empfehlenswert, wenn das Attribut einen
Nichtangabe-Wert
enthält.- Problematisch, da eventuell viele relevante Informationen verloren gehen
- Nur empfehlenswert, wenn
- das Attribut essentiell für die Analyse ist
- und die übrigen Attribute nur eine geringe Relevanz für die Analyse haben
- Manuelle Imputation:
- Händische Auswahl eines passenden Wertes
- Sehr subjektiv
- Nur für wenige fehlende Attribute möglich
- Konstante Imputation:
- Fehlendes Attribut wird durch eine Konstante, bspw.
unbekannt
,oder ersetzt. - Ersatzwert kann die Analyseergebnisse verzerren und durch diese bspw. als besonders relevant angesehen werden.
- Imputation durch Lageparameter:
- Ersetzung eines fehlenden Attributes mittels eines geeigneten Mittelwertverfahrens der jeweils verfügbaren Ausprägungen des Attributes.
- Bei schiefen Verteilungen ist bspw. der Median zu bevorzugen.
- Imputation durch eingeschränkten Lageparameter:
- Ist die Klassenzugehörigkeit bekannt (bspw.
Golden Retriever
), so ist es möglich, den Lageparameter nicht über allen Ausprägungen des Attributes, sondern nur über den Ausprägungen des Attributes für die entsprechende Klasse zu berechnen.- Imputation durch Inferenz:
- Die Imputation wird mithilfe eines Inferenz-Modells (bspw. Regression oder Entscheidungsbaum) durchgeführt, das den wahrscheinlichsten Wert für das fehlende Attribut einen gegebenen Datenpunktes berechnet.
- Die Inferenz bezieht die anderen, nicht-leeren Attribute eines Datenpunktes in die Berechnung mit ein.
- Lokale Imputation:
- Für Datentypen mit Lokalität (bspw. Zeitreihen oder Bilddaten) können Fehlende Werte innerhalb eines Datenpunktes leicht berechnet werden, indem man den Durchschnitt angrenzender Werte heranzieht.
- Multiple Imputation:
- Ähnlich wie bei der Inferenz werden die fehlenden Daten durch ein Inferenz-Modell ersetzt.
- Bei der multiplen Imputation werden jedoch unterschiedliche Modelle trainiert, die jeweils unterschiedliche Werte vorhersagen.
- Anschließend werden die Analysen für jedes der unterschiedlichen Modell durchgeführt.
Anmerkung
Nichtangabe-Werte
Fehlende Werte können in Fragebögen durch
Nichtangabe-Werte
verhindert werden (bspw.keine Angabe
odernicht zutreffend
).Wird ein solches Attribut anschließend analysiert, sollten Datenpunkte mit
Nichtangabe-Werten
ignoriert werden.