Proposition: Imputation fehlender Werte

Oft können bei Datensätzen fehlende Attribut-Werte beobachtet werden.

Ansätze zur Imputation fehlender Werte umfassen:

  • Datenpunkt ignorieren:
    • Empfehlenswert, wenn das Attribut einen Nichtangabe-Wert enthält.
    • Problematisch, da eventuell viele relevante Informationen verloren gehen
    • Nur empfehlenswert, wenn
      • das Attribut essentiell für die Analyse ist
      • und die übrigen Attribute nur eine geringe Relevanz für die Analyse haben
  • Manuelle Imputation:
    • Händische Auswahl eines passenden Wertes
    • Sehr subjektiv
    • Nur für wenige fehlende Attribute möglich
  • Konstante Imputation:
    • Fehlendes Attribut wird durch eine Konstante, bspw. unbekannt, oder ersetzt.
    • Ersatzwert kann die Analyseergebnisse verzerren und durch diese bspw. als besonders relevant angesehen werden.
  • Imputation durch Lageparameter:
    • Ersetzung eines fehlenden Attributes mittels eines geeigneten Mittelwertverfahrens der jeweils verfügbaren Ausprägungen des Attributes.
    • Bei schiefen Verteilungen ist bspw. der Median zu bevorzugen.
  • Imputation durch eingeschränkten Lageparameter:
    • Ist die Klassenzugehörigkeit bekannt (bspw. Golden Retriever), so ist es möglich, den Lageparameter nicht über allen Ausprägungen des Attributes, sondern nur über den Ausprägungen des Attributes für die entsprechende Klasse zu berechnen.
  • Imputation durch Inferenz:
    • Die Imputation wird mithilfe eines Inferenz-Modells (bspw. Regression oder Entscheidungsbaum) durchgeführt, das den wahrscheinlichsten Wert für das fehlende Attribut einen gegebenen Datenpunktes berechnet.
    • Die Inferenz bezieht die anderen, nicht-leeren Attribute eines Datenpunktes in die Berechnung mit ein.
  • Lokale Imputation:
    • Für Datentypen mit Lokalität (bspw. Zeitreihen oder Bilddaten) können Fehlende Werte innerhalb eines Datenpunktes leicht berechnet werden, indem man den Durchschnitt angrenzender Werte heranzieht.
  • Multiple Imputation:
    • Ähnlich wie bei der Inferenz werden die fehlenden Daten durch ein Inferenz-Modell ersetzt.
    • Bei der multiplen Imputation werden jedoch unterschiedliche Modelle trainiert, die jeweils unterschiedliche Werte vorhersagen.
    • Anschließend werden die Analysen für jedes der unterschiedlichen Modell durchgeführt.

Anmerkung

Nichtangabe-Werte

Fehlende Werte können in Fragebögen durch Nichtangabe-Werte verhindert werden (bspw. keine Angabe oder nicht zutreffend).

Wird ein solches Attribut anschließend analysiert, sollten Datenpunkte mit Nichtangabe-Werten ignoriert werden.