Definition: Technischer Bias

Als technischen Bias bezeichnen wir Fehler oder Verzerrungen innerhalb der Daten oder eines Modells, die aus den Operationen des ML Systems, häufig der Datenvorverarbeitung und Augmentierung resultieren.

Schritte des Data Science Life Cycles und weitere Aspekte, aus denen technischer Bias resultieren kann sind:

  • Datenbereinigung (Mitigation: FairPrep, mlinspect)
    • Methoden zur Imputation fehlender Werte nutzen oft einfach den am häufigsten auftretenden Wert. Fehlende Werte können auf eine schlechte Datenerhebung hinweisen, zum Beispiel, wenn beim Geschlecht nur male / female / null abgefragt wurde.
    • Fehlende Werte können in Fragebögen durch Nichtangabe-Werte verhindert werden (bspw. keine Angabe oder nicht zutreffend).
  • Datenfilterung (Mitigation: FairPrep, mlinspect)
    • Die Daten zu filtern (auch nach scheinbar unkritischen Kriterien wie dem Wohnort) kann zu einer starken Veränderung der zugrundeliegenden Verteilung führen.
  • Unterrepräsentanz (Mitigation: FairPrep, mlinspect)
    • Unterrepräsentierte Gruppen können bei einigen Schritten der Datenvorverarbeitung nicht angemessen behandelt werden. Bspw. können ungewöhnliche Namen bei Transformation durch ein Word-Embedding nicht angemessen interpretiert werden.
  • Fehlerhafter Versuchsaufbau (Mitigation: FairPrep)
    • Hyperparameter-Optimierung auf dem Test-Set statt dem Validierungs-Set;
    • keine Hyperparameter-Optimierung für das Baseline-Modell;
    • keine/fehlerhafte Normalisierung der Daten;
    • Verzerrte Teilmengen innerhalb des Datensatzes.
  • Datenfehler durch Integration (Mitigation: Deequ)
    • Daten müssen oft aus komplexen Umgebungen abgerufen werden (Rest API, Data Lake, etc.)
    • Schemaänderungen werden schlecht kommuniziert,
  • Distribution Shift (auch Data Drift) (Mitigation: Deequ)
    • zugrundeliegende stochastische Prozesse ändern sich laufend, weshalb auch die Modelle regelmäßig aktualisiert werden müssen.

Anmerkung

Mitigation des technischen Bias

Zur Mitigation des technischen Bias haben wir in der Veranstaltung drei Libraries kennengelernt:

  • FairPrep: Framework zur Isolation von Training, Validation und Test-Daten sowie zur Formalisierung von Pre-Processing-Pipelines.
  • mlwhatif: Framework zur Durchführung von Mini-Experimenten in der Pre-processing-Pipeline.
  • mlinspect: Framework zur Überprüfung von Pre-Processing Pipelines.
  • Deequ: Framework zum Schreiben von Data Unit Tests