Definition: Data Fit

Als Dateneignung (auch Data Fit) bezeichnen wir die Eignung eines Datensatzes zur Behandlung einer Aufgabe: sind die Daten eine akkurate Repräsentation des zu untersuchenden Phänomens?

Dateneignung wird durch die folgenden Dimensionen bestimmt:

  • Validität
  • Reliabilität
  • Repräsentativität

Anmerkung

Proxy-Probleme?

Häufig werden Daten über ein bestimmtes Phänomen genutzt, um Schlüsse über ein anderes, verwandtes Phänomen zu beantworten.

Dieses “Proxy”-Vorgehen kann jedoch zu stark verzerrten Ergebnissen führen. Auch wenn Daten von hunderttausenden Menschen genutzt wird, kann es passieren, dass die Daten für die eigentliche Zielgruppe des Modells nicht repräsentativ sind.