Definition: Datenintegrität

Wir bezeichnen Daten als Integer (im Sinne von Datenintegrität), wenn die enthaltenen Werte konsistent sind. Hierzu muss der Kontext der Daten betrachtet werden.

Die Datenintegrität wird durch folgende Aspekte beeinflusst:

  • Vollständigkeit der Daten
  • Atomizität der Daten

Außerdem kann uns bei der Bewertung ein sogenanntes Data-Dictionary mit folgenden Informationen helfen:

  • Wie wurden die Daten gesammelt?
  • Wie können die Daten interpretiert werden?
  • Welche Maßeinheiten haben die Daten?

Aspekte der Datenintegrität

Übersicht über die Aspekte der Datenintegrität

Wir unterscheiden die Aspekte der Datenintegrität nach ihrer Wichtigkeit:

  • Notwendig aber nicht ausreichend
    • Bekannte Herkunft (Known Provenance)
    • Gute Annotation (Well-annotated)
  • Wichtig
    • Aktualität (Timely)
    • Vollständigkeit (vs. fehlende Werte) (Complete)
    • Genug Daten (High Volume)
    • Mehrdimensionalität (Multivariate)
    • Atomizität (Atomic)
  • Erreichbar (durch Datenaufbereitung)
    • Konsistenz (Tippfehler, Maßeinheiten, Messabstände, …) (Consistent)
    • Klare Dimensionslabel (Clear)
    • Strukturiertheit (Dimensionally structured)

Notwendig aber nicht ausreichend

Definition: Bekannte Herkunft

Beim Sammeln von Daten müssen viele implizite und explizite Entscheidungen getroffen werden.

Wenn wir Datensätze verwenden, müssen wir den Autoren vertrauen können. Denn: Eine Überprüfung der Daten ist in der Regel unmöglich.

Wissen wir nicht, wer einen Datensatz zusammengestellt hat, mit welchen Methoden und zu welchem Zweck, so ist es auch nicht möglich, die Eignung der Daten (Data Fit) zu verifizieren.

Definition: Gute Annotation

Gute Annotation für einen Datensatz umfasst:

  • Erklärungen des Datenerfassungsprozesses / Methodologie
  • Welche Werte wurden gesammelt?
  • Welche Maßeinheiten?

Wichtig

Definition: Aktualität

Der Datensatz sollte hinreichend aktuell sein.

Wenn wir uns beispielsweise für die Demographie unserer Nachbarschaft interessieren, die Daten aber mehrere Jahre alt sind, ist die Wahrscheinlichkeit hoch, dass sie nicht mehr repräsentativ sind.

Wenn wir Aktien untersuchen, kann die Aktualität schon nach wenigen Sekunden nicht mehr gegeben sein.

Definition: Vollständigkeit

Oft enthalten Datensätze fehlende Werte. Das zu prüfen kann ziemlich tricky sein. Ansätze sind:

  • Früheste und neuste Datumsangaben prüfen
  • Datenpunkte auf einem Zeitstrahl plotten und nach Lücken suchen
  • Anzahl Spalten zwischen Datensätzen vergleichen

Um entscheiden zu können, ob der Datensatz dennoch genutzt werden kann, müssen wir die folgenden Fragen beantworten:

  • Weshalb fehlen die Daten?
  • Benötige ich die Daten während der Datenaufbereitung (und der Analyse)?

Definition: Genug Daten

Der Datensatz muss ausreichend viele Daten enthalten. Was ausreichend ist, ist aber leider gar nicht so einfach zu bestimmen.

Oft kann es notwendig sein, entsprechende Publikationen zu lesen oder direkt mit Experten zu sprechen.

Definition: Mehrdimensionalität

Um die Integrität der Daten sicherzustellen, ist es oft notwendig, mehrere Dimensionen der Daten zu vergleichen.

Hat ein Datensatz aber gar nicht die zum Vergleich benötigten Dimensionen, können wir die Datenintegrität auch nicht sicherstellen.

Definition: Atomizität

Wir bezeichnen Daten als atomar, wenn die Einträge keine Aggregierungen (bspw. Aufsummierungen oder Durchschnitte), sondern unabhängige Datenpunkte darstellen

Erreichbar (durch Datenaufbereitung)

Definition: Konsistenz

  • Gibt es zeitliche Lücken zwischen den Daten?
  • Wurden die Daten in irregulären Abständen aufgezeichnet?
  • Gibt es Tippfehler? (Siehe auch Fingerprinting)
  • Sind die Maßeinheiten je Dimension konsistent? (bspw. Währungsumstellung, Inflation)

Definition: Klare Dimensionslabel

Die Spaltenbezeichnungen der Dimensionen sind klar und nicht nur kryptische Codes wie CL_04D.

Definition: Strukturiertheit

Ein Dimensional strukturierter Datensatz enthält Spalten mit “interpretierten” Informationen.

  • Haben wir bspw. Längen- und Breitengrade, so wäre “Geographische Region” eine strukturierte Information.
  • Haben wir das Datum, so wären Kalenderwoche und Wochentag strukturierte Informationen.

Anmerkung

Beispiele

Je nach Art der Daten interessieren uns bei der Integrität andere Aspekte:

  • Zeitreihe: Wurden die Daten in gleichbleibenden Intervallen gemessen oder nur sporadisch?
  • Handelt es sich um einzelne Datenpunkte oder um Durchschnitte?