Beispiele
:Generalisierungen
:Involvierte Definitionen
:- siehe auch Dateneignung
Veranstaltung
: DEDSReferenz
: @mcgregor2021 (S. 4f., S. 190)
⠀
Definition: Datenintegrität
Wir bezeichnen Daten als Integer (im Sinne von Datenintegrität), wenn die enthaltenen Werte konsistent sind. Hierzu muss der Kontext der Daten betrachtet werden.
Die Datenintegrität wird durch folgende Aspekte beeinflusst:
- Vollständigkeit der Daten
- Atomizität der Daten
Außerdem kann uns bei der Bewertung ein sogenanntes Data-Dictionary mit folgenden Informationen helfen:
- Wie wurden die Daten gesammelt?
- Wie können die Daten interpretiert werden?
- Welche Maßeinheiten haben die Daten?
Aspekte der Datenintegrität
Übersicht über die Aspekte der Datenintegrität
Wir unterscheiden die Aspekte der Datenintegrität nach ihrer Wichtigkeit:
- Notwendig aber nicht ausreichend
- Bekannte Herkunft (Known Provenance)
- Gute Annotation (Well-annotated)
- Wichtig
- Aktualität (Timely)
- Vollständigkeit (vs. fehlende Werte) (Complete)
- Genug Daten (High Volume)
- Mehrdimensionalität (Multivariate)
- Atomizität (Atomic)
- Erreichbar (durch Datenaufbereitung)
- Konsistenz (Duplikate, Tippfehler, Maßeinheiten, Messabstände, …) (Consistent)
- Klare Dimensionslabel (Clear)
- Strukturiertheit (Dimensionally structured)
Notwendig aber nicht ausreichend
Definition: Bekannte Herkunft
Beim Sammeln von Daten müssen viele implizite und explizite Entscheidungen getroffen werden.
Wenn wir Datensätze verwenden, müssen wir den Autoren vertrauen können. Denn: Eine Überprüfung der Daten ist in der Regel unmöglich.
Wissen wir nicht, wer einen Datensatz zusammengestellt hat, mit welchen Methoden und zu welchem Zweck, so ist es auch nicht möglich, die Eignung der Daten (Data Fit) zu verifizieren.
Definition: Gute Annotation
Gute Annotation für einen Datensatz umfasst:
- Erklärungen des Datenerfassungsprozesses / Methodologie
- Welche Werte wurden gesammelt?
- Welche Maßeinheiten?
Wichtig
Definition: Aktualität
Der Datensatz sollte hinreichend aktuell sein.
Wenn wir uns beispielsweise für die Demographie unserer Nachbarschaft interessieren, die Daten aber mehrere Jahre alt sind, ist die Wahrscheinlichkeit hoch, dass sie nicht mehr repräsentativ sind.
Wenn wir Aktien untersuchen, kann die Aktualität schon nach wenigen Sekunden nicht mehr gegeben sein.
Definition: Vollständigkeit
Oft enthalten Datensätze fehlende Werte. Das zu prüfen kann ziemlich tricky sein. Ansätze sind:
- Früheste und neuste Datumsangaben prüfen
- Datenpunkte auf einem Zeitstrahl plotten und nach Lücken suchen
- Anzahl Spalten zwischen Datensätzen vergleichen
- …
Um entscheiden zu können, ob der Datensatz dennoch genutzt werden kann, müssen wir die folgenden Fragen beantworten:
- Weshalb fehlen die Daten?
- Benötige ich die Daten während der Datenaufbereitung (und der Analyse)?
Definition: Genug Daten
Der Datensatz muss ausreichend viele Daten enthalten. Was ausreichend ist, ist aber leider gar nicht so einfach zu bestimmen.
Oft kann es notwendig sein, entsprechende Publikationen zu lesen oder direkt mit Experten zu sprechen.
Definition: Mehrdimensionalität
Um die Integrität der Daten sicherzustellen, ist es oft notwendig, mehrere Dimensionen der Daten zu vergleichen.
Hat ein Datensatz aber gar nicht die zum Vergleich benötigten Dimensionen, können wir die Datenintegrität auch nicht sicherstellen.
Definition: Atomizität
Wir bezeichnen Daten als atomar, wenn die Einträge keine Aggregierungen (bspw. Aufsummierungen oder Durchschnitte), sondern unabhängige Datenpunkte darstellen
Erreichbar (durch Datenaufbereitung)
Definition: Konsistenz
- Gibt es zeitliche Lücken zwischen den Daten?
- Wurden die Daten in irregulären Abständen aufgezeichnet?
- Gibt es Duplikate? Oder nahe Duplikate durch Tippfehler? (Siehe auch Fingerprinting)
- Sind die Maßeinheiten je Dimension konsistent? (bspw. Währungsumstellung, Inflation)
Definition: Klare Dimensionslabel
Die Spaltenbezeichnungen der Dimensionen sind klar und nicht nur kryptische Codes wie
CL_04D
.
Definition: Strukturiertheit
Ein Dimensional strukturierter Datensatz enthält Spalten mit “interpretierten” Informationen.
- Haben wir bspw. Längen- und Breitengrade, so wäre “Geographische Region” eine strukturierte Information.
- Haben wir das Datum, so wären Kalenderwoche und Wochentag strukturierte Informationen.
Anmerkung
Beispiele
Je nach Art der Daten interessieren uns bei der Integrität andere Aspekte:
- Zeitreihe: Wurden die Daten in gleichbleibenden Intervallen gemessen oder nur sporadisch?
- Handelt es sich um einzelne Datenpunkte oder um Durchschnitte?