Kurze Historie

Eine kurze Historie der Data Science

  • Data Science: 1974 von Peter Naur in der Literatur erwähnt.
  • Erster Workshop 1989 (Knowledge Discovery). Themen:
    • Data Driven Discovery
    • Knowledge Based Approaches
    • Systems and Applications
  • Aus dem Workshop ist 1995 die KDD Konferenz hervorgegangen.

Definition: Data Science

Data Science ist ein interdisziplinäres Fachgebiet, in dem mit Hilfe eines wissenschaftlichen Vorgehens, semiautomatisch und unter Anwendung bestehender oder zu entwickelnder Analyseverfahren Erkenntnisse aus teils komplexen Daten extrahiert und unter Berücksichtigung gesellschaftlicher Auswirkungen nutzbar gemacht werden.

Charakteristisch sind also die folgenden Aspekte:

  • Interdisziplinäres Fachgebiet
  • Wissenschaftliches Vorgehen
  • Semiautomatische Analyseverfahren
  • Datengetriebenheit
  • Extraktion von Erkenntnissen
  • Nutzbarmachung der Erkenntnisse
  • Berücksichtigung gesellschaftlicher Auswirkungen

Typische Aufgaben der Data Science

Typische Aufgaben der Data Science umfassen:

  • Clustering / Segmentierung
  • Anomalieerkennung
  • Assoziationsregelanalyse
  • Vorhersage
  • Klassifikation
  • Regression

Unterscheidung von reiner und angewandter Data Science

Reine Data ScienceAngewandte Data Science
HauptzielWeiterentwicklung des Wissenschaftsgebietes der Data ScienceLösung von Problemen im Anwendungsbereich und Erläuterung der Ergebnisse
ErgebnisNeue oder weiterentwickelte Analysemethoden und die erforderlichen theoretischen GrundlagenProblem- und bereichsspezifische Anpassung der Analysemethoden und nutzbare Erkenntnisse aus Daten.
ZielbereichDatenwissenschaftAnwendungsdomäne
KompetenzlevelVertiefte Kenntnisse in den MethodenMittlere Kenntnisse in Methoden, Kommunikation, Strategie und Projektleitung

Erläuterungen

Interdisziplinarität

Aspekte der Interdisziplinarität innerhalb der Data Science umfassen:

  • Domänen: Wirtschaft (Handel, Online-Handel, Logistik, Produktion, Forschung, …) und Wissenschaft (Mathematik, Physik, Biologie, Chemie, Medizin, Psychologie, …)
  • Disziplinen: Mathematik, Statistik, Informatik, Data Mining, Maschinelles Lernen, Künstliche Intelligenz
  • Personen: Domänenexperten, Management, Software Entwickler, …

Wissenschaftliches Vorgehen

Aspekte der Wissenschaftlichkeit der Data Science umfassen:

  • Strukturierte Vorgehensweise (bspw. DASC-PM)
  • Fundierte Methoden (aktueller Stand der Forschung und Technik)
  • Konkrete Problemstellung (bspw. Optimierung von KPIs)
  • Erkenntnisgewinn und Vermittlung

Teilautomatisierte Verfahren

Für folgende Aspekte der Data Science gibt es Ansätze zur Automatisierung:

  • Automatisierte Explorative Datenanalyse
  • Automatisierte Visualisierung
  • Automatisierte Extraktion von Einsichten
  • Automatisiertes Maschinelles Lernen
  • Infrastruktur (MLOps)

Dennoch lassen sich viele Zwischenschritte nicht automatisieren.

Analyseverfahren

Typische Analyseverfahren der Data Science umfassen:

  • Deskriptive Analyse (Was ist passiert?)
    • Verkäufe von Süßwaren stagnieren an Wochenenden.
  • Diagnostische Analyse (Warum ist es passiert?)
    • Es gab nicht ausreichend Produkte im Regal
  • Prädiktive Analyse (Was wird passieren?)
    • Lagerbestand erhöhen würde den Gewinn steigern.
  • Präskriptive Analyse (Wie können wir es erreichen?)
    • Automatische Anpassung des Lagerbestandes auf Basis des Modells

Extraktion von Erkenntnissen

Erkenntnisse sind anwendungsbezogen oder wissenschaftlich nutzbar.

Erkenntnisse können:

  • bestehende Hypothesen belegen
  • unvermutet sein (unknown unknowns)
  • komplexe Einsichten liefern
  • überraschen

Datengetriebenheit

Daten in der Data Science können beispielsweise

  • digital / analog vorliegen,
  • statisch oder als Stream vorliegen,
  • online oder offline sein,
  • quantitativ oder qualitativ sein,
  • unsicher oder präzise sein,
  • Fehler enthalten,
  • Verrauscht sein,
  • Fehlende Werte enthalten,
  • ein oder mehrdimensional (Bilder, Audiodateien, …) sein.

Nutzbarmachung der Erkenntnisse

Bei der Data Science geht es auch darum, die Analyselösungen und Erkenntnisse nutzbar zu machen. Beispielsweise durch:

  • Darstellung der Ergebnisse als Bericht, Leitfaden, Publikation.
  • Entwicklung eines Software-Prototypen.
  • Anpassung der Erkenntnisse an bestehende Hard- oder Softwarelösungen.

Gesellschaftliche Auswirkungen

Ethische und rechtliche Fragestellungen betreffen die zentralen Aspekte der Data Science:

  • die Daten,
  • die Analyseverfahren,
  • die Ergebnisse/Erkenntnisse.