Konstrukte
:Involvierte Definitionen
:Veranstaltung
: EDSReferenz
: @beecks2024 (LE1)
⠀
Kurze Historie
Eine kurze Historie der Data Science
- Data Science: 1974 von Peter Naur in der Literatur erwähnt.
- Erster Workshop 1989 (Knowledge Discovery). Themen:
- Data Driven Discovery
- Knowledge Based Approaches
- Systems and Applications
- Aus dem Workshop ist 1995 die KDD Konferenz hervorgegangen.
Definition: Data Science
Data Science ist ein interdisziplinäres Fachgebiet, in dem mit Hilfe eines wissenschaftlichen Vorgehens, semiautomatisch und unter Anwendung bestehender oder zu entwickelnder Analyseverfahren Erkenntnisse aus teils komplexen Daten extrahiert und unter Berücksichtigung gesellschaftlicher Auswirkungen nutzbar gemacht werden.
Charakteristisch sind also die folgenden Aspekte:
- Interdisziplinäres Fachgebiet
- Wissenschaftliches Vorgehen
- Semiautomatische Analyseverfahren
- Datengetriebenheit
- Extraktion von Erkenntnissen
- Nutzbarmachung der Erkenntnisse
- Berücksichtigung gesellschaftlicher Auswirkungen
Typische Aufgaben der Data Science
Typische Aufgaben der Data Science umfassen:
- Clustering / Segmentierung
- Anomalieerkennung
- Assoziationsregelanalyse
- Vorhersage
- Klassifikation
- Regression
Unterscheidung von reiner und angewandter Data Science
Reine Data Science Angewandte Data Science Hauptziel Weiterentwicklung des Wissenschaftsgebietes der Data Science Lösung von Problemen im Anwendungsbereich und Erläuterung der Ergebnisse Ergebnis Neue oder weiterentwickelte Analysemethoden und die erforderlichen theoretischen Grundlagen Problem- und bereichsspezifische Anpassung der Analysemethoden und nutzbare Erkenntnisse aus Daten. Zielbereich Datenwissenschaft Anwendungsdomäne Kompetenzlevel Vertiefte Kenntnisse in den Methoden Mittlere Kenntnisse in Methoden, Kommunikation, Strategie und Projektleitung
Erläuterungen
Interdisziplinarität
Aspekte der Interdisziplinarität innerhalb der Data Science umfassen:
- Domänen: Wirtschaft (Handel, Online-Handel, Logistik, Produktion, Forschung, …) und Wissenschaft (Mathematik, Physik, Biologie, Chemie, Medizin, Psychologie, …)
- Disziplinen: Mathematik, Statistik, Informatik, Data Mining, Maschinelles Lernen, Künstliche Intelligenz
- Personen: Domänenexperten, Management, Software Entwickler, …
Wissenschaftliches Vorgehen
Aspekte der Wissenschaftlichkeit der Data Science umfassen:
- Strukturierte Vorgehensweise (bspw. DASC-PM)
- Fundierte Methoden (aktueller Stand der Forschung und Technik)
- Konkrete Problemstellung (bspw. Optimierung von KPIs)
- Erkenntnisgewinn und Vermittlung
Teilautomatisierte Verfahren
Für folgende Aspekte der Data Science gibt es Ansätze zur Automatisierung:
- Automatisierte Explorative Datenanalyse
- Automatisierte Visualisierung
- Automatisierte Extraktion von Einsichten
- Automatisiertes Maschinelles Lernen
- Infrastruktur (MLOps)
Dennoch lassen sich viele Zwischenschritte nicht automatisieren.
Analyseverfahren
Typische Analyseverfahren der Data Science umfassen:
- Deskriptive Analyse (Was ist passiert?)
- Verkäufe von Süßwaren stagnieren an Wochenenden.
- Diagnostische Analyse (Warum ist es passiert?)
- Es gab nicht ausreichend Produkte im Regal
- Prädiktive Analyse (Was wird passieren?)
- Lagerbestand erhöhen würde den Gewinn steigern.
- Präskriptive Analyse (Wie können wir es erreichen?)
- Automatische Anpassung des Lagerbestandes auf Basis des Modells
Extraktion von Erkenntnissen
Erkenntnisse sind anwendungsbezogen oder wissenschaftlich nutzbar.
Erkenntnisse können:
- bestehende Hypothesen belegen
- unvermutet sein (unknown unknowns)
- komplexe Einsichten liefern
- überraschen
Datengetriebenheit
Daten in der Data Science können beispielsweise
- digital / analog vorliegen,
- statisch oder als Stream vorliegen,
- online oder offline sein,
- quantitativ oder qualitativ sein,
- unsicher oder präzise sein,
- Fehler enthalten,
- Verrauscht sein,
- Fehlende Werte enthalten,
- ein oder mehrdimensional (Bilder, Audiodateien, …) sein.
Nutzbarmachung der Erkenntnisse
Bei der Data Science geht es auch darum, die Analyselösungen und Erkenntnisse nutzbar zu machen. Beispielsweise durch:
- Darstellung der Ergebnisse als Bericht, Leitfaden, Publikation.
- Entwicklung eines Software-Prototypen.
- Anpassung der Erkenntnisse an bestehende Hard- oder Softwarelösungen.
Gesellschaftliche Auswirkungen
Ethische und rechtliche Fragestellungen betreffen die zentralen Aspekte der Data Science:
- die Daten,
- die Analyseverfahren,
- die Ergebnisse/Erkenntnisse.