Phase: Analysephase

Die Analysephase des Data Science Process Models (DASC-PM) startet mit der in der Datenbereitstellungsphase erstellten analytischen Datenquelle und den im Projektauftrag identifizierten Anforderungen.

Vor Beginn dieser Phase sollte bereits klar sein, dass sich die gegebene Fragestellung tatsächlich mit Hilfe von Data Science beantworten lässt.

Kernaufgaben der Phase sind:

  • Identifikation geeigneter Analyseverfahren:
    • Recherche zu Publikationen über ähnliche Problemstellungen,
    • Überblick über bestehende Analyseverfahren,
    • Erfolgversprechende Verfahren auswählen,
    • Entscheiden, ob Zeitaufwand und Risiko der Neuentwicklung eines Verfahrens für das Projekt tragbar sind,
  • Anwendung von Analyseverfahren:
    • Aufsetzen der Entwicklungsumgebung,
    • Dimensionsreduktion,
    • Hyperparameteroptimierung,
    • Reproduzierbarkeit
  • Entwicklung von Analyseverfahren:
    • Bestimmung der Unzulänglichkeit relevanter bestehender Verfahren,
    • Sammlung von Anforderungen an das neue Verfahren,
    • Theoretische Herleitung des Verfahrens,
    • Technische Konzeption,
    • Implementierung,
    • Ausführliche theoriegeleitete Verifikation des neuen Verfahrens und Vergleich mit bestehenden Verfahren.

Begleitende Aufgaben umfassen:

  • Werkzeugauswahl:
    • Auswahl und Beschaffung der Software, mit der die Analyseverfahren umgesetzt werden sollen,
    • Auswahl und Beschaffung geeigneter Hardware,
  • Evaluation:
    • Bestimmung der Bewertungskriterien und Metriken,
    • Auswahl eines Baseline-Verfahrens (Benchmark)
    • Auswahl von Train / Test / Validierungsdatensatz, falls angemessen.
    • Gegenüberstellung der grundlegenden Merkmale/Eigenschaften der Verfahren.
    • Plausibilitätsprüfung der Analyseergebnisse,
    • Performance-Tests (benötigte Hardware, Verarbeitungsgeschwindigkeit, …)
    • Umfangreiche Dokumentation des Vorgehens und der Evaluationsergebnisse.

Als Ergebnis der vorangegangenen Schritte entsteht das Analyseergebnis.