Definition: CRISP-DM

Als Cross Industry Standard Process for Data Mining (kurz CRISP-DM) bezeichnen wir das folgende Vorgehensmodell:

  • Business Understanding
    • Gemeinsames Verständnis der Projektziele und Anforderungen
    • Zusammenstellen von Hintergrundinformationen,
    • Definition von Erfolgskriterien,
    • Art der benötigten Analysen,
    • Einschätzung des Status Quo:
      • Verfügbare Ressourcen und Limitierungen,
      • Voraussetzungen für das Projekt,
      • Risikoplanung und Risikobehandlung,
      • Schätzung von Kosten und Nutzen
  • Data Understanding
    • Datenerhebung,
    • Zusammenfassen der Daten,
    • Verständnis der Datenquellen,
    • Bewertung der Datenqualität,
    • Explorative Datenanalyse,
  • Data Preparation
    • Erstellung des finalen Datensatzes,
    • Datenselektion und Augmentation,
    • Datenaufbereitung
    • Feature-Auswahl / Vorverarbeitung,
    • Dokumentation der getroffenen Entscheidungen
  • Modelling
    • Modelltyp auswählen,
    • Begründungen für die Auswahl dokumentieren,
    • Testdesign / Evaluierungsmethodik wählen,
    • Modell erstellen und Parameter optimieren,
    • Modellqualität messen und Modell evtl. anpassen,
  • Evaluation
    • Modellevaluation mit Fokus auf die Projektziele und Erfolgskriterien,
    • Eventuell bisherige Prozessschritte überdenken und anpassen,
  • Deployment
    • Wieder- und Weiterverwendung der Erkenntnisse, bspw.
      • Bericht / Paper
      • Erstellung einer Softwarelösung