Typen
:Generalisierungen
:Involvierte Definitionen
:- Analyseverfahren
- Datenaufbereitung
- Datenvorverarbeitung
- Datenaugmentierung
- Validation-Split
- Parameteroptimierung, bspw. k-Cross-Validation
Veranstaltung
: EDSReferenz
: @beecks2024 (LE3, Cross Industry Standard Process for Data Mining)
⠀
Definition: CRISP-DM
Als Cross Industry Standard Process for Data Mining (kurz CRISP-DM) bezeichnen wir das folgende Vorgehensmodell:
- Business Understanding
- Gemeinsames Verständnis der Projektziele und Anforderungen
- Zusammenstellen von Hintergrundinformationen,
- Definition von Erfolgskriterien,
- Art der benötigten Analysen,
- Einschätzung des Status Quo:
- Verfügbare Ressourcen und Limitierungen,
- Voraussetzungen für das Projekt,
- Risikoplanung und Risikobehandlung,
- Schätzung von Kosten und Nutzen
- Data Understanding
- Datenerhebung,
- Zusammenfassen der Daten,
- Verständnis der Datenquellen,
- Bewertung der Datenqualität,
- Explorative Datenanalyse,
- Data Preparation
- Erstellung des finalen Datensatzes,
- Datenselektion und Augmentation,
- Datenaufbereitung
- Feature-Auswahl / Vorverarbeitung,
- Dokumentation der getroffenen Entscheidungen
- Modelling
- Modelltyp auswählen,
- Begründungen für die Auswahl dokumentieren,
- Testdesign / Evaluierungsmethodik wählen,
- Modell erstellen und Parameter optimieren,
- Modellqualität messen und Modell evtl. anpassen,
- Evaluation
- Modellevaluation mit Fokus auf die Projektziele und Erfolgskriterien,
- Eventuell bisherige Prozessschritte überdenken und anpassen,
- Deployment
- Wieder- und Weiterverwendung der Erkenntnisse, bspw.
- Bericht / Paper
- Erstellung einer Softwarelösung