Eigenschaften
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 3.1.3)
⠀
Definition: K-Means++
Als K-Means++ bezeichnen wir einen Algorithmus zur Auswahl der initialen Zentroiden des K-Means-Clustering-Algorithmus.
Das Vorgehen ist wie folgt:
- Wähle zufällig gleichverteilt einen ersten Zentroiden aus.
- Wähle den nächsten Zentroiden zufällig auf Basis der Entfernung der möglichen Kandidaten zu den bereits ausgewählten Zentroiden aus.
- Weiter mit 2, bis alle
Zentroiden initial gewählt wurden. Formal aufgeschrieben:
Algorithmus: K-Means++ Algorithmus
Eingabe: Datensatz
, Clusteranzahl
Ausgabe:initiale Zentroiden
Wähle zufällig gleichverteilt
fordo
für .
Wähle zufällig mit Wahrscheinlichkeit
return
Anmerkung
K-Means++ Clustering mit scikit-learn
In Python erhalten wir ein K-Means-Clustering mit Lloyds-Algorithmus, K-Means++ Clusterinitialisierung und
durch: