Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 3.1.2)
⠀
Proposition: Bestimmung der Clusterzahl mittels Elbow Methode
Sei
ein Datensatz.
SeienZentroiden von Clustern.
Seieine Funktion, die jedem Datenpunkt einen Zentroiden zuweist. Als Ellenbogenmethode (en. elbow method) bezeichnen wir eine naive Methode zur Bestimmung der optimalen Clusterzahl eines Datensatzes.
Wir bestimmen zunächst das Trägheitsmaß für verschiedene Clusterzahlen
. Anschließend plotten wir die Werte als Kurve. Als optimale Clusteranzahl wählen wir dann dasjenige
, bei dem der Plot am stärksten “abknickt”. Dieser Knick entsteht dadurch, dass “noch höhere” Clusterzahlen nicht mehr viele zusätzliche Informationen gegenüber dem “Knickpunkt” enthalten.
Ein noch höherer Wert für
führt also nicht mehr zu einer weiteren signifikanten Verringerung des Trägheitsmaßes.
Anmerkung
Problematik der Elbow Methode
In der Praxis sind Elbow-Plots sehr uneindeutig. Eine Linie anzulegen, wie in der folgenden Illustration, kann helfen:
Im Allgemeinen ist von der Elbow-Methode jedoch abzuraten.
Alternativ kann bspw. die Silhouettenmethode genutzt werden.