Proposition: Bestimmung der Clusterzahl mittels Elbow Methode

Sei ein Datensatz.
Seien Zentroiden von Clustern.
Sei eine Funktion, die jedem Datenpunkt einen Zentroiden zuweist.

Als Ellenbogenmethode (en. elbow method) bezeichnen wir eine naive Methode zur Bestimmung der optimalen Clusterzahl eines Datensatzes.

Wir bestimmen zunächst das Trägheitsmaß für verschiedene Clusterzahlen . Anschließend plotten wir die Werte als Kurve.

Als optimale Clusteranzahl wählen wir dann dasjenige , bei dem der Plot am stärksten “abknickt”.

Dieser Knick entsteht dadurch, dass “noch höhere” Clusterzahlen nicht mehr viele zusätzliche Informationen gegenüber dem “Knickpunkt” enthalten.

Ein noch höherer Wert für führt also nicht mehr zu einer weiteren signifikanten Verringerung des Trägheitsmaßes.

Anmerkung

Problematik der Elbow Methode

In der Praxis sind Elbow-Plots sehr uneindeutig. Eine Linie anzulegen, wie in der folgenden Illustration, kann helfen:

Im Allgemeinen ist von der Elbow-Methode jedoch abzuraten.
Alternativ kann bspw. die Silhouettenmethode genutzt werden.