Definition: Single-Link-Clustering

Sei ein Datensatz.

Als Single-Link-Clustering definieren wir ein agglomeratives Verfahren mit Distanzfunktion:

Die durch Single-Link-Clustering erzeugten Cluster sind in der Regel “langgezogen”, wie das folgende quantitative Dendrogramm zeigt:

Anmerkung

Anfälligkeit ggü. Skalierung

Wie die meisten distanzbasierten Verfahren ist auch das Single-Link-Clustering anfällig gegenüber der Skalierung von Merkmalen.

Es bietet sich also eine z-Transformation an.

Single-Link-Clustering mit scikit-learn

In Python erhalten wir ein Single-Link-Clustering mit durch:

E = ((12,7),(10,8),(10,7.5),(15,5),(16,9),(18,8))
 
from sklearn.cluster import AgglomerativeClustering
 
cluster = AgglomerativeClustering(n_clusters=3, linkage="single").fit_predict(E)
 
print(cluster)

Dabei gibt an, wie viele Cluster in der Variable cluster enthalten sein sollen. Betrachtet man ein quantitatives Dendrogramm, so gibt sozusagen die “Ebene” an, aus der die Cluster gewählt werden.