Definition: Average-Link-Clustering

Sei ein Datensatz.

Als Average-Link-Clustering definieren wir ein agglomeratives Verfahren mit Distanzfunktion:

Die durch Average-Link-Clustering erzeugten Cluster sind in der Regel “ausgeglichen”, wie das folgende quantitative Dendrogramm zeigt:

Anmerkung

Anfälligkeit ggü. Skalierung

Wie die meisten distanzbasierten Verfahren ist auch das Average-Link-Clustering anfällig gegenüber der Skalierung von Merkmalen.

Es bietet sich also eine z-Transformation an.

Average-Link-Clustering mit scikit-learn

In Python erhalten wir ein Average-Link-Clustering mit durch:

E = ((12,7),(10,8),(10,7.5),(15,5),(16,9),(18,8))
 
from sklearn.cluster import AgglomerativeClustering
 
cluster = AgglomerativeClustering(n_clusters=2, linkage="average").fit_predict(E)
 
print(cluster)

Dabei gibt an, wie viele Cluster in der Variable cluster enthalten sein sollen. Betrachtet man ein quantitatives Dendrogramm, so gibt sozusagen die “Ebene” an, aus der die Cluster gewählt werden.