Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 3.2.2)
⠀
Definition: Single-Link-Clustering
Sei
ein Datensatz. Als Single-Link-Clustering definieren wir ein agglomeratives Verfahren
mit Distanzfunktion: Die durch Single-Link-Clustering erzeugten Cluster sind in der Regel “langgezogen”, wie das folgende quantitative Dendrogramm zeigt:
Anmerkung
Anfälligkeit ggü. Skalierung
Wie die meisten distanzbasierten Verfahren ist auch das Single-Link-Clustering anfällig gegenüber der Skalierung von Merkmalen.
Es bietet sich also eine z-Transformation an.
Single-Link-Clustering mit scikit-learn
In Python erhalten wir ein Single-Link-Clustering mit
durch: Dabei gibt
an, wie viele Cluster in der Variable cluster
enthalten sein sollen. Betrachtet man ein quantitatives Dendrogramm, so gibtsozusagen die “Ebene” an, aus der die Cluster gewählt werden.