Proposition: Fluch der Dimensionalität für Distanzmaße

Sei ein Datensatz mit .

Für bestimmte gleichmäßige Verteilungen (bspw. Gleichverteilung, Normalverteilung) besagt der Fluch der Dimensionalität für Distanzmaße, dass bei zunehmender Anzahl der Dimensionen der Unterschied zwischen

  • den kürzesten Distanzen (die zwei dichtesten Datenpunkte)
  • und den längsten Distanzen (die zwei entferntesten Datenpunkte)

immer kleiner wird, sodass alle Punkte im hochdimensionalen Raum ähnlich weit voneinander entfernt erscheinen.

Mathematisch also

für eine beliebige Metrik.

Der Fluch erschwert damit die Anwendung von Distanzmaßen zur Unterscheidung und Klassifizierung von Daten in solchen Räumen, da traditionelle distanzbasierte Verfahren an Aussagekraft verlieren.