Generalisierungen:Involvierte Definitionen:Veranstaltung: DMReferenz: @valdes2025 (p. 35 ff.)
⠀
Definition: Kosinus-Ähnlichkeit von Dokumenten unter Verwendung der inversen Dokumentenhäufigkeit (IDF)
Seien
und zwei Textdokumente. Die Ähnlichkeit von
und können wir mittels Kosinus-Ähnlichkeit unter Verwendung der inversen Dokumentenhäufigkeit berechnen durch: wobei
die jeweiligen Bag-of-Words-Vektoren der Dokumente seien, bei denen jeder Eintrag mit dem entsprechenden -Wert multipliziert wurde. Kommt bspw. der Wert
Hiermitzweimal in dem Dokumentvor und ist so hat Hiermitinden Wert .