Definition: Kosinus-Ähnlichkeit von Dokumenten unter Verwendung der inversen Dokumentenhäufigkeit (IDF)

Seien und zwei Textdokumente.

Die Ähnlichkeit von und können wir mittels Kosinus-Ähnlichkeit unter Verwendung der inversen Dokumentenhäufigkeit berechnen durch:

wobei die jeweiligen Bag-of-Words-Vektoren der Dokumente seien, bei denen jeder Eintrag mit dem entsprechenden -Wert multipliziert wurde.

Kommt bspw. der Wert Hiermit zweimal in dem Dokument vor und ist so hat Hiermit in den Wert .