Konstrukte
:Involvierte Definitionen
:Veranstaltung
: EDSReferenz
: @beecks2024 (LE4, Anwendungen von Ähnlichkeitsmodellen)
⠀
Definition: TF-IDF-Maß
Als Term Frequency-Inverse Document Frequency-Maß (kurz TF-IDF-Maß) bezeichnen wir eine Methode zur Gewichtung eines Wortes in einem Dokument relativ zu einer Sammlung von Dokumenten.
Das TF-IDF-Maß kombiniert die Werte:
Term Frequency (TF): Die Häufigkeit eines Begriffs in einem Dokument, die angibt, wie oft ein Wort in einem einzelnen Dokument
vorkommt. Inverse Document Frequency (IDF): Ein Maß dafür, wie selten Dokumente, die einen bestimmten Begriff enthalten, innerhalb eines Korpus
sind. Es wird berechnet, indem die Gesamtanzahl der Dokumente durch die Anzahl der Dokumente, die den Begriff enthalten, dividiert und anschließend der Logarithmus des Ergebnisses genommen wird: Das TF-IDF-Maß erhalten wir schließlich durch