Definition: TF-IDF-Maß

Als Term Frequency-Inverse Document Frequency-Maß (kurz TF-IDF-Maß) bezeichnen wir eine Methode zur Gewichtung eines Wortes in einem Dokument relativ zu einer Sammlung von Dokumenten.

Das TF-IDF-Maß kombiniert die Werte:

  1. Term Frequency (TF): Die Häufigkeit eines Begriffs in einem Dokument, die angibt, wie oft ein Wort in einem einzelnen Dokument vorkommt.

  2. Inverse Document Frequency (IDF): Ein Maß dafür, wie selten ein Begriff im gesamten Korpus ist. Es wird berechnet, indem die Gesamtanzahl der Dokumente durch die Anzahl der Dokumente, die den Begriff enthalten, dividiert und anschließend der Logarithmus des Ergebnisses genommen wird:

Das TF-IDF-Maß erhalten wir schließlich durch