Definition: Cut-Offs im Zusammenhang mit TF-IDF

Beim Einsatz von Cut-Offs beim Aufbau eines invertierten Indexes wird die Menge der Terme eingeschränkt, um nur die für die Indexierung signifikanten Wörter zu behalten.

Dabei werden Terme ausgeschlossen,

  • die zu selten in der Kollektion vorkommen (unterhalb des Lower Cut-Off), da sie keine statistisch verlässliche Relevanz besitzen, und
  • gegebenenfalls solche, die zu häufig vorkommen (oberhalb des Upper Cut-Off), da sie kaum Diskriminierungskraft besitzen.

Diese Idee geht auf das Gesetz von Zipf und die Hypothese von Luhn zurück, wobei die rank order dabei der Häufigkeitsrang des Wortes im Korpus ist: im Englischen ist in der Regel the das häufigste Wort und damit auf Rang 1.

Das TF-IDF-Verfahren setzt dieselbe Logik mathematisch um:

  • häufige Terme erhalten durch einen niedrigen IDF ein geringes Gewicht,
  • extrem seltene Terme tragen durch ihren geringen TF kaum bei.