Involvierte Definitionen:Veranstaltung: IRReferenz:
⠀
Definition: Cut-Offs im Zusammenhang mit TF-IDF
Beim Einsatz von Cut-Offs beim Aufbau eines invertierten Indexes wird die Menge der Terme eingeschränkt, um nur die für die Indexierung signifikanten Wörter zu behalten.
Dabei werden Terme ausgeschlossen,
- die zu selten in der Kollektion vorkommen (unterhalb des Lower Cut-Off), da sie keine statistisch verlässliche Relevanz besitzen, und
- gegebenenfalls solche, die zu häufig vorkommen (oberhalb des Upper Cut-Off), da sie kaum Diskriminierungskraft besitzen.
Diese Idee geht auf das Gesetz von Zipf und die Hypothese von Luhn zurück, wobei die rank order dabei der Häufigkeitsrang des Wortes im Korpus ist: im Englischen ist in der Regel
thedas häufigste Wort und damit auf Rang 1.Das TF-IDF-Verfahren setzt dieselbe Logik mathematisch um:
- häufige Terme erhalten durch einen niedrigen IDF ein geringes Gewicht,
- extrem seltene Terme tragen durch ihren geringen TF kaum bei.
