Konstrukte:Generalisierungen:Involvierte Definitionen:- Term (Tokenization)
- Retrieval Status Value
- Chance (Odds)
- Chancenverhältnis (Odds Ratio)
Veranstaltung: IRReferenz:
⠀
Definition: F4
Als F4 bezeichnen wir ein probabilistisches Rankingverfahren zur Query-Optimierung. Es basiert auf der relevance weighting theory bzw. dem Binary Independence Model (BIM), das Terme nach ihrer Fähigkeit bewertet, relevante von nicht-relevanten Dokumenten zu unterscheiden.
Dabei tendiert das F4-Verfahren dazu, Termen ein hohes Ranking zu geben, wenn sie
- selten der gesamten Kollektion vorkommen (niedriges
) oder - selten in den relevanten Dokumente vorkommen (niedriges
). Dadurch bevorzugt F4 genau jene Terme, die nach dem Probability Ranking Principle hohe Diskriminationskraft besitzen.
Den Relevanzwert eines Terms
aus einer Query erhalten wir auf Basis von F4 durch: wobei
die Anzahl der Dokumente in der Kollektion sei, die Anzahl relevanter Dokumente, die Anzahl der Dokumente, die den Term enthalten, die Anzahl der relevanten Dokumente, die den Term enthalten.
Anmerkung
Die 0.5-Variante von F4
Als 0.5-Variante des F4-Verfahrens bezeichnen wir eine Variante des F4-Verfahrens, bei der die Gleichung durch hinzuaddieren von
stabilisiert wird:
Herleitung
Intuitiv wird beim F4-Verfahren die Chance eines Dokuments relevant zu sein durch die Chance des Dokuments nicht-relevant zu sein zu einander ins Verhältnis gesetzt.
Dabei gilt:
- Relevanz-Chance
:
- (Anzahl relevanter Dokumente, die t enthalten) geteilt durch (relevante Dokumente, die t nicht enthalten)
- Nicht-Relevance-Chance
:
- (Anzahl nicht-relevanter Dokumente, die t enthalten) geteilt durch (Anzahl nicht-relevanter Dokumente, die t nicht enthalten)