Konstrukte:Generalisierungen:Involvierte Definitionen:Veranstaltung: IRReferenz:- @wagenpfeil2024 (KE3, p. 13 f.)
- @croft2010 (p. 244 - 249)
⠀
Definition: Binary Independence Model
Als Binary Independence Model (kurz BIM) bezeichnen wir ein naives Probabilistisches-Retrieval-Modell. Auch wenn das Modell selber zu relativ schlechten Ergebnissen führt, dient es als Grundlage für das deutlich bessere BM25 Modell.
Den Score eines Dokumentes
für eine Query erhalten wir durch wobei:
bedeutet, dass der -te Term sowohl in dem Dokument als auch in der Query vorhanden ist. ist die Anzahl relevanter Dokumente, die den -ten Term enthalten, ist die Anzahl aller Dokumente, die den -ten Term enthalten, ist die Anzahl relevanter Dokumente für die Query , ist die Anzahl aller Dokumente.
Haben wir keine Relevanzinformationen
und vorliegen (was der Regelfall ist), setzen wir und . Die Formel für den Score eines Dokumentes
für eine Query vereinfacht sich dann zu Wobei wir die nun überflüssigen
wieder gestrichen haben. Sie wurden bei der Herleitung nur eingeführt, um Division durch zu vermeiden. Interessanterweise ähnelt dieser Ausdruck stark der Document Frequency, die wir aus dem IDF-Maß kennen.