Definition: BM25-Modell

Als BM25-Modell bezeichnen wir ein Probabilistisches-Retrieval-Modell. Es stellt eine Verallgemeinerung des BIM-Modells dar.

Den Score eines Dokumentes für eine Query erhalten wir durch

wobei:

  • bedeutet, dass der -te Term sowohl in dem Dokument als auch in der Query vorhanden ist.
  • ist die Anzahl relevanter Dokumente, die den -ten Term enthalten,
  • ist die Anzahl aller Dokumente, die den -ten Term enthalten,
  • ist die Anzahl relevanter Dokumente für die Query ,
  • ist die Anzahl aller Dokumente.

Neu im Vergleich zum BIM sind die Parameter:

  • : die Frequenz des -ten Terms in
  • : die Frequenz des -ten Terms in
  • : Hyperparameter, durch den die Komponente gewichtet wird (typisch: )
  • : Hyperparameter, durch den die Komponente gewichtet wird (typisch: )
  • : normalisiert über die Dokumentlänge mit , wobei:
    • ist die Anzahl Tokens in
    • ist die durchschnittliche Anzahl Tokens von Dokumenten in der Kollektion
    • ist ein Hyperparameter und reguliert die Stärke der Normalisierung.