Generalisierungen:
- Erweitertes Boolesches Modell
- Best-Match-Modell
Involvierte Definitionen:
- Erweitertes Boolesches Modell
- p-Norm / p-Distanz
Veranstaltung: IR
Referenz:
- @wagenpfeil2024 (KE3. p. 10 ff.)
- Extended Boolean Information Retrieval - Salton et al.

⠀

Definition: P-Norm-Modell

Als P-Norm-Modell bezeichnen wir eine Variante des erweiterten booleschen Modells, bei der zur Score-Berechnung die -Norm genutzt werden.

Seien die Terme und das Gewicht des Terms im Dokument . Sei die Menge der Indizes der in einer Query vorkommenden Terme. Für gilt also .

Für eine einfache ODER-Query

ergibt sich der Score als normalisierte -Norm des Teilvektors , also (bis auf die Normierung) als -Distanz zum Ursprung :

Für eine einfache UND-Query

ergibt sich der Score als normalisierte -Norm des Teilvektors , also (bis auf die Normierung) als -Distanz zu dem Punkt :

Die Subtraktion sorgt dafür, dass der Score umso größer ist, je näher der Gewichtsvektor an dem Punkt liegt.

Anmerkung

Auswirkungen verschiedener -Werte (Salton et al. Table 3)

Das P-Norm-Modell interpoliert - abhängig von der Wahl von - zwischen weichen und harten Retrieval-Interpretationen:

: Sehr weiche, kompensatorische Aggregation; AND- und OR-Verknüpfungen unterscheiden sich semantisch kaum noch.
Dieses Verhalten entspricht dem klassischen Vektorraummodell, bei dem Terme weitgehend unabhängig kombiniert werden.

: Der Score entspricht (bis auf die Normierung) der euklidischen Norm des Termgewichtsvektors.
Große Termausprägungen werden stärker betont.

: Das Modell nähert sich einem klassisch booleschen Verhalten an: AND wirkt wie ein MIN-Operator, OR wie ein MAX-Operator.
Komponenten können nicht mehr kompensieren; die Verknüpfung wird strikt.

/vault

Definition - P-Norm-Modell

⠀

Anmerkung

Graph View

Mentioned in