Generalisierungen:Involvierte Definitionen:Veranstaltung: IRReferenz:- @wagenpfeil2024 (KE3. p. 10 ff.)
- Extended Boolean Information Retrieval - Salton et al.
⠀
Definition: P-Norm-Modell
Als P-Norm-Modell bezeichnen wir eine Variante des erweiterten booleschen Modells, bei der zur Score-Berechnung die
-Norm genutzt werden. Seien
die Terme und das Gewicht des Terms im Dokument . Sei die Menge der Indizes der in einer Query vorkommenden Terme. Für gilt also . Für eine einfache
ODER-Queryergibt sich der Score als normalisierte
-Norm des Teilvektors , also (bis auf die Normierung) als -Distanz zum Ursprung : Für eine einfache
UND-Queryergibt sich der Score als normalisierte
-Norm des Teilvektors , also (bis auf die Normierung) als -Distanz zu dem Punkt : Die Subtraktion
sorgt dafür, dass der Score umso größer ist, je näher der Gewichtsvektor an dem Punkt liegt.
Anmerkung
Auswirkungen verschiedener
-Werte (Salton et al. Table 3)Das P-Norm-Modell interpoliert - abhängig von der Wahl von
- zwischen weichen und harten Retrieval-Interpretationen:
: Sehr weiche, kompensatorische Aggregation; AND- und OR-Verknüpfungen unterscheiden sich semantisch kaum noch.
Dieses Verhalten entspricht dem klassischen Vektorraummodell, bei dem Terme weitgehend unabhängig kombiniert werden.
: Der Score entspricht (bis auf die Normierung) der euklidischen Norm des Termgewichtsvektors.
Große Termausprägungen werden stärker betont.
: Das Modell nähert sich einem klassisch booleschen Verhalten an: AND wirkt wie ein MIN-Operator, OR wie ein MAX-Operator.
Komponenten können nicht mehr kompensieren; die Verknüpfung wird strikt.