Definition: P-Norm-Modell

Als P-Norm-Modell bezeichnen wir eine Variante des erweiterten booleschen Modells, bei der zur Score-Berechnung die -Norm genutzt werden.

Seien die Terme und das Gewicht des Terms im Dokument . Sei die Menge der Indizes der in einer Query vorkommenden Terme. Für gilt also .

Für eine einfache ODER-Query

ergibt sich der Score als normalisierte -Norm des Teilvektors , also (bis auf die Normierung) als -Distanz zum Ursprung :

Für eine einfache UND-Query

ergibt sich der Score als normalisierte -Norm des Teilvektors , also (bis auf die Normierung) als -Distanz zu dem Punkt :

Die Subtraktion sorgt dafür, dass der Score umso größer ist, je näher der Gewichtsvektor an dem Punkt liegt.

Anmerkung

Auswirkungen verschiedener -Werte (Salton et al. Table 3)

Das P-Norm-Modell interpoliert - abhängig von der Wahl von - zwischen weichen und harten Retrieval-Interpretationen:

  • : Sehr weiche, kompensatorische Aggregation; AND- und OR-Verknüpfungen unterscheiden sich semantisch kaum noch.
    Dieses Verhalten entspricht dem klassischen Vektorraummodell, bei dem Terme weitgehend unabhängig kombiniert werden.

  • : Der Score entspricht (bis auf die Normierung) der euklidischen Norm des Termgewichtsvektors.
    Große Termausprägungen werden stärker betont.

  • : Das Modell nähert sich einem klassisch booleschen Verhalten an: AND wirkt wie ein MIN-Operator, OR wie ein MAX-Operator.
    Komponenten können nicht mehr kompensieren; die Verknüpfung wird strikt.