Generalisierungen:Involvierte Definitionen:Veranstaltung: IRReferenz:- @wagenpfeil2024 (KE3, p. 17 f.)
- @manning2009 (p. 179 ff.)
⠀
Definition: Rocchio-Verfahren
Als Rocchio-Verfahren (auch Rocchio-Algorithmus) bezeichnen wir ein Vektorraum-Modell, das zur Verbesserung der Suchanfrage auf Explicit-Relevance-Feedback zurückgreift.
Dabei werden relevante und nicht-relevante Dokumente als distinkte Mengen aufgefasst. In diesem Sinne wird der Query-Vektor so modifiziert, dass er eine maximale Ähnlichkeit mit den relevanten und eine minimale Ähnlichkeit mit den nicht-relevanten Dokumenten hat.
Konkret erhalten wir die optimale Query
durch wobei
die initiale Query ist, die Menge der relevanten Dokument-Vektoren ist, die Menge der nicht-relevanten Dokument-Vektoren ist, - der Vektor
auf das Zentrum der relevanten Dokumente zeigt, - der Vektor
auf das Zentrum der nicht-relevanten Dokumente zeigt, sind Hyperparameter, die zwischen den drei Vektoren (initiale Query, Zentrum der relevanten und Zentrum der nicht-relevanten Dokumente) abwägen. Die folgende Abbildung zeigt, wie die initiale Query näher in das Zentrum der relevanten Dokumente gerückt wird:
Footnotes
-
fig. 9.4 in @manning2009 (p. 182) ↩
