Definition: Rocchio-Verfahren

Als Rocchio-Verfahren (auch Rocchio-Algorithmus) bezeichnen wir ein Vektorraum-Modell, das zur Verbesserung der Suchanfrage auf Explicit-Relevance-Feedback zurückgreift.

Dabei werden relevante und nicht-relevante Dokumente als distinkte Mengen aufgefasst. In diesem Sinne wird der Query-Vektor so modifiziert, dass er eine maximale Ähnlichkeit mit den relevanten und eine minimale Ähnlichkeit mit den nicht-relevanten Dokumenten hat.

Konkret erhalten wir die optimale Query durch

wobei

  • die initiale Query ist,
  • die Menge der relevanten Dokument-Vektoren ist,
  • die Menge der nicht-relevanten Dokument-Vektoren ist,
  • der Vektor auf das Zentrum der relevanten Dokumente zeigt,
  • der Vektor auf das Zentrum der nicht-relevanten Dokumente zeigt,
  • sind Hyperparameter, die zwischen den drei Vektoren (initiale Query, Zentrum der relevanten und Zentrum der nicht-relevanten Dokumente) abwägen.

Die folgende Abbildung zeigt, wie die initiale Query näher in das Zentrum der relevanten Dokumente gerückt wird:

1

Footnotes

  1. fig. 9.4 in @manning2009 (p. 182)