Definition: Vektorraum-Retrieval Modell

Als Vektorraum-Modell (auch Vektorraum-Retrievel Modell) bezeichnen wir ein Best-Match-Modell, bei dem Dokumente (bspw. Tags zu Bildern oder auch Textdokumente) und Queries zu diesen Dokumenten als Vektoren dargestellt werden.

Die Relevanz eines Dokumentes zu einer Query wird anhand einer Ähnlichkeitsfunktion zwischen Query und Dokument berechnet (bspw. Kosinus-Ähnlichkeit).

Konkret besteht ein Vektorraum-Modell aus

  • einer Menge von Dokumenten .
  • einer Menge von Termen (bspw. Tags) , die die Dokumente beschreiben.

Jedes Dokument wird durch einen Termvektor beschrieben, wobei die Gewichtung des Terms sei.

Im einfachsten Fall kann dabei jedem Term eine Dimension zugewiesen werden - in kann die Position von dann bspw. als gekennzeichnet sein, wenn der Term in dem Dokument () vorhanden ist und sonst.

Abfragen werden nun ebenfalls als Vektor modelliert.

Die Relevanz von für die Query erhalten wir schließlich durch eine Ähnlichkeitsfunktion .

Anmerkung

Beispiel: Beispiel für Bild-Tags

Sei ein Bilddatensatz mit den Termen gegeben durch

mit Termvektoren

Sei eine Query gegeben durch

Als Ergebnis erhalten wir dann