Definition: Bag-of-Visual-Words Modell

Als Bag-of-Visual-Words Modell bezeichnen wir ein Vektorraum-Retrieval-Modell für die Analyse von Bildern. Bei dem Modell werden Bilder als Sammlung “visueller Wörter” betrachtet.

Mithilfe eines Keypoint-Verfahrens (bspw. SIFT) werden für jedes Bild zunächst Merkmalsdeskriptoren berechnet.

Diese Merkmalsdeskriptoren haben einerseits eine räumliche Verortung innerhalb des Bildes (die Keypoints) und andererseits einen Beschreibungsvektor (den wir bei diesem Verfahren jedoch nicht nutzen).

Anschließend nutzen wir einen Clusteringalgorithmus, um die extrahierten Keypoints mit Zentroiden bildübergreifend zu clustern.

Die Zentroiden dieses Clusterings bilden jetzt die visuellen Wörter.

Jedes Bild kann nun als Feature Histogramm repräsentiert werden, indem für jedes visuelle Wort die Anzahl der Keypoints bestimmt wird, die ebendiesem visuellen Wort am nächsten sind. Wir erhalten für das Bild also einen BoVW-Vektor

wobei die Anzahl der Keypoints von sei, die dem -ten visuellen Wort zugeordnet werden.

Zusätzlich können die visuellen Wörter noch nach dem TF-IDF-Maß gewichtet werden.

Die Ähnlichkeit zwischen zwei Bildern und berechnen wir schließlich durch die Kosinus-Ähnlichkeit ihrer BoVW-Vektoren: