Definition: Bag-of-Words Modell

Als Bag-of-Words Modell bezeichnen wir ein Vektorraum-Retrieval-Modell für die Analyse von Texten. Bei dem Modell werden Texte/Dokumente als ungeordnete Sammlung von Wörtern (oder Tokens) betrachtet. Grammatik oder Wortreihenfolge werden nicht berücksichtigt.

  • Seien Textdokumente gegeben.

  • Die Terme des Modells erhalten wir, indem wir alle in den Textdokumenten erhaltenen Wörter (mit Ausnahme der Stoppwörter) per Stemming oder Lemmatisierung auf ihren Wortstamm reduzieren.

  • Die Gewichte der Terme werden mithilfe des TF-IDF-Maßes bestimmt.

  • Die Ähnlichkeitsfunktion zwischen einer Query und einem Dokument ist gegeben durch