Definition: Bag-of-Words Modell

Als Bag-of-Words Modell bezeichnen wir ein Vektorraum-Retrieval-Modell für die Analyse von Texten. Bei dem Modell werden Texte/Dokumente als ungeordnete Sammlung von Wörtern (oder Tokens) betrachtet. Grammatik oder Wortreihenfolge werden nicht berücksichtigt.

  • Seien Textdokumente gegeben.
  • Die Terme des Modells erhalten wir, indem wir alle in den Textdokumenten erhaltenen Wörter (mit Ausnahme der Stoppwörter) per Stemming oder Lemmatisierung auf ihren Wortstamm reduzieren.
  • Die Gewichte der Terme werden mithilfe des TF-IDF-Maßes bestimmt.