Konstrukte
:Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EDSReferenz
: @beecks2024 (LE4, Anwendungen von Ähnlichkeitsmodellen)
⠀
Definition: Bag-of-Words Modell
Als Bag-of-Words Modell bezeichnen wir ein Vektorraum-Retrieval-Modell für die Analyse von Texten. Bei dem Modell werden Texte/Dokumente als ungeordnete Sammlung von Wörtern (oder Tokens) betrachtet. Grammatik oder Wortreihenfolge werden nicht berücksichtigt.
- Seien
Textdokumente gegeben. - Die Terme
des Modells erhalten wir, indem wir alle in den Textdokumenten erhaltenen Wörter (mit Ausnahme der Stoppwörter) per Stemming oder Lemmatisierung auf ihren Wortstamm reduzieren. - Die Gewichte der Terme werden mithilfe des TF-IDF-Maßes bestimmt.