Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EDSReferenz
: @beecks2024 (LE4, Anwendungen von Ähnlichkeitsmodellen)
⠀
Definition: Bag-of-Words Modell
Als Bag-of-Words Modell bezeichnen wir ein Vektorraum-Retrieval-Modell für die Analyse von Texten. Bei dem Modell werden Texte/Dokumente als ungeordnete Sammlung von Wörtern (oder Tokens) betrachtet. Grammatik oder Wortreihenfolge werden nicht berücksichtigt.
Seien
Textdokumente gegeben. Die Terme
des Modells erhalten wir, indem wir alle in den Textdokumenten erhaltenen Wörter (mit Ausnahme der Stoppwörter) per Stemming oder Lemmatisierung auf ihren Wortstamm reduzieren. Die Gewichte der Terme werden mithilfe des TF-IDF-Maßes bestimmt.
Die Ähnlichkeitsfunktion zwischen einer Query
und einem Dokument ist gegeben durch