Konstrukte:Generalisierungen:Involvierte Definitionen:Veranstaltung: IRReferenz: @wagenpfeil2024 (KE2, p. 8 f.)
⠀
Definition: N-Gramm-Stemming
Als N-Gramm-Stemming bezeichnen wir eine simple, sprachunabhängige, aber verhältnismäßig rechenintensive Stemming-Methode:
- Zunächst wird jeder Token in eine Menge von N-Grammen zerlegt (wobei typischerweise
gewählt wird: Information -> in nf fo or rm ma at ti io on).- Anschließend wird die Ähnlichkeit zwischen zwei Tokens berechnet (bspw. mit dem Dice-Koeffizienten).
- Liegt das Ähnlichkeitswert über einem festgelegten Schwellenwert (bspw.
), so wird angenommen, dass die Tokens den selben Wortstamm haben.