Definition: N-Gramm-Stemming

Als N-Gramm-Stemming bezeichnen wir eine simple, sprachunabhängige, aber verhältnismäßig rechenintensive Stemming-Methode:

  • Zunächst wird jeder Token in eine Menge von N-Grammen zerlegt (wobei typischerweise gewählt wird: Information -> in nf fo or rm ma at ti io on).
  • Anschließend wird die Ähnlichkeit zwischen zwei Tokens berechnet (bspw. mit dem Dice-Koeffizienten).
  • Liegt das Ähnlichkeitswert über einem festgelegten Schwellenwert (bspw. ), so wird angenommen, dass die Tokens den selben Wortstamm haben.