Definition: Stemming

Als Stemming bezeichnen wir Verfahren, die Wortformen mithilfe einfacher heuristischer Regeln auf einen gemeinsamen Wortstamm zurückführen - oft durch das Abschneiden der Wort-Endung (Suffix). Dabei können auch ungültige Wörter entstehen.

Bspw. Wortes -> Wort oder looks -> look, aber auch universities -> univers

Over-/understemming

Stemming-Verfahren können insgesamt entweder zu Overstemming oder Understemming tendieren.

  • Als Overstemming bezeichnen wir den Fall, dass zwei Token mit unterschiedlichem Wortstamm auf denselben Stamm abgebildet werden.
  • Als Understemming bezeichnen wir den Fall, dass zwei Token mit ähnlichem Stamm nicht auf denselben Stamm abgebildet werden.