Beispiele:Involvierte Definitionen:- Term (Tokenization)
- siehe auch Lemmatisierung
Veranstaltung: IRReferenz: @wagenpfeil2024 (KE2, p. 8 ff.)
⠀
Definition: Stemming
Als Stemming bezeichnen wir Verfahren, die Wortformen mithilfe einfacher heuristischer Regeln auf einen gemeinsamen Wortstamm zurückführen - oft durch das Abschneiden der Wort-Endung (Suffix). Dabei können auch ungültige Wörter entstehen.
Bspw.
Wortes -> Wortoderlooks -> look, aber auchuniversities -> univers
Over-/understemming
Stemming-Verfahren können insgesamt entweder zu Overstemming oder Understemming tendieren.
- Als Overstemming bezeichnen wir den Fall, dass zwei Token mit unterschiedlichem Wortstamm auf denselben Stamm abgebildet werden.
- Als Understemming bezeichnen wir den Fall, dass zwei Token mit ähnlichem Stamm nicht auf denselben Stamm abgebildet werden.