Generalisierungen:Involvierte Definitionen:Veranstaltung: IRReferenz: @wagenpfeil2024 (KE2, p. 8 ff.)
⠀
Definition: Porter-Stemmer
Als Porter-Stemmer bezeichnen wir einen Stemming-Algorithmus, der Tokens über 5 Phasen hinweg verarbeitet und sukzessive verkürzt. Jede Phase besteht dabei aus einer Gruppe von Regel der Form
<Suffix> -> <angepasster Suffix>- wobei pro Phase stets nur die erste passende Regel angewendet werden darf.
- Das Ziel der ersten Phase kann es dabei bspw. sein, Plural- und Vergangenheitsformen zu normalisieren.
- Das Ziel der zweiten Phase könnte sein, doppelte Suffixe zu eliminieren,
- usw.
Seien bspw. die folgenden Regeln für die erste Phase gegeben:
SSES -> SSIES -> ISS -> SSS ->So würden wir die folgenden Ergebnisse erhalten:
CARESSES -> CARESSCARES -> CAREPONIES -> PONI