Definition: Porter-Stemmer

Als Porter-Stemmer bezeichnen wir einen Stemming-Algorithmus, der Tokens über 5 Phasen hinweg verarbeitet und sukzessive verkürzt. Jede Phase besteht dabei aus einer Gruppe von Regel der Form <Suffix> -> <angepasster Suffix> - wobei pro Phase stets nur die erste passende Regel angewendet werden darf.

  • Das Ziel der ersten Phase kann es dabei bspw. sein, Plural- und Vergangenheitsformen zu normalisieren.
  • Das Ziel der zweiten Phase könnte sein, doppelte Suffixe zu eliminieren,
  • usw.

Seien bspw. die folgenden Regeln für die erste Phase gegeben:

  • SSES -> SS
  • IES -> I
  • SS -> SS
  • S ->

So würden wir die folgenden Ergebnisse erhalten:

  • CARESSES -> CARESS
  • CARES -> CARE
  • PONIES -> PONI