Definition: Term (Tokenization)

Als Term bezeichnen wir gewissermaßen normalisierte Tokens. Eine Strategie zur Normalisierung könnte bspw. das “kleinschreiben” des Wortes oder die Reduktion eines Wortes auf den Singular sein.

Bspw.

  • Romans roman
  • Friends friend