Definition: Indexierung

Als Indexierung bezeichnen wir Verfahren für die Überführung eines Textes in eine neue (in der Regel stark reduzierte) Repräsentation. Software, die dieses Verfahren implementiert, bezeichnen wir allgemeinhin als Indexierer.

Der Indexierungsprozess kann in vier sequenzielle Phasen untergliedert werden:

  • Phase 1: Sammlung - Zusammenbringen aller Objekte (Kollektion).
  • Phase 2: Tokenisierung - Zerlegung der Inhalte in unterscheidbare Einheiten.
  • Phase 3: Sprachliche Untersuchung - Erstellung einer normalisierten Darstellung auf Basis sprachlicher Analyse.
  • Phase 4: Erstellung eines invertierten Indexes