Proposition: Zusammenbringen von Texteinheiten zur Indexierung

Bei der ersten Phase des Indexierungsprozesses, dem Zusammenbringen von Texteinheiten, müssen die folgenden Fragen geklärt werden:

  • Welche Dateien einer Dokumentkollektion sollen bearbeitet werden?
  • Interpretieren wir einzelne Dateien als ein Gesamtdokument oder selbst auch als eine Sammlung von Dokumenten?
  • In welcher Kodierung (UTF-8, ASCII, etc.) liegen die Dokumente vor?
  • Welche Sprache (bspw. Englisch, Deutsch, etc.) haben die Dokumente?
  • Welche Inhalte sollen indexiert werden? (Sollen bspw. Steuerungszeichen wie HTML-Tags ausgeschlossen werden?)