Konstrukte/Folgerungen:Involvierte Definitionen:Veranstaltung: IRReferenz: @wagenpfeil2024 (KE2, p. 3 f.)
⠀
Proposition: Zusammenbringen von Texteinheiten zur Indexierung
Bei der ersten Phase des Indexierungsprozesses, dem Zusammenbringen von Texteinheiten, müssen die folgenden Fragen geklärt werden:
- Welche Dateien einer Dokumentkollektion sollen bearbeitet werden?
- Interpretieren wir einzelne Dateien als ein Gesamtdokument oder selbst auch als eine Sammlung von Dokumenten?
- In welcher Kodierung (
UTF-8,ASCII, etc.) liegen die Dokumente vor?- Welche Sprache (bspw. Englisch, Deutsch, etc.) haben die Dokumente?
- Welche Inhalte sollen indexiert werden? (Sollen bspw. Steuerungszeichen wie
HTML-Tagsausgeschlossen werden?)