Generalisierungen:Involvierte Definitionen:Veranstaltung: IRReferenz: @wagenpfeil2024 (KE5, p. 24)
⠀
Definition: Termbasierte invertierte Indexpartitionierung mit MapReduce
Als termbasierte invertierte Indexpartitionierung mit MapReduce bezeichnen wir ein Verfahren zur Indexierung sehr großer Dokumentbestände.
In der Map-Phase übernimmt ein Jobtracker die Aufteilung der Eingabedaten und verteilt diese an eine Menge von Parsern. Jeder Parser liest sukzessive Teile eines Dokuments ein und erzeugt
(term, docID)-Paare.Diese Paare werden anschließend auf
Partitionen verteilt, wobei jede Partition für einen bestimmten Term- bzw. Buchstabenbereich zuständig ist (z. B. a-f,g-p,q-z).In der Reduce-Phase werden sogenannte Inverter eingesetzt. Jeder Inverter sammelt alle
(term, docID)-Paare einer Partition, sortiert sie nach Termen und fasst sie zu Postingslisten zusammen, die schließlich als Teil eines invertierten Indexes gespeichert werden.
