Definition: Termbasierte invertierte Indexpartitionierung mit MapReduce

Als termbasierte invertierte Indexpartitionierung mit MapReduce bezeichnen wir ein Verfahren zur Indexierung sehr großer Dokumentbestände.

In der Map-Phase übernimmt ein Jobtracker die Aufteilung der Eingabedaten und verteilt diese an eine Menge von Parsern. Jeder Parser liest sukzessive Teile eines Dokuments ein und erzeugt (term, docID)-Paare.

Diese Paare werden anschließend auf Partitionen verteilt, wobei jede Partition für einen bestimmten Term- bzw. Buchstabenbereich zuständig ist (z. B. a-f, g-p, q-z).

In der Reduce-Phase werden sogenannte Inverter eingesetzt. Jeder Inverter sammelt alle (term, docID)-Paare einer Partition, sortiert sie nach Termen und fasst sie zu Postingslisten zusammen, die schließlich als Teil eines invertierten Indexes gespeichert werden.