Generalisierungen:Eigenschaften:Involvierte Definitionen:- siehe auch Inzidenzmatrix zur Indexierung
Veranstaltung: IRReferenz: @wagenpfeil2024 (p. 10 ff.)
⠀
Definition: Invertierter Index
Als invertierten Index bezeichnen wir eine Darstellungsform von Tokens, ihrer Frequenz und ihrem konkreten Auftreten in Dokumenten.
In seiner einfachsten Form lässt sich ein solcher invertierter Index durch zwei Spalten umsetzen:
Termunddoc ID. In dieser Form enthält er jedoch genau so viele Einträge, wie es Wörter in dem Datensatz gibt.Effizienter ist es, die Einträge zu gruppieren. So können wir neben der
doc IDauch gleich die Häufigkeit (freq) der Einträge abspeichern. Um spätere Suchabfragen zu optimieren, sortieren wir die Einträge zusätzlich alphanumerisch.Hier am folgenden Beispiel:
- Doc 1:
I did enact Julius Caesar: I was killed i’ the Capitol; Brutus killed me.- Doc 2:
So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious.
Term Posting list + freq ambitious [2,1] be [2,1] brutus [1,1] [2,1] capitol [1,1] caesar [1,1] [2,2] did [1,1] enact [1,1] hath [2,1] I [1,1] i’ [1,1] julius [2,1] killed [1,1] let [1,1] me [2,1] noble [1,1] 50 [2,1] the [1,1] [2,1] told [2,1] you [2,1] was [1,1] [2,1] with [2,1]