Definition: Inzidenzmatrix zur Indexierung

Als Inzidenzmatrix zur Indexierung bezeichnen wir eine Matrix, in der für eine Menge von Tokens und Dokumenten festgehalten wird, ob Token in Dokument enthalten ist.

Der Nachteil dieser Darstellungsform ist, dass die Matrix gerade bei großen Datensätzen dünnbesetzt ist (vielen -Einträge enthält), weil viele der enthaltenen Wörter nur selten Vorkommen.