Definition: Normalized-Discounted-Cumulated-Gain

Als Normalized-Discounted-Cumulated-Gain (kurz NDCG) bezeichnen wir ein Maß für die Güte eines Retrieval-Prozesses, bei dem die Rangfolge der Suchergebnisse berücksichtigt wird. Die Normalisierung vereinfacht die Interpretation, weil es den Wertebereich auf beschränkt.

Wir erhalten NDCG@p - also das NDCG zu dem -ten Rang - durch

Das ideale DCG (kurz IDCG) erhalten wir, indem wir die Dokumente zunächst anhand ihres -Scores sortieren und das anschließend auf Basis dieser Sortierung berechnen.

Definition: Discounted-Cumulated-Gain

Als Discounted-Cumulated-Gain (kurz DCG) bezeichnen wir ein Maß für die Güte eines Retrieval-Prozesses, bei dem die Rangfolge der Suchergebnisse berücksichtigt wird.

Wir erhalten DCG@p - also das DCG zu dem -ten Rang - durch

Dabei entspricht der Relevanz des Dokuments auf dem -ten Rang. Die Relevanz wird bspw. durch den Nutzer oder durch ein Expertengremium bestimmt.

Da die Unbeschränktheit des Wertebereichs die Interpretation des Maßes erschwert, wird stattdessen i.d.R. das normalisierte DCG (NDCG) berechnet, dessen Wertebereich auf beschränkt ist.

Anmerkung

Beispiel: Berechnung von DCG und NDCG

Angenommen, ein Retrieval-Prozess erzeugt die folgende Sortierung

Ein Nutzer nimmt für die 10 Dokumente die folgende Relevanzbewertung vor:

Dann erhalten wir:

Rang12345678910
Dokument
3230012230
DCG@p356.896.896.897.287.998.669.619.61

Um den IDCG bilden zu können, müssen wir die Rangfolge auf Basis der zuvor festgelegten Relevanz korrigieren:

Rang12345678910
Dokument
3332221000
IDCG@p367.898.899.7510.5210.8810.8810.8810.88

Hieraus können wir nun abschließend den NDCG@p berechnen:

Rang12345678910
DCG@p356.896.896.897.287.998.669.619.61
IDCG@p367.898.899.7510.5210.8810.8810.8810.88
NDCG@p10.830.870.760.710.690.730.80.880.88