Generalisierungen:Involvierte Definitionen:Veranstaltung: IRReferenz: @wagenpfeil2024 (KE4, p. 13)
⠀
Definition: Normalized-Discounted-Cumulated-Gain
Als Normalized-Discounted-Cumulated-Gain (kurz NDCG) bezeichnen wir ein Maß für die Güte eines Retrieval-Prozesses, bei dem die Rangfolge der Suchergebnisse berücksichtigt wird. Die Normalisierung vereinfacht die Interpretation, weil es den Wertebereich auf
beschränkt. Wir erhalten NDCG@p - also das NDCG zu dem
-ten Rang - durch Das ideale DCG (kurz IDCG) erhalten wir, indem wir die Dokumente zunächst anhand ihres
-Scores sortieren und das anschließend auf Basis dieser Sortierung berechnen.
Definition: Discounted-Cumulated-Gain
Als Discounted-Cumulated-Gain (kurz DCG) bezeichnen wir ein Maß für die Güte eines Retrieval-Prozesses, bei dem die Rangfolge der Suchergebnisse berücksichtigt wird.
Wir erhalten DCG@p - also das DCG zu dem
-ten Rang - durch Dabei entspricht
der Relevanz des Dokuments auf dem -ten Rang. Die Relevanz wird bspw. durch den Nutzer oder durch ein Expertengremium bestimmt. Da die Unbeschränktheit des Wertebereichs die Interpretation des Maßes erschwert, wird stattdessen i.d.R. das normalisierte DCG (NDCG) berechnet, dessen Wertebereich auf
beschränkt ist.
Anmerkung
Beispiel: Berechnung von DCG und NDCG
Angenommen, ein Retrieval-Prozess erzeugt die folgende Sortierung
Ein Nutzer nimmt für die 10 Dokumente die folgende Relevanzbewertung vor:
Dann erhalten wir:
Rang 1 2 3 4 5 6 7 8 9 10 Dokument 3 2 3 0 0 1 2 2 3 0 DCG@p 3 5 6.89 6.89 6.89 7.28 7.99 8.66 9.61 9.61 Um den IDCG bilden zu können, müssen wir die Rangfolge auf Basis der zuvor festgelegten Relevanz korrigieren:
Rang 1 2 3 4 5 6 7 8 9 10 Dokument 3 3 3 2 2 2 1 0 0 0 IDCG@p 3 6 7.89 8.89 9.75 10.52 10.88 10.88 10.88 10.88 Hieraus können wir nun abschließend den NDCG@p berechnen:
Rang 1 2 3 4 5 6 7 8 9 10 DCG@p 3 5 6.89 6.89 6.89 7.28 7.99 8.66 9.61 9.61 IDCG@p 3 6 7.89 8.89 9.75 10.52 10.88 10.88 10.88 10.88 NDCG@p 1 0.83 0.87 0.76 0.71 0.69 0.73 0.8 0.88 0.88