Definition: Nutzen einer Episode

Sei ein MDP.
Sei eine Episode.

Als (diskontierten) Nutzen von in bezeichnen wir:

wobei wir als Diskontierungsfaktor (auch Discountfaktor) bezeichnen.

Anmerkung

Auswirkung von

Der Diskontierungsfaktor wägt den Nutzen früher Belohnungen gegen den Nutzen später Belohnungen ab.

Bei kleinem werden Strategien bevorzugt, die möglichst schnell hohe Belohnungen erhalten.

Übliche Werte für sind oder .

Ist , so ist gewährleistet, dass .