Definition: Belohnung eines Probelaufs

Sei ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Sei eine feste Strategie.
Sei ein von induzierter Probelauf mit .

Als Belohnung von O bezeichnen wir die Funktion

mit .