Definition: Approximierte Belohnungsfunktion

Sei ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Sei eine Menge von Probeläufen bezüglich einer Strategie .

Dann können wir approximieren durch:

ü

Wobei wir voraussetzen, dass der Reward für alle Beobachtungen identisch ist.