Definition: Approximierter Zustandsnutzen bezüglich einer Strategie

Sei ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Sei eine Menge von Probeläufen bezüglich einer Strategie .

Dann können wir approximieren durch:

Für ausreichend viele Probeläufe konvergiert gegen