Definition: Beobachteter Zustandsnutzen bezüglich einer Strategie

Sei ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Sei eine Strategie.

Als beobachteten Zustandsnutzen von bezüglich der Strategie bezeichnen wir

Für ausreichend viele Probeläufe konvergiert gegen .