Definition: Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie

Sei ein Markov-Entscheidungsprozess.

Den Zustandsnutzen bezüglich einer Strategie können wir iterativ berechnen durch das Bellman-Update:

Anmerkung

Nutzung für den Approximierten Zustandsnutzen bezüglich einer Strategie

Für den approximierten Zustandsnutzen können wir diese Methode äquivalent anwenden.