Theorem: Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie

Sei ein Markov-Entscheidungsprozess.
Sei eine Strategie.
Sei der Diskontierungsfaktor.

Mit der rekursiven Charakterisierung des Zustandsnutzens bezüglich einer Strategie (auch Bellmann-Gleichung des Zustandsnutzens bezüglich einer Strategie) gilt:

Der Nutzen von bezüglich der Strategie entspricht also der Summe der Belohnung und des Nutzens aller möglichen Folgezustände bezüglich , gewichtet nach der Wahrscheinlichkeit ebendieses Folgezustandes.