Theorem: Rekursive Charakterisierung des optimalen Zustandsnutzens

Sei ein Markov-Entscheidungsprozess.

Mit der Bellmann-Gleichung (bzw. der rekursiven Charakterisierung des optimalen Zustandsnutzens) gilt:

Der optimale Nutzen von entspricht also der Summe der Belohnung und des optimalen Nutzens des erwarteten Folgezustands.