Proposition: Charakterisierung der optimalen Strategie durch den Zustandsnutzen

Sei ein Markov-Entscheidungsprozess.

Mit der Charakterisierung der optimalen Strategie durch den optimalen Zustandsnutzen gilt:

wählt also in jedem Zustand diejenige Aktion aus, die in einen Zustand mit hohem Nutzen führt.