Proposition: Charakterisierung des optimalen Zustandsnutzens durch Q-Funktion

Sei ein Markov-Entscheidungsprozess.
Sei .

Dann gilt: