Proposition: Charakterisierung der optimalen Strategie durch Q-Funktion

Sei ein Markov-Entscheidungsprozess.
Sei .

Dann gilt: