Theorem: Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie konvergiert

Sei ein Markov-Entscheidungsprozess.

Dann gilt für alle und :