Theorem: Bellmann-Update konvergiert gegen optimalen Zustandsnutzen

Sei ein Markov-Entscheidungsprozess.

Dann gilt für das Bellmann-Update:

wobei beleibig.