Theorem: Bellmann-Update

Sei ein Markov-Entscheidungsprozess.

Als Bellmann-Update definieren wir die iterative Berechnung des optimalen Zustandsnutzens: