Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.2)
⠀
Theorem: Bellmann-Update konvergiert gegen optimalen Zustandsnutzen
Sei
ein Markov-Entscheidungsprozess. Dann gilt für das Bellmann-Update:
wobei
beleibig.