Generalisierungen
:Typen
:Konstrukte/Folgerungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.2)
⠀
Theorem: Rekursive Charakterisierung des optimalen Zustandsnutzens
Sei
ein Markov-Entscheidungsprozess. Mit der Bellmann-Gleichung (bzw. der rekursiven Charakterisierung des optimalen Zustandsnutzens) gilt:
Der optimale Nutzen von
entspricht also der Summe der Belohnung und des optimalen Nutzens des erwarteten Folgezustands.