Konstrukte/Folgerungen:Generalisierungen:Hinreichende Bedingungen:Involvierte Definitionen:Veranstaltung: EMLReferenz: @thimm2024 (Abschnitt 4.1.3)
⠀
Theorem: Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie
Sei
ein Markov-Entscheidungsprozess.
Seieine Strategie.
Seider Diskontierungsfaktor. Mit der rekursiven Charakterisierung des Zustandsnutzens bezüglich einer Strategie (auch Bellmann-Gleichung des Zustandsnutzens bezüglich einer Strategie) gilt:
Der Nutzen von
bezüglich der Strategie entspricht also der Summe der Belohnung und des Nutzens aller möglichen Folgezustände bezüglich , gewichtet nach der Wahrscheinlichkeit ebendieses Folgezustandes.