Konstrukte/Folgerungen
:Generalisierungen
:Hinreichende Bedingungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.3)
⠀
Theorem: Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie
Sei
ein Markov-Entscheidungsprozess.
Seieine Strategie.
Seider Diskontierungsfaktor. Mit der rekursiven Charakterisierung des Zustandsnutzens bezüglich einer Strategie (auch Bellmann-Gleichung des Zustandsnutzens bezüglich einer Strategie) gilt:
Der Nutzen von
bezüglich der Strategie entspricht also der Summe der Belohnung und des Nutzens aller möglichen Folgezustände bezüglich , gewichtet nach der Wahrscheinlichkeit ebendieses Folgezustandes.