Eigenschaften
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.3)
⠀
Definition: Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie
Sei
ein Markov-Entscheidungsprozess. Den Zustandsnutzen bezüglich einer Strategie
können wir iterativ berechnen durch das Bellman-Update:
Anmerkung
Nutzung für den Approximierten Zustandsnutzen bezüglich einer Strategie
Für den approximierten Zustandsnutzen können wir diese Methode äquivalent anwenden.