Involvierte Definitionen
:- Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie
- Rekursive Charakterisierung des Zustandsnutzens bezüglich einer Strategie
- Zustandsnutzen bezüglich einer Strategie
- siehe auch Bellmann-Update konvergiert gegen optimalen Zustandsnutzen
- siehe auch Policy Iteration konvergiert gegen die optimale Strategie
Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.3)
⠀
Theorem: Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie konvergiert
Sei
ein Markov-Entscheidungsprozess. Dann gilt für alle
und :