Konstrukte:Generalisierungen:- Zustandsnutzen bezüglich einer Strategie
- Adaptive dynamische Programmierung
Hinreichende Bedingungen:Involvierte Definitionen:Veranstaltung: EMLReferenz: @thimm2024 (Abschnitt 4.2.2, Definition 4)
⠀
Definition: Approximierter Zustandsnutzen bezüglich einer Strategie
Sei
ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Seieine Menge von Probeläufen bezüglich einer Strategie . Dann können wir
approximieren durch: Für ausreichend viele Probeläufe konvergiert
gegen