Konstrukte
:Generalisierungen
:- Zustandsnutzen bezüglich einer Strategie
- Adaptive dynamische Programmierung
Hinreichende Bedingungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.2.2, Definition 4)
⠀
Definition: Approximierter Zustandsnutzen bezüglich einer Strategie
Sei
ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Seieine Menge von Probeläufen bezüglich einer Strategie . Dann können wir
approximieren durch: Für ausreichend viele Probeläufe konvergiert
gegen