Konstrukte
:Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.2.2, Definition 3)
⠀
Definition: Approximierte Belohnungsfunktion
Sei
ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Seieine Menge von Probeläufen bezüglich einer Strategie . Dann können wir
approximieren durch: ü Wobei wir voraussetzen, dass der Reward
für alle Beobachtungen identisch ist.