Typen
:Generalisierungen
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.2.1, Definition 1)
⠀
Definition: Belohnung eines Probelaufs
Sei
ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Seieine feste Strategie.
Seiein von induzierter Probelauf mit . Als Belohnung von O bezeichnen wir die Funktion
mit
.