Typen:Generalisierungen:Involvierte Definitionen:Veranstaltung: EMLReferenz: @thimm2024 (Abschnitt 4.2.1, Definition 1)
⠀
Definition: Belohnung eines Probelaufs
Sei
ein (zunächst unbekannter) Markov-Entscheidungsprozess.
Seieine feste Strategie.
Seiein von induzierter Probelauf mit . Als Belohnung von O bezeichnen wir die Funktion
mit
.