Eigenschaften
:Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.2)
⠀
Algorithmus: Policy Iteration
Sei
ein Markov-Entscheidungsprozess.
Seider Diskontierungsfaktor.
Seidie Anzahl der Iterationen. Als Policy Iteration (kurz PI-Algorithmus) zur Berechnung der optimalen Strategie
bezeichnen wir folgenden Algorithmus:
Eingabe: MDP
, Diskontierungsfaktor , Anzahl der Iterationen
Ausgabe: Optimale Strategiefür
Setzebeliebig
repeat
Für alle , bestimme
Für alle , setze
until
return