Eigenschaften
:Konstrukte/Folgerungen
:Involvierte Definitionen
:- MDP
- Optimale Strategie
- Für die Berechnung von
, siehe: - siehe auch Value Iteration-Algorithmus
Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.2)
⠀
Algorithmus: Policy Iteration
Sei
ein Markov-Entscheidungsprozess.
Seider Diskontierungsfaktor.
Seidie Anzahl der Iterationen. Als Policy Iteration (kurz PI-Algorithmus, auch de. Iterative Strategieentwicklung) zur Berechnung der optimalen Strategie
bezeichnen wir folgenden Algorithmus:
Eingabe: MDP
, Diskontierungsfaktor , Anzahl der Iterationen
Ausgabe: Optimale Strategiefür
Setzebeliebig
repeat
Für alle , bestimme
Für alle , setze
until
return