Eigenschaften:
- Policy Iteration konvergiert gegen die optimale Strategie
Involvierte Definitionen:
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.1.2)

⠀

Algorithmus: Policy Iteration

Sei ein Markov-Entscheidungsprozess.
Sei der Diskontierungsfaktor.
Sei die Anzahl der Iterationen.

Als Policy Iteration (kurz PI-Algorithmus) zur Berechnung der optimalen Strategie bezeichnen wir folgenden Algorithmus:

Eingabe: MDP , Diskontierungsfaktor , Anzahl der Iterationen
Ausgabe: Optimale Strategie für

Setze beliebig

repeat
Für alle , bestimme
Für alle , setze

until
return

/vault

Algorithmus - Policy Iteration

⠀

Graph View

Mentioned in