Eigenschaften:
- Policy Iteration konvergiert gegen die optimale Strategie
Konstrukte/Folgerungen:
Involvierte Definitionen:
- MDP
- Optimale Strategie
- Für die Berechnung von , siehe:
  - Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie
  - bzw. Bellmann-Gleichung
- siehe auch Value Iteration-Algorithmus
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.1.2)

⠀

Algorithmus: Policy Iteration

Sei ein Markov-Entscheidungsprozess.
Sei der Diskontierungsfaktor.
Sei die Anzahl der Iterationen.

Als Policy Iteration (kurz PI-Algorithmus, auch de. Iterative Strategieentwicklung) zur Berechnung der optimalen Strategie bezeichnen wir folgenden Algorithmus:

Eingabe: MDP , Diskontierungsfaktor , Anzahl der Iterationen
Ausgabe: Optimale Strategie für

Setze beliebig

repeat
Für alle , bestimme
Für alle , setze

until
return

/vault

Algorithmus - Policy Iteration

⠀

Graph View

Mentioned in