Algorithmus: Policy Iteration

Sei ein Markov-Entscheidungsprozess.
Sei der Diskontierungsfaktor.
Sei die Anzahl der Iterationen.

Als Policy Iteration (kurz PI-Algorithmus, auch de. Iterative Strategieentwicklung) zur Berechnung der optimalen Strategie bezeichnen wir folgenden Algorithmus:


Eingabe: MDP , Diskontierungsfaktor , Anzahl der Iterationen
Ausgabe: Optimale Strategie für


Setze beliebig

repeat
Für alle , bestimme
Für alle , setze


until
return