Algorithmus: Policy Iteration

Sei ein Markov-Entscheidungsprozess.
Sei der Diskontierungsfaktor.
Sei die Anzahl der Iterationen.

Als Policy Iteration (kurz PI-Algorithmus) zur Berechnung der optimalen Strategie bezeichnen wir folgenden Algorithmus:


Eingabe: MDP , Diskontierungsfaktor , Anzahl der Iterationen
Ausgabe: Optimale Strategie für


Setze beliebig

repeat
Für alle , bestimme
Für alle , setze


until
return