Bewiesen durch
:Typen
:Konstrukte/Folgerungen
:Involvierte Definitionen
:- MDP
- Optimale Strategie
- siehe auch Policy Iteration
Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.2)
⠀
Algorithmus: Value Iteration
Sei
ein Markov-Entscheidungsprozess.
Seider Diskontierungsfaktor.
Seidie Anzahl der Iterationen. Als Value Iteration (kurz VI-Algorithmus) zur Berechnung der optimalen Strategie
bezeichnen wir folgenden Algorithmus:
Eingabe: MDP
, Diskontierungsfaktor , Anzahl der Iterationen
Ausgabe: Optimale Strategiefür
für alle
repeat
for do
until for
do
return
Anmerkung
und Häufig wird der VI-Algorithmus auch weiter in die beiden Teil-Algorithmen
und aufgespalten, wobei:
repeat
for do
until return Beziehungsweise unter Nutzung einer Strategie
repeat
for do
until return
fordo
return
Damit ergibt sich der VI-Algorithmus auch durch:
für alle
return