Involvierte Definitionen
:Veranstaltung
: EMLReferenz
: @thimm2024 (Abschnitt 4.1.3, Theorem 3)
⠀
Theorem: Policy Iteration konvergiert gegen die optimale Strategie
Sei
beliebig.
Seiwie im Policy Iteration-Algorithmus definiert durch: Dann gilt: