/vault

Home

❯

Reinforcement Learning

❯

Theorem - Policy Iteration konvergiert gegen die optimale Strategie

Jul 29, 20247 min read

Involvierte Definitionen:
- Policy Iteration
- Optimale Strategie
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.1.3, Theorem 3)

⠀

Theorem: Policy Iteration konvergiert gegen die optimale Strategie

Sei beliebig.
Sei wie im Policy Iteration-Algorithmus definiert durch:

Dann gilt:

Graph View

Mentioned in

Algorithmus - Policy Iteration
Definition - Optimale Strategie
Theorem - Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie konvergiert

Home
🔬 GitHub
⚙️ LinkedIn