/vault

Home

❯

Reinforcement Learning

❯

Theorem - Bellmann-Update konvergiert gegen optimalen Zustandsnutzen

Jun 09, 20246 min read

Involvierte Definitionen:
- Bellmann-Update
- siehe auch Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.1.2)

⠀

Theorem: Bellmann-Update konvergiert gegen optimalen Zustandsnutzen

Sei ein Markov-Entscheidungsprozess.

Dann gilt für das Bellmann-Update:

wobei beleibig.

Graph View

Mentioned in

Theorem - Bellmann-Update
Theorem - Iterative Berechnung des Zustandsnutzens bezüglich einer Strategie konvergiert

Home
🔬 GitHub
⚙️ LinkedIn