/vault

❯

Reinforcement Learning

❯

Theorem - Bellmann-Update

Theorem - Bellmann-Update

Jun 10, 20247 min read

Konstrukte:
- Value-Iteration Algorithmus
Generalisierungen:
Eigenschaften:
- Bellmann-Update konvergiert gegen optimalen Zustandsnutzen
Involvierte Definitionen:
- MDP
- Rekursive Charakterisierung des optimalen Zustandsnutzens
Veranstaltung: EML
Referenz: @thimm2024 (Abschnitt 4.1.2)

⠀

Theorem: Bellmann-Update

Sei ein Markov-Entscheidungsprozess.

Als Bellmann-Update definieren wir die iterative Berechnung des optimalen Zustandsnutzens:

Graph View

Mentioned in

Algorithmus - Value-Iteration
Definition - Optimaler Zustandsnutzen
Theorem - Bellmann-Update konvergiert gegen optimalen Zustandsnutzen
Theorem - Rekursive Charakterisierung des optimalen Zustandsnutzens

Made by Malte Zietlow using Quartz v4.3.1 © 2026

Home
🔬 GitHub
⚙️ LinkedIn